Microsoft 貝氏機率分類演算法
Microsoft 貝氏機率分類演算法是 Microsoft SQL Server Analysis Services 所提供用於預測模型的分類演算法。貝氏 (Naive Bayes) 這個名稱源自此演算法使用貝氏定理但卻沒有考量可能存在的相依性,因此其假設被視為「Naive」(亦即天真之意)。
此演算法比其他 Microsoft 演算法更少計算,因此對於快速產生採礦模型來探索輸入資料行和可預測資料行之間的關聯性很有用。您可以使用此演算法來執行資料的初始瀏覽,然後您可以套用其結果,以其他更多計算和更精確的演算法來建立其他採礦模型。
範例
做為一項正在進行的促銷策略,Adventure Works Cycle 公司的行銷部門決定郵寄廣告傳單來鎖定目標潛在客戶。為了減少成本,他們想要將廣告傳單只寄給那些有可能回應的客戶。公司會將有關人口統計資料和舊郵件的回應等資訊儲存在資料庫中。他們想要使用此資料來了解人口統計資料 (例如年齡和地點) 如何協助預測促銷的回應,藉由將潛在客戶與具有類似特性而且過去曾向公司購買產品的客戶做比較。尤其,他們想要看看那些有購買腳踏車和沒有購買腳踏車的客戶之間的差異。
使用 Microsoft 貝氏機率分類演算法,行銷部門可以快速預測特定客戶設定檔的結果,因此可以判斷哪些客戶最有可能對廣告傳單做出回應。使用 Business Intelligence Development Studio 中的 Microsoft 貝氏機率分類檢視器,他們還可以利用視覺化方式來調查哪些輸入資料行促成廣告傳單的正面回應。
演算法的運作方式
在提供了可預測資料行的每一個可能狀態之後,Microsoft 貝氏機率分類演算法可計算出每一個輸入資料行的每一個狀態的機率。您可以使用 Business Intelligence Development Studio 中的 Microsoft 貝氏機率分類檢視器,來查看演算法如何散發狀態的視覺表示法,如下列圖形所示。
在提供了可預測資料行的每一個狀態之後,Microsoft 貝氏機率分類檢視器可列出資料集內的每一個輸入資料行,並顯示如何散發每一個資料行的狀態。您可以使用此檢視來識別在區分可預測資料行的狀態時很重要的輸入資料行。例如,在此處所顯示的 Commute Distance 資料行中,如果客戶與工作地點的通勤距離是 1 到 2 英里,則其購買腳踏車的機率是 0.387,而不購買腳踏車的機率是 0.287。在此範例中,演算法會使用從客戶特性中衍生的數值資訊 (例如通勤距離),來預測客戶是否會購買腳踏車。如需有關使用 Microsoft 貝氏機率分類檢視器的詳細資訊,請參閱<以 Microsoft 貝氏機率分類檢視器檢視採礦模型>。
貝氏機率分類模型所需的資料
當您準備資料以供貝氏機率分類模型定型使用時,應該要了解特定演算法的需求,包括所需的資料量及資料的使用方式等。
貝氏機率分類模型的需求如下:
單一索引鍵資料行:每個模型都必須包含一個能唯一識別每一筆記錄的數值或文字資料行。不允許複合的索引鍵。
輸入資料行:在貝氏機率分類模型中,所有的資料行都必須是離散或離散化的資料行。如需有關分隔資料行的資訊,請參閱<分隔方法 (資料採礦)>。對貝氏機率分類模型而言,確保輸入屬性彼此無關很重要。
至少有一個可預期的資料行:可預期的屬性必須包含離散或離散化的値。可預期資料行的値可以也經常當做輸入,可用來找出資料行之間的關聯性。
檢視模型
若要瀏覽此模型,您可以使用 [Microsoft 貝氏機率分類檢視器]。檢視器會顯示輸入屬性與可預測屬性間的關聯。檢視器也會針對每個群集提供詳細的設定檔、區分各個群集的屬性清單以及整個訓練資料集的特性。如需詳細資訊,請參閱<以 Microsoft 貝氏機率分類檢視器檢視採礦模型>。
如果想要知道更多詳細資訊,可以在 Microsoft 一般內容樹狀檢視器 (資料採礦設計師) 中瀏覽此模型。如需有關此模型所儲存之資訊類型的詳細資訊,請參閱<貝氏機率分類模型的採礦模型內容 (Analysis Services - 資料採礦)>。
進行預測
在此模型已培訓之後,結果會儲存成一組模式,供您瀏覽或用來做出預測。
您可以建立查詢來傳回新資料與可預測屬性的關聯方式,或者擷取描述有關群集的描述性統計資料。
如需有關如何針對資料採礦模型建立查詢的詳細資訊,請參閱<查詢資料採礦模型 (Analysis Services - 資料採礦)>。如需如何使用貝氏機率分類模型使用查詢的範例,請參閱<查詢貝式機率分類模型 (Analysis Services - 資料採礦)>。
備註
支援使用預測模型標記語言 (PMML) 來建立採礦模型。
支援鑽研。
不支援建立資料採礦維度。
支援 OLAP 採礦模型的使用。