共用方式為


Microsoft 樸素貝葉斯演算法

Microsoft天真貝氏分類演算法是一種基於貝氏定理的分類演算法,由Microsoft SQL Server Analysis Services提供,用於預測模型。 在天真貝氏這個名稱中,「天真」一詞源自於該演算法使用貝氏技術,但不考慮可能存在的相依性。

此演算法的計算強度比其他Microsoft演算法少,因此有助於快速產生採礦模型,以探索輸入數據行與可預測數據行之間的關聯性。 您可以使用此演算法對數據進行初始探索,然後稍後您可以套用結果,以建立具有更密集且更精確運算的其他演算法的其他採礦模型。

範例

作為正在進行的促銷策略,Adventure Works Cycle 公司的行銷部門已決定透過郵寄傳單來鎖定潛在客戶。 為了降低成本,他們只想將傳單傳送給可能回應的客戶。 公司會將有關人口統計和回應先前郵件的資訊儲存在資料庫中。 他們想要使用此數據來瞭解年齡和位置等人口統計如何協助預測對促銷的回應,方法是比較潛在客戶與過去從公司購買的類似特性的客戶。 具體來說,他們希望看到那些購買自行車的客戶與那些沒有購買自行車的客戶之間的差異。

藉由使用Microsoft樸素貝氏演算法,行銷部門可以快速預測特定客戶資料的結果,因此可以判斷哪些客戶最有可能回應宣傳單。 藉由在 SQL Server Data Tools (SSDT) 中使用 Microsoft Naive Bayes 查看器,也可以視覺化地調查哪些輸入欄位會引起傳單的正面回應。

演算法的運作方式

Microsoft天真貝氏演算法會根據可預測欄的每個可能狀態,計算每個輸入欄之每個狀態的機率。

若要了解運作方式,請使用 SQL Server Data Tools (SSDT) 中的 Microsoft 貝氏機率分類查看器(如下圖所示),以可視化方式探索演算法散發狀態的方式。

狀態的貝葉斯分佈

在此,Microsoft樸素貝氏查看器列出數據集中的每個輸入欄位,並顯示在可預測欄位的每個狀態下,每個欄位的狀態如何分佈。

您會使用此模型的檢視來識別輸入數據行,這些輸入數據行對於區分可預測數據行的狀態很重要。

例如,在此顯示的通勤距離數據列中,買家與非買家的輸入值分佈明顯不同。 這會告訴您,輸入通勤距離 = 0-1 英里是潛在的預測值。

查看器還提供分佈的值,因此您可以看到,對於通勤距離在一到兩英里之間的客戶,購買自行車的可能性是0.387,而不購買自行車的可能性是0.287。 在此範例中,演算法會使用衍生自客戶特性(例如通勤距離)的數值資訊來預測客戶是否會購買自行車。

如需使用 Microsoft 貝氏機率查看器的詳細資訊,請參閱 使用 Microsoft 貝氏機率分類查看器流覽模型

樸素貝葉斯模型所需的資料

當您準備數據以用於定型貝氏機率分類模型時,您應該了解演算法的需求,包括需要多少數據,以及如何使用數據。

貝氏機率分類模型的要求如下:

  • 單一索引鍵數據行 每個模型都必須包含一個可唯一識別每個記錄的數值或文字數據行。 不允許使用複合索引鍵。

  • 輸入數據行 在貝氏機率分類模型中,所有數據行都必須是離散或離散化的數據行。 如需離散化數據行的相關信息,請參閱離散化方法(數據採礦)。

    對於朴素貝葉斯模型,確保輸入屬性彼此獨立也非常重要。 當您使用模型進行預測時,這特別重要。

    原因是,如果您使用兩個已經密切相關的數據行,效果就是乘以這些數據行的影響,這可能會遮蔽影響結果的其他因素。

    相反地,當您探索模型或數據集時,演算法識別變數間相互關聯的能力很有用,以識別輸入之間的關聯性。

  • 至少一個可預測的數據行 可預測的屬性必須包含離散或離散化值。

    可預測數據行的值可以視為輸入。 當您探索新的數據集時,這個練習很有用,以尋找數據行之間的關聯性。

檢視模型

若要探索模型,您可以使用 Microsoft Naive Bayes 查看器。 查看器會顯示輸入屬性與可預測屬性的關聯性。 查看器也會提供每個叢集的詳細配置檔、區分每個叢集與其他叢集的屬性清單,以及整個定型數據集的特性。 如需詳細資訊,請參閱 使用 Microsoft 純貝氏查看器瀏覽模型

如果您想要深入瞭解,您可以在 Microsoft一般內容樹視圖器(數據採礦)中流覽模型。 如需模型中所儲存資訊類型的詳細資訊,請參閱貝氏機率分類模型的採礦模型內容(Analysis Services - 數據採礦)。

進行預測

定型模型之後,結果會儲存為一組模式,您可以探索或使用來進行預測。

您可以建立查詢來傳回新數據與可預測屬性的關聯性預測,或擷取描述模型所找到相互關聯之統計數據。

如需如何針對數據採礦模型建立查詢的詳細資訊,請參閱 數據採礦查詢。 如需如何搭配貝氏機率分類模型使用查詢的範例,請參閱 貝氏機率分類模型查詢範例

備註

  • 支援使用預測模型標記語言 (PMML) 來建立採礦模型。

  • 支援鑽取功能。

  • 不支援建立數據採礦維度。

  • 支援使用 OLAP 採礦模型。

另請參閱

數據探勘演算法(Analysis Services - 數據探勘)特徵選擇(數據探勘)樸素貝氏模型查詢範例樸素貝氏模型內容(Analysis Services - 數據探勘)Microsoft樸素貝氏演算法技術參考