Microsoft判定樹演算法是由Microsoft SQL Server Analysis Services 提供的分類和回歸演算法,可用於離散和連續屬性的預測模型化。
對於離散屬性,演算法會根據數據集中輸入數據行之間的關聯性進行預測。 它會使用這些數據行的值,稱為狀態,來預測您指定為可預測之數據行的狀態。 具體而言,演算法會識別與可預測數據行相互關聯的輸入數據行。 例如,在預測哪些客戶可能購買自行車的案例中,如果十分之九的年輕客戶購買自行車,但只有十分之二的較舊客戶這麼做,演算法會推斷年齡是自行車購買的良好預測值。 判定樹會根據這種針對特定結果的趨勢進行預測。
針對連續屬性,演算法會使用線性回歸來判斷判定樹分割的位置。
如果多個數據行設定為可預測,或輸入數據包含設定為可預測的巢狀數據表,則演算法會為每個可預測數據行建置個別的判定樹
範例
Adventure Works Cycles 公司的行銷部門希望識別過去客戶的特征,以判斷這些客戶未來是否有可能購買產品。 AdventureWorks2012 資料庫會儲存描述先前客戶的人口統計資訊。 藉由使用Microsoft判定樹演算法來分析這項資訊,行銷部門可以根據該客戶的已知數據行狀態,例如人口統計或過去的購買模式,建立模型來預測特定客戶是否會購買產品。
演算法的運作方式
Microsoft判定樹演算法會藉由在樹狀結構中建立一系列分割來建立數據採礦模型。 這些分割會以 節點表示。 此演算法會在每次找到輸入資料行與可預測數據行顯著相互關聯時,將節點新增至模型。 演算法判斷分割的方式會因預測連續數據行或離散數據行而有所不同。
Microsoft判定樹演算法會使用 特徵選取 來引導選取最有用的屬性。 所有 Analysis Services 數據採礦演算法都會使用特徵選取來改善效能和分析品質。 特徵選取對於防止使用處理器時間不重要的屬性很重要。 如果您在設計數據採礦模型時使用太多輸入或可預測的屬性,模型可能需要很長的時間來處理,甚至用盡記憶體。 用來判斷是否要拆分樹狀結構的方法包括用於entropy和貝氏網路的業界標準計量。 如需有關選取有意義屬性以及對屬性進行評分和排名的方法的詳細資訊,請參閱特徵選取(資料探勘)。
資料探勘模型中的一個常見問題是,模型對訓練數據中的微小差異過於敏感,這種情況稱為過度擬合或過度訓練。 過度調整的模型無法一般化為其他數據集。 為了避免在任何特定數據集上的過度擬合,Microsoft決策樹演算法會使用技術來控制樹的生長。 如需Microsoft判定樹演演算法運作方式的更深入說明,請參閱 Microsoft判定樹演演算法技術參考。
預測離散欄位
Microsoft 決策樹演算法為離散可預測欄位建置樹狀結構的方式,可以使用直方圖來示範。 下圖顯示了一個直方圖,將可預測的欄位 Bike Buyers 與輸入欄位 Age 進行對比繪製。 直方圖顯示某個人的年齡有助於區分該人是否會購買自行車。
圖表中顯示的相互關聯會導致Microsoft判定樹演算法在模型中建立新的節點。
當演算法將新的節點新增至模型時,會形成樹狀結構。 樹的頂節點描述整體客戶群的可預測欄位的細分。 隨著模型持續成長,演算法會考慮所有數據行。
預測連續型數據欄
當Microsoft判定樹演算法根據連續可預測數據行建置樹狀結構時,每個節點都會包含回歸公式。 分割會在回歸公式中的非線性點發生。 例如,請考慮下圖。
此圖表包含可以使用單行或使用兩條連接的線條來建立模型的數據。 不過,單行無法很好地代表數據。 相反地,如果您使用兩條直線,模型會更好地近似數據。 兩條線結合的點是非線性點,而是判定樹模型中節點分割的點。 例如,對應至上一個圖表中非線性點的節點,可由下圖表示。 這兩個方程式代表兩行的回歸方程式。
判定樹模型所需的數據
當您準備數據以用於判定樹模型時,您應該瞭解特定演算法的需求,包括需要多少數據,以及如何使用數據。
決策樹模型的要求如下:
單一索引鍵數據行 每個模型都必須包含一個可唯一識別每個記錄的數值或文字數據行。 不允許複合鍵。
可預測的數據行 至少需要一個可預測的數據行。 您可以在模型中包含多個可預測屬性,且可預測屬性可以是不同類型的數值或離散屬性。 不過,增加可預測的屬性數目可能會增加處理時間。
輸入數據行 需要輸入數據行,它可以是離散或連續的。 增加輸入屬性的數目會影響處理時間。
如需判定樹模型所支援內容類型和數據類型的詳細資訊,請參閱 Microsoft判定樹演演算法技術參考的需求一節。
檢視決策樹模型
若要探索模型,您可以使用 Microsoft樹視圖器。 如果您的模型產生多個樹狀結構,您可以選取樹狀結構,而查看器會顯示每個可預測屬性案例分類方式的細目。 您也可以使用相依性網路查看器來檢視樹狀架構的互動。 如需詳細資訊,請參閱 使用Microsoft樹視圖器流覽模型。
如果您想要深入瞭解樹狀結構中的任何分支或節點,您也可以使用 Microsoft一般內容樹視圖器來流覽模型。 針對模型儲存的內容包含每個節點中所有值的分佈、樹狀結構每個層級的機率,以及連續屬性的回歸公式。 如需詳細資訊,請參閱判定樹模型的採礦模型內容(Analysis Services - 數據採礦)。
建立預測
處理模型之後,結果會儲存為一組模式和統計數據,您可以使用這些模式和統計數據來探索關聯性或進行預測。
如需要搭配判定樹模型使用的查詢範例,請參閱 判定樹模型查詢範例。
如需如何針對採礦模型建立查詢的一般資訊,請參閱 數據採礦查詢。
備註
支援使用預測模型標記語言 (PMML) 來建立採礦模型。
支援鑽取功能。
支援使用 OLAP 採礦模型和建立數據採礦維度。
另請參閱
資料探勘演算法(Analysis Services - 資料探勘)Microsoft 決策樹演算法技術參考決策樹模型查詢範例決策樹模型的探勘模型內容(Analysis Services - 資料探勘)