多類別判定樹系元件
本文說明 Azure 機器學習 設計工具中的元件。
使用此元件來根據 判定樹 系演算法建立機器學習模型。 判定樹系是一種合奏模型,可快速建置一系列判定樹,同時從標記的數據學習。
深入瞭解決策樹系
判定樹系演算法是分類的合奏學習方法。 此演算法的運作方式是建置多個判定樹,然後 投票給 最受歡迎的輸出類別。 投票是一種匯總形式,其中分類判定樹系中的每個樹狀結構都會輸出標籤的非正規化頻率直方圖。 匯總程式會加總這些直方圖,並將結果正規化,以取得每個標籤的「機率」。 具有高預測信心的樹狀結構在合奏的最終決定中具有更大的權重。
一般而言,判定樹是非參數模型,這表示它們支援具有不同分佈的數據。 在每個樹狀結構中,會針對每個類別執行一連串簡單的測試,以增加樹狀結構的層級,直到到達分葉節點(決策)為止。
判定樹有許多優點:
- 可以代表非線性決策界限。
- 在定型和預測期間,它們在計算和記憶體使用量方面很有效率。
- 它們會執行整合式特徵選取和分類。
- 它們可彈性呈現雜訊特徵。
Azure 機器學習 中的判定樹分類器是由判定樹的合奏所組成。 一般而言,集團模型比單一決策樹的涵蓋範圍更廣、精確度更高。 如需詳細資訊,請參閱 判定樹。
如何設定多類別判定樹系
將 多類別決策樹 系元件新增至設計工具中的管線。 您可以在 [機器學習]、[初始化模型] 和 [分類] 下找到此元件。
按兩下元件以開啟 [ 屬性 ] 窗格。
針對 [重新取樣方法],選擇用來建立個別樹狀結構的方法。 您可以選擇套用或複寫。
嘮叨:Bagging 也稱為 啟動程序匯總。 在此方法中,每個樹狀結構都會在新的樣本上成長,其建立方式是隨機取樣原始數據集並取代,直到您擁有原始數據集的大小為止。 模型的輸出會透過 投票來結合,這是匯總的形式。 如需詳細資訊,請參閱Bootstrap匯總的維琪百科專案。
復寫:在複寫中,每個樹狀結構都會在完全相同的輸入數據上定型。 每個樹狀節點會使用哪一個分割述詞的判斷是隨機的,因此會建立不同的樹狀結構。
藉由設定 [建立定型定型器模式 ] 選項,指定您要如何定型模型。
單一參數:如果您知道如何設定模型,並提供一組值做為自變數,請選取此選項。
參數範圍:如果您不確定最佳參數,而且想要執行參數掃掠,請選取此選項。 選取要逐一查看的值範圍,而 微調模型超參數 會逐一查看您提供之設定的所有可能組合,以判斷產生最佳結果的超參數。
判定樹數目:輸入可在合奏中建立的判定樹數目上限。 藉由建立更多判定樹,您可能會獲得更好的涵蓋範圍,但定型時間可能會增加。
如果您將值設定為 1;不過,這表示只能產生一個樹狀結構(具有初始參數集的樹狀結構),而且不會再執行任何反覆專案。
判定樹的最大深度:輸入數位以限制任何判定樹的最大深度。 增加樹狀結構的深度可能會增加精確度,但有一些過度學習和增加訓練時間的風險。
每個節點的隨機分割數目:輸入建置樹狀結構每個節點時要使用的分割數目。 分割表示樹狀結構(節點)每個層級的功能會隨機分割。
每個分葉節點的樣本數目下限:指出樹狀結構中建立任何終端節點(分葉)所需的最小案例數目。 藉由增加此值,您可以增加建立新規則的臨界值。
例如,預設值為 1,即使是單一案例,也會導致建立新的規則。 如果您將值增加至 5,定型數據必須包含至少五個符合相同條件的案例。
連接標示的數據集,並定型模型:
如果您將 [建立定型器模式] 設定為 [單一參數],請連接已標記的數據集和定型模型元件。
如果您將 [建立定型器模式] 設定為 [參數範圍],請使用 [微調模型超參數] 連接已標記的數據集並定型模型。
提交管線。