多元決策樹系
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
使用決策樹系演算法建立多級分類模型
模組概觀
本文說明如何在機器學習 Studio (傳統) 中使用多元決策樹系模組,以根據決策樹系演算法建立機器學習模型。 決策樹系是一種集團模型,非常快速地建立一連串的決策樹,同時從標記的資料中學習。
關於決策樹系的其他資訊
決策樹系演算法是一種集團學習方法,適用於分類。 此演算法的運作方式是建置多個決策樹,然後票選最熱門的輸出類別。 票選是一種彙總形式,其中分類決策樹系中的每個樹狀結構都會輸出非正規化的標籤頻率長條圖。 匯總程式會加總這些長條圖並標準化結果,以取得每個標籤的「機率」。 具有高預測信賴度的樹狀結構在集團的最終決策中會有較高的加權。
一般而言,決策樹是非參數化的模型,意指其支援各種分佈的資料。 在每個樹狀結構中,對每一級執行一系列簡單的測試,同時增加樹狀結構的層級,直到抵達葉節點 (決策) 為止。
決策樹有許多優點:
- 可以代表非線性決策界限。
- 在定型和預測期間,執行運算和記憶體使用都很有效率。
- 它們會執行整合式特徵選取和分類。
- 它們可彈性呈現雜訊特徵。
機器學習 Studio (傳統) 中的決策樹系分類器包含決策樹的集團。 一般而言,集團模型比單一決策樹的涵蓋範圍更廣、精確度更高。 如需詳細資訊,請參閱決策樹。
如何設定多元決策樹系
提示
如果您不確定最佳參數,建議您使用 [ 微調模型超參數 ] 模組來定型及測試多個模型,並找出最佳參數。
將 多元決策樹 系模組新增至您在 Studio (傳統) 中的實驗。 您可以在機器學習、初始化模型和分類底下找到此模組。
按兩下模組以開啟 [ 屬性 ] 窗格。
針對 [重新取樣方法],選擇建立個別樹狀結構所使用的方法。 您可以選擇封袋或複寫。
封袋:封袋又稱為啟動程序彙總。 在這個方法中,每個樹狀結構都會在新的範例中成長,透過取代來隨機取樣原始資料集進行建立,直到資料集與原始資料集的大小相等為止。 模型的輸出會透過票選 (一種彙總形式) 組合。 如需詳細資訊,請參閱維基百科對於啟動程序彙總的條目。
複寫:在複寫中,每個樹狀結構都會以完全相同的輸入資料定型。 每個樹狀節點所使用的分割述詞判斷會保持隨機,以建立不同的樹狀結構。
如需指引,請參閱 如何設定多元決策樹系模型 一節。
設定 [建立定型模式] 選項來指定要如何定型模型。
單一參數:如果您知道要如何設定模型,請選取此選項,並提供一組值作為引數。
參數範圍:如果您不確定最佳參數,而且想要使用參數清除,請使用此選項。
決策樹的數目:輸入集團內可建立的決策樹數目上限。 透過建立多個決策樹,您或許能夠有較佳的涵蓋範圍,但是定型時間可能會增加。
當將定型的模型視覺化時,此值也會控制結果中顯示的樹狀結構數目。 若要查看或列印單一樹狀結構,您可以將值設定為1。不過,這表示只有一個樹狀結構可 () 的初始參數集來產生,而不會執行任何進一步的反覆運算。
決策樹的最大深度:輸入數字以限制任何決策樹的最大深度。 增加樹狀結構的深度可增加有效位數,但可能會有過度配適及定型時間增加的風險。
每個節點的隨機分割數目:輸入建置樹狀結構的每個節點時所要使用的分割數目。 分割意指樹狀結構的每個層級 (節點) 中的特徵會隨機分割。
每個分葉節點的樣本數下限:指出在樹狀結構中建立任何終端節點 (分葉) 所需的案例數目下限。 藉由增加此值,您會增加建立新規則的臨界值。
例如,若預設值是 1,即使單一案例可能會造成新規則的建立。 如果您將此值增加至 5,則定型資料至少要包含 5 個案例,才會符合相同的條件。
允許類別特徵有未知的值:選取此選項可在定型或驗證集中建立未知值的群組。 此模型對於已知值可能較不精確,但針對新的 (未知) 值可提供更佳的預測。
如果您取消選取此選項,模型只能接受定型資料中出現的值。
連線已加上標籤的資料集和其中一個定型模組:
執行實驗。
結果
定型完成後:
- 若要查看在每個反復專案上建立的樹狀結構,請以滑鼠右鍵按一下 [ 定型模型 模組],然後選取要視覺化的 定型模型 。 如果您使用 [ 微調模型超參數],請以滑鼠右鍵按一下模組,然後選取 定型的最佳模型 ,將最佳模型視覺化。 若要查看每個節點的規則,請按一下每個樹狀結構,向下切入分割。
範例
如需如何在機器學習中使用決策樹系的範例,請參閱 Azure AI 資源庫:
- 比較多元分類器範例:使用數種演算法,並討論其優缺點。
技術說明
本節包含實作詳細資料、提示和常見問題集的解答。
實作詳細資料
分類決策樹系中的每個樹狀結構都會輸出未標準化的標籤頻率長條圖。 匯總是加總這些長條圖和正規化,以取得每個標籤的「機率」。 如此一來,具有高預測信賴度的樹狀結構在集團的最終決策中會有較高的加權。
相關研究
如需有關使用 [複寫 ] 選項定型程式的詳細 資訊,請參閱:
如何設定多級決策樹系模型
您可以變更模組的設定方式,以容納一些案例,例如太少資料,或是定型的時間有限。
有限的定型時間
如果定型集包含大量的執行個體,但您可用來定型模型的時間有限,請嘗試使用下列選項:
- 使用較少的決策數來建立決策樹系 (例如,5-10)。
- 使用 [複寫] 選項來重新取樣。
- 每個節點指定較少的隨機分割 (例如,少於 100 個)。
有限的定型集
如果定型集只包含少數的執行個體,請嘗試使用這些選項:
- 使用較多的決策樹來建立決策樹系 (例如,超過 20 個)。
- 使用 [封袋] 選項來重新取樣。
- 每個節點指定大量的隨機分割 (例如,超過 1,000 個)。
模組參數
名稱 | 範圍 | 類型 | 預設 | 描述 |
---|---|---|---|---|
重新取樣方法 | 任意 | ResamplingMethod | Bagging | 選擇重新取樣方法: 封袋] 或 複製 |
決策樹的數目 | >=1 | 整數 | 8 | 指定在集團中建立的決策樹個數 |
決策樹的最大深度 | >=1 | 整數 | 32 | 指定可建立的任何決策樹的最大深度 |
每個節點的隨機分割數目 | >=1 | 整數 | 128 | 指定每個節點產生的分割數目,以從中選取最佳的分割 |
每一個葉節點的樣本數下限 | >=1 | 整數 | 1 | 指定要產生葉節點所需的最少定型樣本數 |
類別特徵中允許未知值 | 任意 | 布林值 | True | 指出現有類別特徵的未知值是否可以對應至新的額外特徵 |
輸出
名稱 | 類型 | 描述 |
---|---|---|
未定型的模型 | ILearner 介面 | 未定型的二級分類模型 |