多級決策叢林
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
使用決策叢林演算法建立多級分類模型
模組概觀
本文說明如何使用機器學習 Studio (傳統) 中的多元決策蛙蛙模組,建立以稱為決策叢林的監督式學習演算法為基礎的機器學習模型。
您可以使用此模組來定義模型及其參數,然後連接加上標籤的訓練資料集,以使用其中一個 定型模組來定型模型。 定型的模型可以用來預測具有多個值的目標。
關於決策叢林的詳細資訊
決策叢林 是 決策樹系的最新延伸。 決策叢林由一整團的決策導向非循環圖 (DAG) 所組成。
決策叢林有下列優點:
由於允許樹狀結構分支合併,決策 DAG 通常比決策樹耗用較少的記憶體,整體效能也較佳,只是定型時間稍微久一些。
決策叢林是可以代表非線性決策界限的非參數化模型。
執行整合式特徵選取和分類,在出現雜訊特徵時也能靈活應變。
如需此機器學習演算法背後研究的詳細資訊,請參閱 決策叢林:分類的 Compact 和豐富模型 (可下載的 PDF) 。
如何設定多元決策蛙模型
將 多元決策蛙 模組新增至您在 Studio (傳統) 中的實驗。 您可以在機器學習、初始化模型和分類底下找到此模組。
按兩下模組以開啟 [ 屬性 ] 窗格。
重新取樣方法,選擇建立多個樹狀結構的方法,可能是封袋] 或 replication。
封袋]:選取此選項可使用封袋],也稱為啟動程式匯總。
決策樹系中的每個樹狀結構都會透過預測來輸出高斯分佈。 匯總是為了藉由結合個別樹狀結構所傳回的所有 Gaussians,來找出前兩分鐘符合 Gaussians 混合時間的高斯。
複寫:若要使用複寫,請選取此選項。 在此方法中,每個樹狀結構都會以完全相同的輸入資料進行定型。 判斷每個樹狀節點所使用的分割述詞會保持隨機,因此會建立不同的樹狀結構。
設定 [建立定型模式] 選項來指定要如何定型模型。
單一參數:當您知道要如何設定模型時,請使用此選項。
參數範圍:如果您不確定最佳參數,而且想要使用參數清除,請使用此選項。
決策 dag 的數目:指出可在集團中建立的最大圖形數目。
決策 dag 的最大深度:指定每個圖形的最大深度。
決策 dag 的最大寬度:指定每個圖形的最大寬度。
每個決策 DAG 層的優化步驟數目:指出建立每個 DAG 時要執行的資料反復次數。
允許類別特徵有未知的值:選取此選項可在測試或驗證資料中建立未知值的群組。 此模型對於已知值可能較不精確,但針對新的 (未知) 值可提供更佳的預測。
如果您取消選取此選項,模型只能接受定型資料中出現的值。
連線已加上標籤的資料集,以及其中一個定型模組:
執行實驗。
結果
定型完成後:
- 若要使用模型進行評分,請將它連接到 評分模型,以預測新輸入範例的值。
範例
如需如何在機器學習中使用決策樹系的範例,請參閱 Azure AI 資源庫:
- 比較多元分類器範例:使用數種演算法,並討論其優缺點。
技術說明
本節包含實作詳細資料、提示和常見問題集的解答。
相關研究
如需有關使用 [複寫 ] 選項定型程式的詳細 資訊,請參閱:
使用提示
如果您的資料有限,或想要將定型模型所花費的時間降到最低,請嘗試下列建議:
有限的定型集
如果定型集只包含少數的執行個體:
- 使用較多的決策 DAG 來建立決策叢林 (例如,超過 20 個)
- 使用 [封袋] 選項來重新取樣。
- 每個 DAG 層指定大量的最佳化步驟 (例如,超過 10,000 個)。
有限的定型時間
如果定型集包含大量的執行個體,而且定型時間有限:
- 建立使用較少決策 Dag 的決策蛙 (例如,5-10) 。
- 使用 [複寫] 選項來重新取樣。
- 每個 DAG 層指定較少的最佳化步驟 (例如,少於 2000 個)。
模組參數
名稱 | 範圍 | 類型 | 預設 | 描述 |
---|---|---|---|---|
重新取樣方法 | 任意 | ResamplingMethod | Bagging | 選擇重新取樣方法 |
決策 DAG 的數目 | >=1 | 整數 | 8 | 指定可在集團中建立的決策圖數目 |
決策 DAG 的最大深度 | >=1 | 整數 | 32 | 指定要在集團中建立的決策圖的最大深度 |
決策 DAG 的最大寬度 | >= 8 | 整數 | 128 | 指定要在集團中建立的決策圖的最大寬度 |
每一決策 DAG 層的最佳化步驟數目 | >= 1000 | 整數 | 2048 | 指定要用於最佳化決策圖的每個層級的步驟數目 |
類別特徵中允許未知值 | 任意 | 布林值 | True | 指出現有類別特徵的未知值是否可以對應至新的額外特徵 |
輸出
名稱 | 類型 | 描述 |
---|---|---|
未定型的模型 | ILearner 介面 | 未定型的二級分類模型 |