多元決策樹系元件

此文章描述 Azure Machine Learning 設計工具中的一個元件。

使用此元件可根據決策樹系演算法建立機器學習模型。 決策樹系是一種集團模型,可快速建置一系列的決策樹,同時從標記的資料中學習。

關於決策樹系的其他資訊

決策樹系演算法是一種集團學習方法,適用於分類。 此演算法的運作方式是建置多個決策樹,然後票選最熱門的輸出類別。 票選是一種彙總形式,其中分類決策樹系中的每個樹狀結構都會輸出非正規化的標籤頻率長條圖。 彙總流程會加總這些長條圖並將結果正規化,以取得每個標籤的「機率」。 具有高預測信賴度的樹狀結構在集團的最終決策中會有較高的加權。

一般而言,決策樹是非參數化的模型,意指其支援各種分佈的資料。 在每個樹狀結構中,對每一級執行一系列簡單的測試,同時增加樹狀結構的層級,直到抵達葉節點 (決策) 為止。

決策樹有許多優點:

  • 可以代表非線性決策界限。
  • 在定型和預測期間,執行運算和記憶體使用都很有效率。
  • 它們會執行整合式特徵選取和分類。
  • 它們可彈性呈現雜訊特徵。

Azure Machine Learning 中的決策樹系分類器由一整團的決策樹所組成。 一般而言,集團模型比單一決策樹的涵蓋範圍更廣、精確度更高。 如需詳細資訊,請參閱決策樹

如何設定多元決策樹系

  1. 在設計工具中,將多元決策樹系元件新增至您的管線。 您可以在 [機器學習]、[初始化模型] 和 [分類] 下找到此元件。

  2. 按兩下此元件開啟 [屬性] 窗格。

  3. 針對 [重新取樣方法],選擇建立個別樹狀結構所使用的方法。 您可以選擇封袋或複寫。

    • 封袋:封袋又稱為啟動程序彙總。 在這個方法中,每個樹狀結構都會在新的範例中成長,透過取代來隨機取樣原始資料集進行建立,直到資料集與原始資料集的大小相等為止。 模型的輸出會透過票選 (一種彙總形式) 組合。 如需詳細資訊,請參閱維基百科對於啟動程序彙總的條目。

    • 複寫:在複寫中,每個樹狀結構都會以完全相同的輸入資料定型。 每個樹狀節點所使用的分割述詞判斷會保持隨機,以建立不同的樹狀結構。

  4. 設定 [建立定型模式] 選項來指定要如何定型模型。

    • 單一參數:如果您知道要如何設定模型,請選取此選項,並提供一組值作為引數。

    • 參數範圍:如果您不確定最佳參數,且想要執行參數掃掠,請選取此選項。 選取要反覆運算的值範圍,而微調模型超參數會反覆運算您提供的所有可能設定組合,以判斷可產生最佳結果的超參數。

  5. 決策樹的數目:輸入集團內可建立的決策樹數目上限。 透過建立多個決策樹,您或許能夠有較佳的涵蓋範圍,但是定型時間可能會增加。

    不過,如果您將值設定為 1,這表示只會產生一個樹狀結構 (具有初始參數集的樹狀結構),且不會執行進一步反覆運算。

  6. 決策樹的最大深度:輸入數字以限制任何決策樹的最大深度。 增加樹狀結構的深度可增加有效位數,但可能會有過度配適及定型時間增加的風險。

  7. 每個節點的隨機分割數目:輸入建置樹狀結構的每個節點時所要使用的分割數目。 分割意指樹狀結構的每個層級 (節點) 中的特徵會隨機分割。

  8. 每個分葉節點的樣本數下限:指出在樹狀結構中建立任何終端節點 (分葉) 所需的案例數目下限。 藉由增加此值,您會增加建立新規則的臨界值。

    例如,若預設值是 1,即使單一案例可能會造成新規則的建立。 如果您將此值增加為 5,則定型資料必須至少包含五個符合相同條件的案例。

  9. 連線標記資料集,並定型模型:

    • 如果您將 [建立定型模式] 設定為 [單一參數],請連接已標記的資料集和定型模型元件。

    • 如果您將 [建立定型模式] 設定為 [參數範圍],請連接已標記的資料集,並使用調整模型超參數來定型模型。

    注意

    如果您將參數範圍傳遞給定型模型,則系統只會使用單一參數清單中的預設值。

    如果您將單一組參數值傳遞至調整模型超參數元件,當其預期每個參數有一組設定時,則會忽略這些值,並對學習模組使用預設值。

    如果您選取 [參數範圍] 選項,並對任何參數輸入單一值,則在整個掃掠期間都會使用您所指定的該單一值,即使其他參數在某個範圍的值之間變更亦然。

  10. 提交管線。

後續步驟

請參閱 Azure Machine Learning 可用的元件集