決策樹系迴歸元件

本文針對 Azure Machine Learning 設計工具中的一個元件進行說明。

您可以使用這個元件,來根據決策樹系整體建立迴歸模型。

設定模型之後,您必須使用加上標記的資料集和定型模型元件來定型模型。 然後,定型的模型就可用來進行預測。

運作方式

決策樹是非參數化模型,可對每個執行個體執行一系列簡單的測試,周遊整個二元樹狀資料結構,直到抵達葉節點 (決策) 為止。

決策樹有下列優點:

  • 在定型和預測期間,執行運算和記憶體使用都很有效率。

  • 可以代表非線性決策界限。

  • 執行整合式特徵選取和分類,在出現雜訊特徵時也能靈活應變。

此迴歸模型由決策樹的集團所組成。 迴歸決策樹系中的每個樹狀結構都會輸出高斯分佈作為預測。 系統會對樹狀結構整體執行彙總,以找出最接近模型中所有樹狀結構合併分佈的高斯分佈。

如需有關此演算法及其實作的理論架構詳細資訊,請參閱這篇文章:決策樹系:適用於分類、迴歸、密度估計、流形學習與和半監督學習的統一架構 (英文)

如何設定決策樹系迴歸模型

  1. 「決策樹系迴歸」元件新增至管線。 您可以在設計工具中 [機器學習]、[初始化] 和 [迴歸] 下找到此元件。

  2. 開啟元件內容,然後針對 [重新取樣方法],選擇建立個別樹狀結構所使用的方法。 您可以選擇 [封袋] 或 [複寫]。

    • 封袋:封袋又稱為「啟動程序彙總」。 迴歸決策樹系中的每個樹狀結構都會透過預測來輸出高斯分佈。 彙總是為了透過結合各個樹狀結構所傳回的所有分佈,來提供高斯分佈,以找出前兩個矩符合這些高斯分佈混合後的矩的高斯。

      如需詳細資訊,請參閱維基百科中的啟動程序彙總

    • 複寫:在複寫中,系統會以完全相同的輸入資料將每個樹狀結構定型。 每個樹狀節點所使用的分割述詞判斷會維持隨機狀態,使樹狀結構具有差異。

      如需有關使用 [複寫] 選項將程序定型的詳細資訊,請參閱電腦視覺和醫療影像分析的決策樹系。Criminisi and J. Shotton. Springer 2013. (英文)。

  3. 設定 [建立定型模式] 選項來指定要如何定型模型。

    • 單一參數

      如果您知道要如何設定模型,您可以提供一組特定值做為引數。 您可能已經透過實驗知道這些值,或已依據指導收到這些值。

    • 參數範圍:如果您不確定最佳參數,且想要執行參數掃掠,請選取此選項。 選取要反覆運算的值範圍,而調整模型超參數會反覆運算您提供的所有可能設定組合,以判斷可產生最佳結果的超參數。

  4. 針對 [決策樹數目],指出要在整體中建立的決策樹總數。 藉由建立多個決策樹,您或許能夠有較佳的涵蓋範圍,但是定型時間會拉長。

    提示

    不過,如果您將值設定為 1,這表示將只會產生一個樹狀結構 (具有初始參數集的樹狀結構),且不會執行進一步反覆運算。

  5. 針對 [決策樹的最大深度],請輸入一個數字以限制任何決策樹的最大深度。 增加樹狀結構的深度可增加有效位數,但可能會有過度配適及定型時間增加的風險。

  6. 針對 [每個節點的隨機分割數目]:輸入建立樹狀結構的每個節點時所要使用的分割數目。 分割意指樹狀結構的每個層級 (節點) 中的特徵是隨機分割的。

  7. 針對 [每個分葉節點的樣本數下限],請指出在樹狀結構中建立任何終端節點 (分葉) 所需的最低案例數目。

    藉由增加此值,您會增加建立新規則的臨界值。 例如,若預設值是 1,即使單一案例可能會造成新規則的建立。 如果您將此值增加為 5,則定型資料必須至少包含五個符合相同條件的案例。

  8. 將模型定型:

    • 如果您將 [建立定型模式] 設定為 [單一參數],請連接已標記的資料集和定型模型元件。

    • 如果您將 [建立定型模式] 設定為 [參數範圍],請連接已標記的資料集,並使用調整模型超參數來定型模型。

    注意

    如果您將參數範圍傳遞給定型模型,則系統只會使用單一參數清單中的預設值。

    如果您將單一組參數值傳遞至調整模型超參數元件,當其預期每個參數有一組設定時,則會忽略這些值,並對學習模組使用預設值。

    如果您選取 [參數範圍] 選項,並對任何參數輸入單一值,則在整個掃掠期間都會使用您所指定的該單一值,即使其他參數在某個範圍的值之間變更亦然。

  9. 提交管線。

結果

定型完成後:

  • 若要儲存已定型模型的快照集,請選取定型元件,然後切換成右側面板中的 [輸出] 索引標籤。 按一下 [註冊模型] 圖示。 您可以在元件樹狀結構中,找到儲存成元件的模型。

後續步驟

請參閱 Azure Machine Learning 可用的元件集