決策樹系迴歸元件

發行項
06/01/2023

本文針對 Azure Machine Learning 設計工具中的一個元件進行說明。

您可以使用這個元件，來根據決策樹系整體建立迴歸模型。

設定模型之後，您必須使用加上標記的資料集和定型模型元件來定型模型。然後，定型的模型就可用來進行預測。

運作方式

決策樹是非參數化模型，可對每個執行個體執行一系列簡單的測試，周遊整個二元樹狀資料結構，直到抵達葉節點 (決策) 為止。

決策樹有下列優點：

在定型和預測期間，執行運算和記憶體使用都很有效率。
可以代表非線性決策界限。
執行整合式特徵選取和分類，在出現雜訊特徵時也能靈活應變。

此迴歸模型由決策樹的集團所組成。迴歸決策樹系中的每個樹狀結構都會輸出高斯分佈作為預測。系統會對樹狀結構整體執行彙總，以找出最接近模型中所有樹狀結構合併分佈的高斯分佈。

如需有關此演算法及其實作的理論架構詳細資訊，請參閱這篇文章：決策樹系：適用於分類、迴歸、密度估計、流形學習與和半監督學習的統一架構 (英文)

如何設定決策樹系迴歸模型

將「決策樹系迴歸」元件新增至管線。您可以在設計工具中 [機器學習]、[初始化] 和 [迴歸] 下找到此元件。
開啟元件內容，然後針對 [重新取樣方法]，選擇建立個別樹狀結構所使用的方法。您可以選擇 [封袋] 或 [複寫]。
- 封袋：封袋又稱為「啟動程序彙總」。迴歸決策樹系中的每個樹狀結構都會透過預測來輸出高斯分佈。彙總是為了透過結合各個樹狀結構所傳回的所有分佈，來提供高斯分佈，以找出前兩個矩符合這些高斯分佈混合後的矩的高斯。
  
  如需詳細資訊，請參閱維基百科中的啟動程序彙總。
- 複寫：在複寫中，系統會以完全相同的輸入資料將每個樹狀結構定型。每個樹狀節點所使用的分割述詞判斷會維持隨機狀態，使樹狀結構具有差異。
  
  如需有關使用 [複寫] 選項將程序定型的詳細資訊，請參閱電腦視覺和醫療影像分析的決策樹系。Criminisi and J. Shotton. Springer 2013. (英文)。
設定 [建立定型模式] 選項來指定要如何定型模型。
- 單一參數
  
  如果您知道要如何設定模型，您可以提供一組特定值做為引數。您可能已經透過實驗知道這些值，或已依據指導收到這些值。
- 參數範圍：如果您不確定最佳參數，且想要執行參數掃掠，請選取此選項。選取要反覆運算的值範圍，而調整模型超參數會反覆運算您提供的所有可能設定組合，以判斷可產生最佳結果的超參數。
針對 [決策樹數目]，指出要在整體中建立的決策樹總數。藉由建立多個決策樹，您或許能夠有較佳的涵蓋範圍，但是定型時間會拉長。

提示

不過，如果您將值設定為 1，這表示將只會產生一個樹狀結構 (具有初始參數集的樹狀結構)，且不會執行進一步反覆運算。
針對 [決策樹的最大深度]，請輸入一個數字以限制任何決策樹的最大深度。增加樹狀結構的深度可增加有效位數，但可能會有過度配適及定型時間增加的風險。
針對 [每個節點的隨機分割數目]：輸入建立樹狀結構的每個節點時所要使用的分割數目。分割意指樹狀結構的每個層級 (節點) 中的特徵是隨機分割的。
針對 [每個分葉節點的樣本數下限]，請指出在樹狀結構中建立任何終端節點 (分葉) 所需的最低案例數目。

藉由增加此值，您會增加建立新規則的臨界值。例如，若預設值是 1，即使單一案例可能會造成新規則的建立。如果您將此值增加為 5，則定型資料必須至少包含五個符合相同條件的案例。
將模型定型：
- 如果您將 [建立定型模式] 設定為 [單一參數]，請連接已標記的資料集和定型模型元件。
- 如果您將 [建立定型模式] 設定為 [參數範圍]，請連接已標記的資料集，並使用調整模型超參數來定型模型。
注意

如果您將參數範圍傳遞給定型模型，則系統只會使用單一參數清單中的預設值。

如果您將單一組參數值傳遞至調整模型超參數元件，當其預期每個參數有一組設定時，則會忽略這些值，並對學習模組使用預設值。

如果您選取 [參數範圍] 選項，並對任何參數輸入單一值，則在整個掃掠期間都會使用您所指定的該單一值，即使其他參數在某個範圍的值之間變更亦然。
提交管線。

結果

定型完成後：

若要儲存已定型模型的快照集，請選取定型元件，然後切換成右側面板中的 [輸出] 索引標籤。按一下 [註冊模型] 圖示。您可以在元件樹狀結構中，找到儲存成元件的模型。

後續步驟

請參閱 Azure Machine Learning 可用的元件集。

決策樹系迴歸元件

運作方式

如何設定決策樹系迴歸模型

結果

後續步驟

其他資源