快速樹系分量迴歸

本文說明 Azure 機器學習 設計工具中的模組。

使用此元件在管線中建立快速樹系分位數回歸模型。 如果您想要深入了解預測值的分佈,而不是取得單一平均預測值,快速樹系分位數回歸很有用。 此方法有許多應用程式,包括:

  • 預測價格

  • 評估學生績效或套用成長圖表來評估兒童發展

  • 在變數之間只有弱式關聯性的情況下,探索預測關聯性

此回歸演算法是 受監督的 學習方法,這表示它需要包含標籤數據行的標記數據集。 因為它是回歸演算法,標籤數據行必須只包含數值。

進一步瞭解分位數回歸

有許多不同類型的回歸。 簡單地說,回歸表示將模型與以數值向量表示的目標相配。 不過,統計人員一直在開發越來越先進的回歸方法。

分位數的最簡單定義是一個值,可將一組數據分割成大小相等的群組;因此,分位數值會標示群組之間的界限。 從統計上講,分位數是從隨機變數累加分配函式 (CDF) 的反轉間隔取得的值。

雖然線性回歸模型會嘗試使用單一估計值來預測數值變數的值, 但平均值有時您需要預測目標變數的範圍或整個分佈。 已為此開發貝氏回歸和分位數回歸等技術。

分位數回歸可協助您了解預測值的分佈。 樹狀分位數回歸模型,例如此元件中使用的分位數回歸模型,具有可用來預測非參數分佈的額外優點。

如何設定快速樹系分位數回歸

  1. 快速樹系分位數回歸 元件新增至設計工具中的管線。 您可以在 [回歸] 類別的 [機器學習 演演算法] 下找到此元件。

  2. 在 [快速樹系分位數回歸] 元件的右窗格中,藉由設定 [建立定型定型器模式] 選項,指定您要如何定型模型。

    • 單一參數:如果您知道如何設定模型,請提供一組特定的值作為自變數。 當您定型模型時,請使用 定型模型

    • 參數範圍:如果您不確定最佳參數,請使用 微調模型超參數位 件執行參數掃掠。 定型器會逐一查看您指定的多個值,以尋找最佳設定。

  3. 狀結構數目,輸入可在合奏中建立的樹狀結構數目上限。 如果您建立更多樹狀結構,通常會導致更高的精確度,但代價是較長的訓練時間。

  4. 數,輸入可在任何樹狀結構中建立的葉數上限或終端節點數目。

  5. 形成分葉所需的定型實例數目下限,指定樹狀結構中建立任何終端節點(分葉)所需的範例數目下限。

    藉由增加此值,您可以增加建立新規則的臨界值。 例如,預設值為 1,即使是單一案例,也會導致建立新的規則。 如果您將值增加到 5,定型數據必須包含至少 5 個符合相同條件的案例。

  6. 標記分數,指定介於 0 到 1 之間的數位,代表建置每個分位數時要使用的樣本分數。 系統會隨機選擇樣本,並取代。

  7. 分割分數,輸入介於0到1之間的數位,代表在樹狀結構的每個分割中使用的特徵分數。 所使用的功能一律會隨機選擇。

  8. 要估計的 Quantiles,輸入要讓模型定型和建立預測的分號分隔清單。

    例如,如果您要建置估計四分位數的模型,您會輸入 0.25; 0.5; 0.75

  9. 或者,輸入隨機數種子的值,以植入模型所使用的隨機數產生器。 默認值為 0,表示已選擇隨機種子。

    如果您需要在相同數據上連續執行時重現結果,您應該提供值。

  10. 連線 將定型數據集和未定型的模型 連線 至其中一個定型元件:

    • 如果您將 [建立定型器模式] 設定[單一參數],請使用 [定型模型] 元件。

    • 如果您將 [建立定型器模式] 設定[參數範圍],請使用 [微調模型超參數] 元件。

    警告

    • 如果您將參數範圍傳遞至 定型模型,它只會使用參數範圍清單中的第一個值。

    • 如果您將單一參數值集合傳遞至 微調模型超參數位 件,當它預期每個參數的設定範圍時,它會忽略這些值,並使用學習者的預設值。

    • 如果您選取 [ 參數範圍 ] 選項,並針對任何參數輸入單一值,即使您的其他參數在值範圍中變更,您指定的單一值也會在整個掃掠中使用。

  11. 提交管線。

結果

完成定型之後:

  • 若要儲存已定型模型的快照集,請選取定型元件,然後在右側面板中切換至 [輸出+記錄 ] 索引標籤。 按兩下 [註冊數據集] 圖示。 您可以在元件樹狀結構中找到已儲存的模型作為元件。

評估計量

您可以使用 評估模型元件 來評估已定型的模型。 針對 快速樹系分位數回歸,計量如下。

  • 分位數遺失:這是模型中特定分位數的錯誤量值。
  • 平均分位數損失:這隻是模型中所有考慮之分位數損失值的平均值。 它提供模型在所有分位數上執行的整體量值。

下一步

請參閱 Azure 機器學習 可用的元件集。