雙類別促進式決策樹元件

本文描述 Azure Machine Learning 設計工具中的一個元件。

使用此元件來建立以促進式決策樹演算法為基礎的機器學習模型。

促進式決策樹是一種整體學習方法,其中,第二個樹狀更正第一個樹狀的錯誤,第三個樹狀更正第一個和第二個樹狀的錯誤,依此類推。 預測是以進行預測的全體樹狀為基礎。

一般而言,只要正確設定,促進式決策樹是在各種機器學習工作上獲得最佳效能最簡單的方法。 但也是很耗用記憶體的學習模組之一,目前的實作將所有一切都保存在記憶體中。 因此,某些線性學習模組可處理的大型資料集,促進式決策樹模型可能就無法處理。

此元件以 LightGBM 演算法為基礎。

如何設定

此元件建立未定型的分類模型。 因為分類是監督式學習方法,若要定型模型,您需要「標記資料集」,其中包含所有資料列的標籤資料行和值。

您可以使用定型模型來定型這種模型。

  1. 在 Azure Machine Learning 中,將促進式決策樹元件新增至管線。

  2. 設定 [建立定型模式] 選項來指定要如何定型模型。

    • 單一參數:如果您知道要如何設定模型,您可以提供一組特定值做為引數。

    • 參數範圍:如果不確定最佳參數,您可以使用調整模型超參數元件來尋找最佳參數。 您提供某個範圍的值,定型模組會逐一查看多個設定組合,以決定可產生最佳結果的值組合。

  3. 在 [每個樹狀的葉數上限] 中,指出可在任何樹狀中建立的終端節點 (分葉) 數目上限。

    增加此值,您可能會增加樹狀結構的大小,並取得較佳的精確度,風險是過度配適和較長的定型時間。

  4. 在 [每個分葉節點的樣本數下限] 中,指出在樹狀中建立任何終端節點 (分葉) 所需的案例數目。

    藉由增加此值,您會增加建立新規則的臨界值。 例如,若預設值是 1,即使單一案例可能會造成新規則的建立。 如果您將此值增加為 5,則定型資料必須至少包含五個符合相同條件的案例。

  5. 在 [學習速率] 中,輸入 0 和 1 之間的數字,以定義學習時的步驟大小。

    學習速率決定學習模組收斂到最佳解決方案的快慢。 如果步驟太大,您可能會越過最佳解決方案。 如果步驟太小,則定型會較久才收斂到最佳解決方案。

  6. 在 [建構的樹狀數目] 中,指出要在整體中建立的決策樹總數。 藉由建立多個決策樹,您或許能夠有較佳的涵蓋範圍,但是定型時間會拉長。

    如果您將值設定為 1,則只會產生一個樹狀 (具有初始參數集的樹狀),且不會進一步反覆運算。

  7. 在 [亂數種子] 中,選擇性輸入非負整數,作為隨機種子值。 指定種子可確保每次以相同資料和參數執行都能重現。

    隨機種子預設為 0,表示從系統時鐘取得初始種子值。 使用隨機種子連續執行可能會有不同結果。

  8. 定型模型:

    • 如果您將 [建立定型模式] 設定為 [單一參數],請連接已標記的資料集和定型模型元件。

    • 如果您將 [建立定型模式] 設定為 [參數範圍],請連接已標記的資料集,並使用調整模型超參數來定型模型。

    注意

    如果您將參數範圍傳遞給定型模型,則系統只會使用單一參數清單中的預設值。

    如果您將單一組參數值傳遞至調整模型超參數元件,當其預期每個參數有一組設定時,則會忽略這些值,並對學習模組使用預設值。

    如果您選取 [參數範圍] 選項,並對任何參數輸入單一值,則在整個掃掠期間都會使用您所指定的該單一值,即使其他參數在某個範圍的值之間變更亦然。

結果

定型完成後:

  • 若要儲存已定型模型的快照集,請在定型模型元件的右側面板中選取 [輸出] 索引標籤。 選取 [註冊資料集] 圖示,將模型儲存為可重複使用的元件。

  • 若要使用模型來評分,請將評分模型元件新增至管線。

後續步驟

請參閱 Azure Machine Learning 可用的元件集