共用方式為


排列功能重要性

本文說明如何使用 Azure 機器學習 設計工具中的 Permutation Feature Importance 元件,計算數據集的一組特徵重要性分數。 您可以使用這些分數來協助您判斷模型中使用的最佳功能。

在此元件中,特徵值會隨機隨機隨機洗牌,一次一個數據行。 模型的效能是在前後測量。 您可以選擇其中一個標準計量來測量效能。

元件傳回的分數代表 定型模型效能在排列之後的變更 。 重要功能通常較敏感於洗牌程式,因此會導致較高的重要性分數。

本文提供排列功能的概觀、其理論基礎,以及機器學習中的應用程式: 排列特徵重要性

如何使用排列特徵重要性

產生一組功能分數時,您必須擁有已定型的模型,以及測試數據集。

  1. 將 Permutation Feature Importance 元件新增至您的管線。 您可以在 [特徵選取] 類別中找到此元件。

  2. 將定型的模型連接到左側輸入。 模型必須是回歸模型或分類模型。

  3. 在右側輸入上,連接數據集。 最好選擇與您用於定型模型的數據集不同的數據集。 此數據集會根據定型的模型來評分。 它也用於在特徵值變更之後評估模型。

  4. 針對 [隨機種子],輸入要當做隨機化種子使用的值。 如果您指定 0 (預設值),則會根據系統時鐘產生數位。

    種子值是選擇性的,但如果您想要在相同管線的執行之間重現性,您應該提供值。

  5. 針對 用於測量效能的計量,選取在排列之後計算模型品質時要使用的單一計量。

    Azure 機器學習 設計工具支援下列計量,視您評估分類或回歸模型而定:

    • 分類

      精確度、精確度、召回率

    • 迴歸

      精確度、召回率、平均絕對誤差、根平均平方誤差、相對絕對誤差、相對平方誤差、判斷係數

    如需這些評估計量及其計算方式的詳細描述,請參閱 評估模型

  6. 提交管線。

  7. 元件會輸出特徵數據列清單,以及與其相關聯的分數。 清單會以分數的遞減順序排名。

技術注意事項

排列特徵重要性的運作方式是隨機變更每個特徵數據行的值,一次一個數據行。 然後,它會評估模型。

元件所提供的排名通常與您從 篩選型特徵選取取得的排名不同。 篩選型特徵選取會在建立模型之前計算分數

差異的原因是 Permutation Feature Importance 不會測量特徵與目標值之間的關聯。 相反地,它會擷取每個功能對模型預測的影響。

下一步

請參閱 Azure 機器學習 可用的元件集。