排列功能重要性
本文說明如何使用 Azure 機器學習 設計工具中的 Permutation Feature Importance 元件,計算數據集的一組特徵重要性分數。 您可以使用這些分數來協助您判斷模型中使用的最佳功能。
在此元件中,特徵值會隨機隨機隨機洗牌,一次一個數據行。 模型的效能是在前後測量。 您可以選擇其中一個標準計量來測量效能。
元件傳回的分數代表 定型模型效能在排列之後的變更 。 重要功能通常較敏感於洗牌程式,因此會導致較高的重要性分數。
本文提供排列功能的概觀、其理論基礎,以及機器學習中的應用程式: 排列特徵重要性。
如何使用排列特徵重要性
產生一組功能分數時,您必須擁有已定型的模型,以及測試數據集。
將 Permutation Feature Importance 元件新增至您的管線。 您可以在 [特徵選取] 類別中找到此元件。
將定型的模型連接到左側輸入。 模型必須是回歸模型或分類模型。
在右側輸入上,連接數據集。 最好選擇與您用於定型模型的數據集不同的數據集。 此數據集會根據定型的模型來評分。 它也用於在特徵值變更之後評估模型。
針對 [隨機種子],輸入要當做隨機化種子使用的值。 如果您指定 0 (預設值),則會根據系統時鐘產生數位。
種子值是選擇性的,但如果您想要在相同管線的執行之間重現性,您應該提供值。
針對 用於測量效能的計量,選取在排列之後計算模型品質時要使用的單一計量。
Azure 機器學習 設計工具支援下列計量,視您評估分類或回歸模型而定:
分類
精確度、精確度、召回率
迴歸
精確度、召回率、平均絕對誤差、根平均平方誤差、相對絕對誤差、相對平方誤差、判斷係數
如需這些評估計量及其計算方式的詳細描述,請參閱 評估模型。
提交管線。
元件會輸出特徵數據列清單,以及與其相關聯的分數。 清單會以分數的遞減順序排名。
技術注意事項
排列特徵重要性的運作方式是隨機變更每個特徵數據行的值,一次一個數據行。 然後,它會評估模型。
元件所提供的排名通常與您從 篩選型特徵選取取得的排名不同。 篩選型特徵選取會在建立模型之前計算分數。
差異的原因是 Permutation Feature Importance 不會測量特徵與目標值之間的關聯。 相反地,它會擷取每個功能對模型預測的影響。