模型效能和公平性

本文介紹可用於了解 Azure Machine Learning 中的模型性能和公平性的方法。

什麼是機器學習公平性?

人工智慧和機器學習系統可能會顯示不公平的行為。 定義不公平行為的方式之一,是藉由其對人們的損害或影響來定義。 AI 系統可能產生許多類型的損害。 若要深入了解,請參閱 Kate Crawford 的 NeurIPS 2017 專題演講

AI 造成的損害有兩種常見的類型:

  • 配置的損害:AI 系統可延伸或阻擋特定群組的機會、資源或資訊。 相關範例包括雇用、入學申請和貸款;在其模型中,從特定族群中挑選適當候選人的能力,可能會優於對其他族群的挑選。

  • 服務品質的損害:AI 系統對於某個族群的運作效能不如其他族群。 例如,語音辨識系統對於女性的運作效能可能會不如男性。

若要減少 AI 系統中不公平的行為,您必須評估並緩解這些損害。 負責任 AI 儀表板模型概觀元件會參與模型生命週期的識別階段,方式是為整個資料集和您識別的資料世代產生各種模型效能計量。 在根據敏感性特徵或敏感性屬性識別的子群組之間產生這些計量。

注意

公平性是一個社會技術課題。 量化的公平性計量不會擷取公平性的許多層面,例如司法和正當程序。 此外,許多量化的公平性計量無法同時令人滿意。

Fairlearn 開放原始碼套件的目標是讓人類能夠評估影響和緩和策略。 最後,是由建置 AI 和機器學習模型的人做出適合其案例的取捨。

在負責任 AI 儀表板的這個元件中,公平性是透過稱為群組公平性的方法來概念化。 這種方法會詢問:「哪些個人群體有遭受損害的風險?」顧名思義,敏感性特徵代表系統設計工具在評估群體公平性時,應對這些特徵特別敏感。

在評量階段,公平性會透過差異計量進行量化。 這些計量能夠以比率或差異的形式,評估和比較模型在群體間的行為。 負責任 AI 儀表板支援兩種差異計量類別:

  • 模型效能的差異:這些計量集會計算選定的效能計量在資料子群體間的差異值。 以下是一些範例:

    • 精確率的差異
    • 錯誤率的差異
    • 精確度的差異
    • 召回率中的差距
    • 平均絕對誤差的差異 (MAE)
  • 選取率的差異:此計量包含子群體間的選取率 (理想預測) 差異。 舉例來說,貸款核准率即為此類差異。 選取率是指每個類別中歸類為 1 的資料點所佔的比例 (在二元分類中),或預測值的分佈 (在迴歸中)。

此元件的公平性評量功能來自 Fairlearn 套件。 Fairlearn 提供模型公平性評量計量和公平性風險降低演算法的集合。

注意

公平性評估並非純粹的技術練習。 Fairlearn 開放原始碼套件可識別量化計量,協助您評估模型的公平性,但不會為您執行評量。 您必須執行定性分析,以評估您自己的模型公平性。 先前所述的敏感性特徵是這類定性分析的範例。

緩解不公平性的同位檢查條件約束

了解模型的公平性問題之後,您可以使用 Fairlearn 開放原始碼套件中的風險降低演算法來緩解這些問題。 這些演算法支援一組對預測工具行為的條件約束,稱為同位檢查條件約束或準則。

採用同位檢查條件約束時,預測工具行為的某些層面在敏感性特徵所定義的群體 (例如,不同種族) 之間必須是可相比的。 Fairlearn 開放原始碼套件中的緩解演算法會使用這類同位檢查條件約束,來緩解觀察到的公平性問題。

注意

Fairlearn 開放原始碼套件中的不公平性緩解演算法可提供建議的緩解策略,以減少機器學習模型中的不公平性,但是這些策略不會排除不公平性。 開發人員可能需要考慮其機器學習模型的其他同位檢查條件約束或準則。 使用 Azure Machine Learning 的開發人員必須自行判斷,緩和措施是否足以減少其機器學習模型的目標用途和部署中的不公平性。

Fairlearn 套件支援下列類型的同位檢查條件約束:

同位檢查條件約束 目的 機器學習工作
人口統計同位檢查 減輕配置損害 二元分類、迴歸
補償機率 診斷配置和服務品質損害 二元分類
相等的機會 診斷配置和服務品質損害 二元分類
限定群體損失 減輕服務品質損害 迴歸

緩解演算法

Fairlearn 開放原始碼套件提供兩種類型的不公平性緩解演算法:

  • 減少:這些演算法採用標準黑箱機器學習估算器 (例如 LightGBM 模型),並使用一系列的重新加權定型資料集來產生一組重新定型的模型。

    例如,可對特定性別的申請者調升或調降權重以重新定型模型,並減少性別群體間的差異。 然後,使用者可以選擇一個在精確度 (或其他效能計量) 與差異之間提供最佳取捨的模型,以商務規則和成本計算為基礎。

  • 後處理:這些演算法會採用現有的分類器和敏感性特徵作為輸入。 接著將會衍生分類器預測的轉換,以強制執行指定的公平性條件約束。 閾值最佳化 (其中一個後處理演算法) 最大的優點在於其簡易性和彈性,因為閾值不需要重新定型模型。

演算法 描述 機器學習工作 敏感性特徵 支援的同位檢查條件約束 演算法類型
ExponentiatedGradient 公平分類的黑箱方法,如公平分類的縮減方法所說明。 二元分類 類別 口統計同位檢查、補償機率 減少
GridSearch 公平分類的縮減方法中說明的黑箱方法。 二元分類 二進位 口統計同位檢查、補償機率 減少
GridSearch 一種黑箱方法,會使用限定群體損失的演算法,實作公平迴歸的網格搜尋變異,相關說明請見公平迴歸:量化定義和縮減型演算法 迴歸 二進位 限定群體損失 減少
ThresholdOptimizer 根據監督式學習中的機會均等文件進行的後處理演算法。 這項技術會採用輸入作為現有的分類器和敏感性特徵。 接著會衍生分類器預測的單調轉換,以強制執行指定的同位檢查條件約束。 二元分類 類別 口統計同位檢查、補償機率 後續處理

下一步