Udostępnij za pośrednictwem


Wydajność i sprawiedliwość modelu

W tym artykule opisano metody, których można użyć do zrozumienia wydajności i sprawiedliwości modelu w usłudze Azure Machine Learning.

Co to jest sprawiedliwość uczenia maszynowego?

Sztuczna inteligencja i systemy uczenia maszynowego mogą wyświetlać niesprawiedliwe zachowanie. Jednym ze sposobów zdefiniowania niesprawiedliwego zachowania jest jego krzywda lub jej wpływ na ludzi. Systemy sztucznej inteligencji mogą prowadzić do powstania wielu rodzajów szkód. Aby dowiedzieć się więcej, zobacz przemówienie NeurIPS 2017 Kate Crawford.

Istnieją dwa typowe typy szkód spowodowanych sztuczną inteligencją:

  • Szkoda alokacji: system sztucznej inteligencji rozszerza lub wstrzymuje możliwości, zasoby lub informacje dla niektórych grup. Przykłady obejmują zatrudnianie, przyjęcia do szkoły i udzielanie pożyczek, gdzie model może być lepszy w wybieraniu dobrych kandydatów wśród konkretnej grupy osób niż między innymi grupami.

  • Szkoda jakości usługi: system sztucznej inteligencji nie działa tak dobrze dla jednej grupy osób, jak w przypadku innej. Na przykład system rozpoznawania głosu może nie działać, jak również dla kobiet, podobnie jak w przypadku mężczyzn.

Aby zmniejszyć niesprawiedliwe zachowanie w systemach sztucznej inteligencji, należy ocenić i ograniczyć te szkody. Składnik przeglądu modelu pulpitu nawigacyjnego Odpowiedzialne użycie sztucznej inteligencji przyczynia się do etapu identyfikacji cyklu życia modelu, generując metryki wydajności modelu dla całego zestawu danych i zidentyfikowanych kohort danych. Generuje te metryki w podgrupach zidentyfikowanych pod względem poufnych funkcji lub atrybutów poufnych.

Uwaga

Sprawiedliwość jest wyzwaniem społeczno-technicznym. Ilościowe metryki sprawiedliwości nie przechwytują wielu aspektów sprawiedliwości, takich jak sprawiedliwość i należyty proces. Ponadto wiele metryk sprawiedliwości ilościowej nie może być spełnionych jednocześnie.

Celem pakietu open source Fairlearn jest umożliwienie ludziom oceny strategii wpływu i ograniczania ryzyka. Ostatecznie zależy to od ludzi, którzy tworzą modele sztucznej inteligencji i uczenia maszynowego, aby dokonać kompromisów, które są odpowiednie dla ich scenariuszy.

W tym składniku pulpitu nawigacyjnego odpowiedzialnej sztucznej inteligencji sprawiedliwość jest koncepcyjnie określana za pomocą podejścia znanego jako sprawiedliwość grupy. Takie podejście brzmi: "Które grupy osób są narażone na szkody?" Termin funkcje poufne sugeruje, że projektant systemu powinien być wrażliwy na te funkcje podczas oceniania sprawiedliwości grupy.

W fazie oceny sprawiedliwość jest kwantyfikowana za pomocą metryk różnic. Te metryki mogą oceniać i porównywać zachowanie modelu między grupami jako współczynniki lub różnice. Pulpit nawigacyjny odpowiedzialnej sztucznej inteligencji obsługuje dwie klasy metryk różnic:

  • Różnica w wydajności modelu: te zestawy metryk obliczają różnicę (różnicę) w wartościach wybranej metryki wydajności w podgrupach danych. Oto kilka przykładów:

    • Różnica w współczynniku dokładności
    • Różnica w współczynniku błędów
    • Różnica w precyzji
    • Różnica w odwołaniu
    • Różnica w błędzie bezwzględnym średniej (MAE)
  • Różnica w współczynniku wyboru: ta metryka zawiera różnicę w współczynniku wyboru (korzystne przewidywanie) wśród podgrup. Przykładem takiej różnicy jest różnica w stopie zatwierdzania pożyczek. Współczynnik wyboru oznacza ułamek punktów danych w każdej klasie sklasyfikowanej jako 1 (w klasyfikacji binarnej) lub rozkład wartości przewidywania (regresja).

Możliwości oceny sprawiedliwości tego składnika pochodzą z pakietu Fairlearn . Fairlearn udostępnia kolekcję metryk oceny sprawiedliwości modelu i algorytmów ograniczania niesprawiedliwości.

Uwaga

Ocena sprawiedliwości nie jest czysto technicznym ćwiczeniem. Pakiet open source Fairlearn może identyfikować metryki ilościowe, aby ułatwić ocenę sprawiedliwości modelu, ale nie wykona oceny. Aby ocenić sprawiedliwość własnych modeli, należy przeprowadzić analizę jakościową. Zanotowane wcześniej funkcje poufne są przykładem tego rodzaju analizy jakościowej.

Ograniczenia parzystości w celu łagodzenia niesprawiedliwości

Po zrozumieniu problemów z sprawiedliwością modelu można użyć algorytmów ograniczania ryzyka w pakiecie open source Fairlearn , aby rozwiązać te problemy. Te algorytmy obsługują zestaw ograniczeń dotyczących zachowania predyktora nazywanego ograniczeniami lub kryteriami parzystości.

Ograniczenia parzystości wymagają, aby niektóre aspekty zachowania predyktora były porównywalne w grupach, które definiują poufne funkcje (na przykład różne rasy). Algorytmy ograniczania ryzyka w pakiecie open source Fairlearn używają takich ograniczeń parzystości, aby wyeliminować zaobserwowane problemy z sprawiedliwością.

Uwaga

Algorytmy ograniczania niesprawiedliwości w pakiecie open source Fairlearn mogą zapewnić sugerowane strategie ograniczania ryzyka w celu zmniejszenia niesprawiedliwości w modelu uczenia maszynowego, ale te strategie nie eliminują niesprawiedliwości. Deweloperzy mogą wymagać rozważenia innych ograniczeń lub kryteriów parzystości dla modeli uczenia maszynowego. Deweloperzy korzystający z usługi Azure Machine Learning muszą ustalić, czy środki zaradcze wystarczająco zmniejszają niesprawiedliwość w ich zamierzonym użyciu i wdrażaniu modeli uczenia maszynowego.

Pakiet Fairlearn obsługuje następujące typy ograniczeń parzystości:

Ograniczenie parzystości Purpose Zadanie uczenia maszynowego
Parzystość demograficzna Eliminowanie szkód alokacji Klasyfikacja binarna, regresja
Wyrównane kursy Diagnozowanie szkód związanych z alokacją i jakością usług Klasyfikacja binarna
Równe szanse sprzedaży Diagnozowanie szkód związanych z alokacją i jakością usług Klasyfikacja binarna
Ograniczona utrata grupy Eliminowanie szkód związanych z jakością usług Regresja

Algorytmy ograniczania ryzyka

Pakiet open source Fairlearn udostępnia dwa typy algorytmów ograniczania niesprawiedliwości:

  • Redukcja: Te algorytmy używają standardowego narzędzia do szacowania uczenia maszynowego czarnego pudełka (na przykład modelu LightGBM) i generują zestaw ponownie wytrenowanych modeli przy użyciu sekwencji zestawów danych trenowania z ponownym obciążeniem.

    Na przykład wnioskodawcy o określonej płci mogą być wyważone lub niedoważane w celu ponownego trenowania modeli i zmniejszenia dysproporcji między grupami płci. Następnie użytkownicy mogą wybrać model, który zapewnia najlepszy kompromis między dokładnością (lub inną metryką wydajności) i różnicą, na podstawie reguł biznesowych i obliczeń kosztów.

  • Przetwarzanie końcowe: Te algorytmy przyjmują istniejący klasyfikator i funkcję wrażliwą jako dane wejściowe. Następnie tworzą przekształcenie przewidywania klasyfikatora w celu wymuszenia określonych ograniczeń sprawiedliwości. Największą zaletą jednego algorytmu przetwarzania końcowego, optymalizacji progowej jest jego prostota i elastyczność, ponieważ nie wymaga ponownego trenowania modelu.

Algorytm opis Zadanie uczenia maszynowego Funkcje poufne Obsługiwane ograniczenia parzystości Typ algorytmu
ExponentiatedGradient Podejście black-box do sprawiedliwej klasyfikacji opisane w A Reductions Approach to Fair Classification (Podejście redukcji do sprawiedliwej klasyfikacji). Klasyfikacja binarna Podzielone na kategorie Parzystość demograficzna, wyrównane kursy Redukcja
GridSearch Podejście black-box opisane w A Reductions Approach to Fair Classification (Podejście redukcji do sprawiedliwej klasyfikacji). Klasyfikacja binarna Plik binarny Parzystość demograficzna, wyrównane kursy Redukcja
GridSearch Podejście black-box, które implementuje wariant wyszukiwania siatki regresji sprawiedliwej za pomocą algorytmu powiązanej utraty grupy opisane w Fair Regression: Quantitative Definitions and Reduction-based Algorithms (Algorytmy oparte na regresji sprawiedliwej: definicje ilościowe i algorytmy oparte na redukcji). Regresja Plik binarny Ograniczona utrata grupy Redukcja
ThresholdOptimizer Algorytm przetwarzania po przetwarzaniu oparty na dokumencie Równość szans w uczeniu nadzorowanym. Ta technika przyjmuje jako dane wejściowe istniejące klasyfikatora i funkcję wrażliwą. Następnie tworzy przekształcenie monotonowe przewidywania klasyfikatora w celu wymuszenia określonych ograniczeń parzystości. Klasyfikacja binarna Podzielone na kategorie Parzystość demograficzna, wyrównane kursy Przetwarzanie końcowe

Następne kroki