Delen via


Modelprestaties en billijkheid

In dit artikel worden methoden beschreven die u kunt gebruiken om inzicht te hebben in de prestaties en billijkheid van uw model in Azure Machine Learning.

Wat is fairness voor machine learning?

Kunstmatige intelligentie en machine learning-systemen kunnen oneerlijk gedrag vertonen. Eén manier om oneerlijk gedrag te definiëren, is door de schade of de impact ervan op mensen. AI-systemen kunnen leiden tot veel soorten schade. Zie voor meer informatie de NeurIPS 2017 keynote van Kate Overeenkomt.

Twee veelvoorkomende soorten AI-schade zijn:

  • Schade aan toewijzing: een AI-systeem breidt verkoopkansen, resources of informatie voor bepaalde groepen uit of krijgt deze niet. Voorbeelden zijn het inhuren, het toelaten van school en het verstrekken van leningen, waarbij een model beter kan zijn bij het kiezen van goede kandidaten onder een specifieke groep mensen dan onder andere groepen.

  • Schade aan quality-of-service: een AI-systeem werkt niet zo goed voor één groep mensen als voor een andere. Een spraakherkenningssysteem werkt bijvoorbeeld niet zo goed voor vrouwen als voor mannen.

Als u het oneerlijke gedrag in AI-systemen wilt verminderen, moet u deze schade beoordelen en beperken. Het modeloverzichtsonderdeel van het verantwoordelijke AI-dashboard draagt bij aan de identificatiefase van de levenscyclus van het model door metrische gegevens over modelprestaties te genereren voor uw hele gegevensset en uw geïdentificeerde cohorten van gegevens. Deze metrische gegevens worden gegenereerd voor subgroepen die worden geïdentificeerd in termen van gevoelige functies of gevoelige kenmerken.

Notitie

Fairness is een sociaal-technische uitdaging. Kwantitatieve metrische gegevens over redelijkheid leggen niet veel aspecten van billijkheid vast, zoals rechtvaardigheid en due process. Bovendien kunnen veel metrische gegevens voor kwantitatieve redelijkheid niet allemaal tegelijkertijd worden voldaan.

Het doel van het OpenSource-pakket Fairlearn is om mensen in staat te stellen de impact- en risicobeperkingsstrategieën te beoordelen. Uiteindelijk is het aan de mensen die AI- en machine learning-modellen bouwen om afwegingen te maken die geschikt zijn voor hun scenario's.

In dit onderdeel van het dashboard verantwoorde AI wordt redelijkheid geconceptualiseerd via een benadering die bekend staat als groepsgetrouwheid. Deze aanpak vraagt: "Welke groepen individuen lopen risico op schade?" De term gevoelige functies suggereert dat de systeemontwerper gevoelig moet zijn voor deze functies bij het beoordelen van groepsgetrouwheid.

Tijdens de evaluatiefase wordt redelijkheid gekwantificeerd via metrische gegevens over verschillen. Deze metrische gegevens kunnen modelgedrag tussen groepen evalueren en vergelijken als verhoudingen of als verschillen. Het verantwoordelijke AI-dashboard ondersteunt twee klassen metrische gegevens over verschillen:

  • Verschillen in modelprestaties: Deze sets met metrische gegevens berekenen de verschillen (verschil) in de waarden van de geselecteerde prestatiemetriek in subgroepen van gegevens. Enkele voorbeelden:

    • Verschillen in nauwkeurigheidsfrequentie
    • Verschil in foutpercentage
    • Verschil in precisie
    • Verschillen in relevante overeenkomsten
    • Dispariteit in gemiddelde absolute fout (MAE)
  • Verschillen in selectiesnelheid: Deze metrische waarde bevat het verschil in selectiesnelheid (gunstige voorspelling) tussen subgroepen. Een voorbeeld hiervan is een verschil in het goedkeuringspercentage van de lening. Selectiesnelheid betekent de fractie van gegevenspunten in elke klasse die is geclassificeerd als 1 (in binaire classificatie) of de verdeling van voorspellingswaarden (in regressie).

De fairness assessment-mogelijkheden van dit onderdeel zijn afkomstig uit het Fairlearn-pakket . Fairlearn biedt een verzameling metrische gegevens voor de beoordeling van model fairness en algoritmen voor het beperken van oneerlijke heid.

Notitie

Een billijkheidsbeoordeling is geen puur technische oefening. Het opensource-pakket Fairlearn kan kwantitatieve metrische gegevens identificeren om u te helpen bij het beoordelen van de billijkheid van een model, maar de evaluatie wordt niet voor u uitgevoerd. U moet een kwalitatieve analyse uitvoeren om de billijkheid van uw eigen modellen te evalueren. De eerder genoteerde gevoelige functies zijn een voorbeeld van dit soort kwalitatieve analyse.

Pariteitsbeperkingen voor het beperken van oneerlijkheid

Nadat u de billijkheidsproblemen van uw model begrijpt, kunt u de risicobeperkingsalgoritmen in het opensource-pakket Fairlearn gebruiken om deze problemen te verhelpen. Deze algoritmen ondersteunen een set beperkingen voor het gedrag van de predictor, pariteitsbeperkingen of criteria.

Pariteitsbeperkingen vereisen dat bepaalde aspecten van het gedrag van de predictor vergelijkbaar zijn in de groepen die gevoelige functies definiëren (bijvoorbeeld verschillende rassen). De risicobeperkingsalgoritmen in het opensource-pakket Fairlearn gebruiken dergelijke pariteitsbeperkingen om de waargenomen fairness-problemen te beperken.

Notitie

De algoritmen voor het beperken van oneerlijkheid in het opensource-pakket Fairlearn kunnen voorgestelde risicobeperkingsstrategieën bieden om oneerlijkheid in een machine learning-model te verminderen, maar deze strategieën elimineren geen oneerlijke behandeling. Ontwikkelaars moeten mogelijk rekening houden met andere pariteitsbeperkingen of criteria voor hun machine learning-modellen. Ontwikkelaars die Azure Machine Learning gebruiken, moeten zelf bepalen of de beperking voldoende oneerlijkheid vermindert bij het beoogde gebruik en de implementatie van machine learning-modellen.

Het Fairlearn-pakket ondersteunt de volgende typen pariteitsbeperkingen:

Pariteitsbeperking Doel Machine learning-taak
Demografische pariteit Toewijzingsschade beperken Binaire classificatie, regressie
Gelijke kansen Toewijzings- en kwaliteitsschade vaststellen Binaire classificatie
Gelijke kansen Toewijzings- en kwaliteitsschade vaststellen Binaire classificatie
Verlies van gebonden groep Quality-of-service-schade beperken Regressie

Algoritmen voor risicobeperking

Het OpenSource-pakket Fairlearn biedt twee soorten algoritmen voor het beperken van oneerlijke heid:

  • Reductie: deze algoritmen maken gebruik van een standaard black-box machine learning-estimator (bijvoorbeeld een LightGBM-model) en genereren een set opnieuw getrainde modellen met behulp van een reeks opnieuw gewogen trainingsgegevenssets.

    Aanvragers van een bepaald geslacht kunnen bijvoorbeeld worden gewogen of omlaag worden gewogen om modellen opnieuw te trainen en verschillen tussen geslachtsgroepen te verminderen. Gebruikers kunnen vervolgens een model kiezen dat de beste afweging maakt tussen nauwkeurigheid (of een andere prestatiemetriek) en verschillen, op basis van hun bedrijfsregels en kostenberekeningen.

  • Naverwerking: deze algoritmen hebben een bestaande classificatie en een gevoelige functie als invoer. Vervolgens leiden ze een transformatie af van de voorspelling van de classificatie om de opgegeven redelijkheidsbeperkingen af te dwingen. Het grootste voordeel van één algoritme na verwerking, drempelwaardeoptimalisatie, is de eenvoud en flexibiliteit, omdat het model niet opnieuw hoeft te worden getraind.

Algoritme Beschrijving Machine learning-taak Gevoelige functies Ondersteunde pariteitsbeperkingen Algoritmetype
ExponentiatedGradient Zwarte-box-benadering voor eerlijke classificatie die wordt beschreven in een reductiebenadering voor eerlijke classificatie. Binaire classificatie Categorische gegevens Demografische pariteit, gelijke kansen Reductie
GridSearch Black-box-benadering die wordt beschreven in A Reductions Approach to Fair Classification. Binaire classificatie Binary Demografische pariteit, gelijke kansen Reductie
GridSearch Black-box-benadering die een rasterzoekvariant van eerlijke regressie implementeert met het algoritme voor gebonden groepsverlies dat wordt beschreven in Fair Regression: Kwantitatieve definities en algoritmen op basis van reductie. Regressie Binary Verlies van gebonden groep Reductie
ThresholdOptimizer Naverwerkingsalgoritme op basis van de papieren gelijkheid van kansen in onder supervisie leren. Deze techniek gebruikt als invoer van een bestaande classificatie en een gevoelige functie. Vervolgens wordt een monotoontransformatie van de voorspelling van de classificatie afgeleid om de opgegeven pariteitsbeperkingen af te dwingen. Binaire classificatie Categorische gegevens Demografische pariteit, gelijke kansen Naverwerking

Volgende stappen