Modelprestaties en -getrouwheid

In dit artikel worden de methoden beschreven die u kunt gebruiken om inzicht te krijgt in de prestaties en eerlijkheid van uw model in Azure Machine Learning.

Wat is machine learning-eerlijkheid?

Systemen voor kunstmatige intelligentie en machine learning kunnen oneerlijk gedrag vertonen. Een manier om oneerlijk gedrag te definiëren, is door de schade of de impact ervan op mensen. AI-systemen kunnen leiden tot veel soorten schade. Zie de keynote NeurIPS 2017 van Kate Crawford voor meer informatie.

Twee veelvoorkomende typen door AI veroorzaakte schade zijn:

  • Schade aan toewijzing: een AI-systeem breidt kansen, resources of informatie voor bepaalde groepen uit of houdt deze achter. Voorbeelden zijn werving, toelatingen voor scholen en leningen, waarbij een model beter is in het kiezen van goede kandidaten onder een specifieke groep mensen dan onder andere groepen.

  • Schade aan quality-of-service: een AI-systeem werkt niet zo goed voor de ene groep mensen als voor de andere. Een spraakherkenningssysteem werkt bijvoorbeeld mogelijk niet zo goed voor vrouwen als voor mannen.

Als u oneerlijk gedrag in AI-systemen wilt verminderen, moet u deze schade beoordelen en beperken. Het modeloverzichtsonderdeel van het verantwoordelijke AI-dashboard draagt bij aan de identificatiefase van de levenscyclus van het model door metrische gegevens over modelprestaties te genereren voor uw hele gegevensset en de geïdentificeerde cohorten met gegevens. Deze metrische gegevens worden gegenereerd voor subgroepen die zijn geïdentificeerd in termen van gevoelige functies of gevoelige kenmerken.

Notitie

Billijkheid is een sociaal-technische uitdaging. Kwantitatieve metrische gegevens over billijkheid leggen niet veel aspecten van rechtvaardigheid vast, zoals rechtvaardigheid en een eerlijk proces. Ook kunnen veel metrische metrische gegevens over de getrouwheid niet allemaal tegelijkertijd worden voldaan.

Het doel van het opensource-pakket van Fairlearn is om mensen in staat te stellen de impact en risicobeperkingsstrategieën te beoordelen. Uiteindelijk is het aan de mensen die AI- en machine learning-modellen bouwen om compromissen te maken die geschikt zijn voor hun scenario's.

In dit onderdeel van het verantwoordelijke AI-dashboard wordt eerlijkheid geconceptualiseerd via een benadering die bekend staat als groepsverdeling. Deze benadering vraagt: "Welke groepen personen lopen risico op schade?" De term gevoelige functies geeft aan dat de systeemontwerper gevoelig moet zijn voor deze functies bij het beoordelen van de redelijkheid van groepen.

Tijdens de evaluatiefase wordt de billijkheid gekwantificeerd door metrische gegevens over dispariteit. Met deze metrische gegevens kunnen modelgedrag in groepen worden geëvalueerd en vergeleken als verhoudingen of verschillen. Het verantwoordelijke AI-dashboard ondersteunt twee klassen metrische gegevens over dispariteit:

  • Verschillen in modelprestaties: met deze sets metrische gegevens wordt het verschil (verschil) in de waarden van de geselecteerde prestatiemetriek in subgroepen van gegevens berekend. Enkele voorbeelden:

    • Verschil in nauwkeurigheidspercentage
    • Verschil in foutpercentage
    • Verschillen in precisie
    • Verschil in terugroepactie
    • Dispariteit in gemiddelde absolute fout (MAE)
  • Verschil in selectiesnelheid: deze metrische waarde bevat het verschil in selectiesnelheid (gunstige voorspelling) tussen subgroepen. Een voorbeeld hiervan is de dispariteit in het goedkeuringspercentage voor leningen. Selectiesnelheid betekent de fractie van gegevenspunten in elke klasse die is geclassificeerd als 1 (in binaire classificatie) of de verdeling van voorspellingswaarden (in regressie).

De fairness assessment-mogelijkheden van dit onderdeel zijn afkomstig van het Fairlearn-pakket . Fairlearn biedt een verzameling metrische gegevens voor de beoordeling van de rechtvaardigheid van modellen en algoritmen voor het beperken van oneerlijke gevolgen.

Notitie

Een beoordeling van de billijkheid is geen puur technische oefening. Het opensource-pakket van Fairlearn kan kwantitatieve metrische gegevens identificeren om u te helpen bij het beoordelen van de billijkheid van een model, maar de evaluatie wordt niet voor u uitgevoerd. U moet een kwalitatieve analyse uitvoeren om de billijkheid van uw eigen modellen te evalueren. De gevoelige functies die eerder zijn vermeld, zijn een voorbeeld van dit soort kwalitatieve analyses.

Pariteitsbeperkingen voor het beperken van oneerlijkheid

Nadat u de getrouwheidsproblemen van uw model hebt begrepen, kunt u de risicobeperkingsalgoritmen in het opensourcepakket van Fairlearn gebruiken om deze problemen te verhelpen. Deze algoritmen ondersteunen een set beperkingen voor het gedrag van de voorspeller, pariteitsbeperkingen of -criteria genoemd.

Pariteitsbeperkingen vereisen dat sommige aspecten van het gedrag van de voorspeller vergelijkbaar zijn in de groepen die door gevoelige functies worden gedefinieerd (bijvoorbeeld verschillende rassen). De beperkingsalgoritmen in het opensource-pakket van Fairlearn maken gebruik van dergelijke pariteitsbeperkingen om de waargenomen billijkheidsproblemen te beperken.

Notitie

De algoritmen voor het beperken van oneerlijkheid in het opensource-pakket van Fairlearn kunnen voorgestelde risicobeperkingsstrategieën bieden om oneerlijkheid in een machine learning-model te verminderen, maar deze strategieën elimineren oneerlijkheid niet. Ontwikkelaars moeten mogelijk rekening houden met andere pariteitsbeperkingen of -criteria voor hun machine learning-modellen. Ontwikkelaars die Azure Machine Learning gebruiken, moeten zelf bepalen of de beperking het oneerlijke gebruik en de implementatie van machine learning-modellen voldoende vermindert.

Het Fairlearn-pakket ondersteunt de volgende typen pariteitsbeperkingen:

Pariteitsbeperking Doel Machine learning-taak
Demografische pariteit Toewijzingsschade beperken Binaire classificatie, regressie
Gelijke kansen Toewijzings- en kwaliteitsschade vaststellen Binaire classificatie
Gelijke kansen Toewijzings- en kwaliteitsschade vaststellen Binaire classificatie
Verlies van gebonden groep Kwaliteitsschade beperken Regressie

Algoritmen voor risicobeperking

Het opensource-pakket fairlearn biedt twee soorten algoritmen voor het beperken van oneerlijkheid:

  • Reductie: deze algoritmen gebruiken een standaard machine learning-schatter (bijvoorbeeld een LightGBM-model) en genereren een set opnieuw getrainde modellen met behulp van een reeks opnieuw gewogen trainingsgegevenssets.

    Aanvragers van een bepaald geslacht kunnen bijvoorbeeld een upweighted of downweighted hebben om modellen opnieuw te trainen en verschillen tussen geslachtsgroepen te verminderen. Gebruikers kunnen vervolgens een model kiezen dat de beste afweging biedt tussen nauwkeurigheid (of een andere prestatiemetriek) en verschillen, op basis van hun bedrijfsregels en kostenberekeningen.

  • Naverwerking: deze algoritmen nemen een bestaande classificatie en een gevoelige functie als invoer. Vervolgens leiden ze een transformatie van de voorspelling van de classificatie af om de opgegeven billijkheidsbeperkingen af te dwingen. Het grootste voordeel van één naverwerkingsalgoritme, drempelwaardeoptimalisatie, is de eenvoud en flexibiliteit, omdat het model niet opnieuw hoeft te worden getraind.

Algoritme Beschrijving Machine learning-taak Gevoelige functies Ondersteunde pariteitsbeperkingen Algoritmetype
ExponentiatedGradient Black-box-benadering van eerlijke classificatie beschreven in A Reductions Approach to Fair Classification. Binaire classificatie Categorische gegevens Demografische pariteit, gelijke kansen Vermindering
GridSearch Black-box-benadering die wordt beschreven in A Reductions Approach to Fair Classification . Binaire classificatie Binair Demografische pariteit, gelijke kansen Vermindering
GridSearch Black-box-benadering waarmee een rasterzoekvariant van eerlijke regressie wordt geïmplementeerd met het algoritme voor verlies van begrensde groepen, zoals beschreven in Fair Regression: Quantitative Definitions and Reduction-based Algorithms(Fair Regression: Quantitative Definitions and Reduction-based Algorithms). Regressie Binair Verlies van gebonden groep Vermindering
ThresholdOptimizer Algoritme voor naverwerking op basis van het document Gelijkheid van kansen in leren onder supervisie. Deze techniek gebruikt als invoer een bestaande classificatie en een gevoelige functie. Vervolgens wordt een monotoontransformatie van de voorspelling van de classificatie afgeleid om de opgegeven pariteitsbeperkingen af te dwingen. Binaire classificatie Categorische gegevens Demografische pariteit, gelijke kansen Naverwerking

Volgende stappen