Modellprestanda och rättvisa

I den här artikeln beskrivs metoder som du kan använda för att förstå modellens prestanda och rättvisa i Azure Machine Learning.

Vad är rättvis maskininlärning?

Artificiell intelligens och maskininlärningssystem kan visa orättvist beteende. Ett sätt att definiera orättvist beteende är genom dess skada eller dess inverkan på människor. AI-system kan orsaka många typer av skador. Mer information finns i Keynote för NeurIPS 2017 av Kate Crawford.

Två vanliga typer av AI-orsakade skador är:

  • Skada av allokering: Ett AI-system utökar eller undanhåller möjligheter, resurser eller information för vissa grupper. Exempel är anställning, skolantagningar och utlåning, där en modell kan vara bättre på att välja bra kandidater bland en viss grupp människor än bland andra grupper.

  • Skada av tjänstkvalitet: Ett AI-system fungerar inte lika bra för en grupp människor som för en annan. Ett röstigenkänningssystem kan till exempel misslyckas med att fungera lika bra för kvinnor som för män.

För att minska orättvist beteende i AI-system måste du utvärdera och åtgärda dessa skador. Modellöversiktskomponenten i instrumentpanelen ansvarsfull AI bidrar till identifieringssteget i modelllivscykeln genom att generera modellprestandamått för hela datamängden och dina identifierade kohorter av data. Den genererar dessa mått mellan undergrupper som identifieras när det gäller känsliga funktioner eller känsliga attribut.

Anteckning

Rättvisa är en socio-teknisk utmaning. Kvantitativa rättvisemått fångar inte upp många aspekter av rättvisa, till exempel rättvisa och rättsprocess. Dessutom kan många kvantitativa rättvisemått inte alla uppfyllas samtidigt.

Målet med Fairlearn-paketet med öppen källkod är att göra det möjligt för människor att utvärdera strategierna för påverkan och minskning. I slutändan är det upp till de människor som skapar AI- och maskininlärningsmodeller att göra kompromisser som är lämpliga för deras scenarier.

I den här komponenten i instrumentpanelen ansvarsfull AI konceptualiseras rättvisa genom en metod som kallas gruppmässig rättvisa. Den här metoden frågar: "Vilka grupper av individer riskerar att drabbas av skada?" Termen känsliga funktioner tyder på att systemdesignern bör vara känslig för dessa funktioner vid bedömning av gruppkonsekvens.

Under utvärderingsfasen kvantifieras rättvisa genom olika mått. Dessa mått kan utvärdera och jämföra modellbeteende mellan grupper, antingen som förhållanden eller som skillnader. Instrumentpanelen ansvarsfull AI stöder två klasser av olika mått:

  • Skillnader i modellprestanda: Dessa uppsättningar mått beräknar skillnaden (skillnaden) i värdena för det valda prestandamåttet mellan undergrupper av data. Några exempel:

    • Skillnader i noggrannhetshastighet
    • Skillnader i felfrekvens
    • Skillnader i precision
    • Skillnader i återkallande
    • Skillnader i genomsnittligt absolut fel (MAE)
  • Skillnader i urvalshastighet: Det här måttet innehåller skillnaden i urvalshastighet (gynnsam förutsägelse) mellan undergrupper. Ett exempel på detta är skillnader i lånegodkännanderänta. Urvalshastighet innebär bråkdelen av datapunkter i varje klass som klassificeras som 1 (i binär klassificering) eller fördelning av förutsägelsevärden (i regression).

Funktionerna för rättvisebedömning i den här komponenten kommer från Fairlearn-paketet . Fairlearn tillhandahåller en samling mått för rättvisebedömning av modeller och algoritmer för riskreducering av orättvisor.

Anteckning

En rättvisebedömning är inte en rent teknisk övning. Fairlearn-paketet med öppen källkod kan identifiera kvantitativa mått som hjälper dig att bedöma en modells rättvisa, men den utför inte utvärderingen åt dig. Du måste utföra en kvalitativ analys för att utvärdera rättvisan i dina egna modeller. De känsliga funktioner som noterades tidigare är ett exempel på den här typen av kvalitativ analys.

Paritetsbegränsningar för att minska orättvisor

När du har förstått din modells rättviseproblem kan du använda åtgärdsalgoritmerna i Fairlearn-paketet med öppen källkod för att åtgärda dessa problem. Dessa algoritmer stöder en uppsättning begränsningar för förutsägelsens beteende som kallas paritetsbegränsningar eller kriterier.

Paritetsbegränsningar kräver att vissa aspekter av prediktorns beteende är jämförbara mellan de grupper som känsliga funktioner definierar (till exempel olika raser). Åtgärdsalgoritmerna i Fairlearn-paketet med öppen källkod använder sådana paritetsbegränsningar för att minimera de observerade rättviseproblemen.

Anteckning

Algoritmerna för illojalhetsreducering i Fairlearn-paketet med öppen källkod kan tillhandahålla föreslagna riskreduceringsstrategier för att minska orättvisorna i en maskininlärningsmodell, men dessa strategier eliminerar inte orättvisor. Utvecklare kan behöva överväga andra paritetsbegränsningar eller kriterier för sina maskininlärningsmodeller. Utvecklare som använder Azure Machine Learning måste själva avgöra om åtgärden i tillräcklig utsträckning minskar orättvisan i deras avsedda användning och distribution av maskininlärningsmodeller.

Fairlearn-paketet stöder följande typer av paritetsbegränsningar:

Paritetsbegränsning Syfte Maskininlärningsuppgift
Demografisk paritet Minimera allokeringsskador Binär klassificering, regression
Utjämnade odds Diagnostisera allokering och skada på tjänstkvalitet Binär klassificering
Lika möjligheter Diagnostisera allokering och skada på tjänstkvalitet Binär klassificering
Begränsad gruppförlust Minimera skador på tjänstkvalitet Regression

Riskreduceringsalgoritmer

Fairlearn-paketet med öppen källkod innehåller två typer av algoritmer för riskreducering:

  • Minskning: Dessa algoritmer använder en standardberäknare för maskininlärning med svarta rutor (till exempel en LightGBM-modell) och genererar en uppsättning omtränad modeller med hjälp av en sekvens med omviktade träningsdatauppsättningar.

    Till exempel kan sökande av ett visst kön vara uppviktade eller nedviktade för att omträna modeller och minska skillnaderna mellan könsgrupper. Användare kan sedan välja en modell som ger den bästa kompromissen mellan noggrannhet (eller ett annat prestandamått) och skillnader, baserat på deras affärsregler och kostnadsberäkningar.

  • Efterbearbetning: Dessa algoritmer använder en befintlig klassificerare och en känslig funktion som indata. De härleder sedan en omvandling av klassificerarens förutsägelse för att framtvinga de angivna rättvisebegränsningarna. Den största fördelen med en algoritm efter bearbetning, tröskeloptimering, är dess enkelhet och flexibilitet eftersom den inte behöver träna om modellen.

Algoritm Beskrivning Maskininlärningsuppgift Känsliga funktioner Paritetsbegränsningar som stöds Algoritmtyp
ExponentiatedGradient Black-box-metod för rättvis klassificering som beskrivs i A Reductions Approach to Fair Classification (A Reductions Approach to Fair Classification). Binär klassificering Kategoriska Demografisk paritet, utjämnade odds Minskning
GridSearch Black-box-metod som beskrivs i A Reductions Approach to Fair Classification (A Reductions Approach to Fair Classification). Binär klassificering Binär Demografisk paritet, utjämnade odds Minskning
GridSearch Black-box-metod som implementerar en rutnätssökningsvariant av rättvis regression med algoritmen för begränsad gruppförlust som beskrivs i Fair Regression: Quantitative Definitions and Reduction-based Algorithms(Kvantitativa definitioner och minskningsbaserade algoritmer). Regression Binär Begränsad gruppförlust Minskning
ThresholdOptimizer Algoritm för efterbearbetning baserat på artikeln Likhet mellan möjligheter i övervakad inlärning. Den här tekniken tar som indata en befintlig klassificerare och en känslig funktion. Sedan härleds en monoton omvandling av klassificerarens förutsägelse för att framtvinga de angivna paritetsbegränsningarna. Binär klassificering Kategoriska Demografisk paritet, utjämnade odds Efterbearbetning

Nästa steg