Delen via


Counterfactuals analysis and what-if

What-if-counterfactuals hebben betrekking op de vraag wat het model zou voorspellen als u de actie-invoer wijzigt. Ze maken inzicht in en foutopsporing van een machine learning-model mogelijk in termen van hoe het reageert op wijzigingen in invoer (functie).

Standaard interpreteerbaarheidstechnieken benaderen een machine learning-model of rangschikken functies op basis van hun voorspellende belang. Een contrafeitelijke analyse 'ondervraagt' daarentegen een model om te bepalen welke wijzigingen in een bepaald gegevenspunt de modelbeslissing omdraaien.

Een dergelijke analyse helpt bij het ontwarren van de impact van gecorreleerde functies in isolatie. Het helpt u ook om een genuanceerder inzicht te krijgen in de mate waarin een functiewijziging nodig is om een omslag van modelbeslissingen voor classificatiemodellen en een beslissingswijziging voor regressiemodellen te zien.

De counterfactuele analyse en het wat-als-onderdeel van het dashboard Verantwoordelijke AI heeft twee functies:

  • Genereer een set voorbeelden met minimale wijzigingen aan een bepaald punt, zodat de voorspelling van het model wordt gewijzigd (met de dichtstbijzijnde gegevenspunten met tegenovergestelde modelvoorspellingen).
  • Stel gebruikers in staat om hun eigen wat-als-verstoringen te genereren om te begrijpen hoe het model reageert op functiewijzigingen.

Een van de belangrijkste differentiators van het onderdeel Verantwoordelijke AI-analyse is het feit dat u kunt identificeren welke functies moeten variƫren en de toegestane bereiken voor geldige en logische contrafeituele voorbeelden.

De mogelijkheden van dit onderdeel zijn afkomstig van het DiCE-pakket .

Gebruik wat-als-counterfactuals wanneer u het volgende moet doen:

  • Onderzoek de criteria voor billijkheid en betrouwbaarheid als beslissings evaluator door gevoelige kenmerken zoals geslacht en etniciteit te verstoren en vervolgens te observeren of modelvoorspellingen veranderen.
  • Fouten in specifieke invoerexemplaren in detail opsporen.
  • Bied oplossingen aan gebruikers en bepaal wat ze kunnen doen om een wenselijk resultaat uit het model te halen.

Hoe worden contrafeitelijke voorbeelden gegenereerd?

Om counterfactuals te genereren, implementeert DiCE een aantal model-agnostische technieken. Deze methoden zijn van toepassing op elke ondoorzichtige classificatie of regressor. Ze zijn gebaseerd op het nemen van steekproeven van nabijgelegen punten naar een invoerpunt, terwijl een verliesfunctie wordt geoptimaliseerd op basis van nabijheid (en optioneel, spaarzaamheid, diversiteit en haalbaarheid). Momenteel worden de volgende methoden ondersteund:

  • Gerandomiseerde zoekopdracht: met deze methode worden willekeurige punten in de buurt van een querypunt gesampt en worden counterfactuals geretourneerd als punten waarvan het voorspelde label de gewenste klasse is.
  • Genetisch zoeken: Met deze methode worden punten gemonsterd met behulp van een genetisch algoritme, gezien het gecombineerde doel van het optimaliseren van de nabijheid van het querypunt, het wijzigen van zo weinig mogelijk functies en het zoeken naar diversiteit onder de gegenereerde contrafeiten.
  • Zoeken in KD-structuur: dit algoritme retourneert counterfactuals uit de trainingsgegevensset. Er wordt een KD-structuur samengesteld over de trainingsgegevenspunten op basis van een afstandsfunctie en retourneert vervolgens de dichtstbijzijnde punten naar een bepaald querypunt dat het gewenste voorspelde label oplevert.

Volgende stappen