Gegevensgestuurd beleid maken en besluitvorming beïnvloeden

Machine learning-modellen zijn krachtig bij het identificeren van patronen in gegevens en het maken van voorspellingen. Maar ze bieden weinig ondersteuning om te schatten hoe het werkelijke resultaat verandert in de aanwezigheid van een interventie.

Beoefenaars zijn steeds meer gericht op het gebruik van historische gegevens om hun toekomstige beslissingen en bedrijfsingrepen te informeren. Hoe zou de omzet bijvoorbeeld worden beïnvloed als een onderneming een nieuwe prijsstrategie nastreeft? Zou een nieuwe medicatie de conditie van een patiënt verbeteren, allemaal gelijk aan?

Het causale deductieonderdeel van het dashboard verantwoorde AI behandelt deze vragen door het effect van een functie te schatten op een resultaat van belang gemiddeld, voor een populatie of cohort, en op individueel niveau. Het helpt ook om veelbelovende interventies te bouwen door functiereacties op verschillende interventies te simuleren en regels te maken om te bepalen welke populatiecohorten van een interventie zouden profiteren. Gezamenlijk kunnen besluitvormers met deze functies nieuwe beleidsregels toepassen en echte veranderingen stimuleren.

De mogelijkheden van dit onderdeel zijn afkomstig van het EconML-pakket . Het maakt een schatting van heterogene behandelingseffecten van observationele gegevens via de dubbele machine learning-techniek .

Gebruik causale deductie wanneer u het volgende moet doen:

  • Identificeer de functies die het meest directe effect hebben op het resultaat van uw interesse.
  • Bepaal welk algemene behandelingsbeleid moet worden genomen om de werkelijke impact op een interessante uitkomst te maximaliseren.
  • Begrijpen hoe personen met bepaalde functiewaarden reageren op een bepaald behandelbeleid.

Hoe worden causale deductieinzichten gegenereerd?

Notitie

Alleen historische gegevens zijn vereist om causale inzichten te genereren. De causale effecten die worden berekend op basis van de behandelingsfuncties zijn uitsluitend een gegevenseigenschap. Een getraind model is dus optioneel wanneer u de causale effecten rekent.

Dubbele machine learning is een methode voor het schatten van heterogene behandelingseffecten wanneer alle potentiële verstorende/controles (factoren die gelijktijdig een direct effect hadden op de behandelingsbeslissing in de verzamelde gegevens en het waargenomen resultaat) worden waargenomen, maar een van de volgende problemen bestaat:

  • Er zijn te veel voor klassieke statistische benaderingen die van toepassing zijn. Dat wil gezegd, ze zijn hoogdimensionaal.
  • Hun effect op de behandeling en het resultaat kan niet bevredigend worden gemodelleerd door parametrische functies. Dat wil gezegd, ze zijn niet-parametrisch.

U kunt machine learning-technieken gebruiken om beide problemen op te lossen. Zie Chernozhukov2016 voor een voorbeeld.

Dubbele machine learning vermindert het probleem door eerst twee voorspellende taken te schatten:

  • Het resultaat van de besturingselementen voorspellen
  • De behandeling van de controles voorspellen

Vervolgens combineert de methode deze twee voorspellende modellen in een definitieve faseschatting om een model te maken van het heterogene behandelingseffect. Met deze benadering kunnen willekeurige machine learning-algoritmen worden gebruikt voor de twee voorspellende taken, terwijl veel gunstige statistische eigenschappen met betrekking tot het uiteindelijke model behouden blijven. Deze eigenschappen omvatten kleine gemiddelde kwadratische fout, asymptotische normaliteit en constructie van betrouwbaarheidsintervallen.

Welke andere hulpprogramma's biedt Microsoft voor causale deductie?

  • Project Azua biedt een nieuw framework dat zich richt op end-to-end causale deductie.

    De DECI-technologie van Azua (deep end-to-end causale deductie) is één model dat gelijktijdig causale detectie en causale deductie kan uitvoeren. De gebruiker levert gegevens en het model kan de causale relaties tussen alle variabelen uitvoeren.

    Deze benadering kan op zichzelf inzicht geven in de gegevens. Het maakt het mogelijk om metrische gegevens zoals individuele behandelingseffect (ITE), gemiddelde behandelingseffect (ATE) en voorwaardelijke gemiddelde behandelingseffect (CATE) te berekenen. Vervolgens kunt u deze berekeningen gebruiken om optimale beslissingen te nemen.

    Het framework is schaalbaar voor grote gegevens, wat betreft zowel het aantal variabelen als het aantal gegevenspunten. Het kan ook ontbrekende gegevensitems verwerken met gemengde statistische typen.

  • EconML zorgt voor de back-end van het causale deductieonderdeel van het Responsible AI-dashboard. Het is een Python-pakket waarmee machine learning-technieken worden toegepast om geïnitialiseerde causale reacties van observationele of experimentele gegevens te schatten.

    De reeks schattingsmethoden in EconML vertegenwoordigt de nieuwste ontwikkelingen in causale machine learning. Door afzonderlijke machine learning-stappen op te nemen in interpreteerbare causale modellen, verbeteren deze methoden de betrouwbaarheid van wat-als-voorspellingen en maken causale analyses sneller en eenvoudiger voor een brede set gebruikers.

  • DoWhy is een Python-bibliotheek die is gericht op causaal denken en analyseren. DoWhy biedt een in principe vierstapsinterface voor causale deductie die zich richt op het expliciet modelleren van causale veronderstellingen en het zoveel mogelijk valideren ervan.

    De belangrijkste functie van DoWhy is de state-of-the-art refutation-API die automatisch causale veronderstellingen voor elke schattingsmethode kan testen. Het maakt deductie robuuster en toegankelijker voor niet-experts.

    DoWhy ondersteunt schatting van het gemiddelde causale effect voor achterdeur, voordeur, instrumentele variabele en andere identificatiemethoden. Het ondersteunt ook schattingen van de CATE via een integratie met de EconML-bibliotheek.

Volgende stappen