Valutare i sistemi di intelligenza artificiale usando il dashboard di intelligenza artificiale responsabile

L'implementazione dell'IA responsabile in pratica richiede una progettazione rigorosa. Ma una progettazione rigorosa può essere noiosa, manuale e dispendiosa in termini di tempo senza gli strumenti e l'infrastruttura corretti.

Il dashboard Di intelligenza artificiale responsabile offre un'unica interfaccia che consente di implementare l'IA responsabile in pratica in modo efficace ed efficiente. Riunisce diversi strumenti di IA responsabile maturi nelle aree di:

Il dashboard offre una valutazione olistica e il debug dei modelli in modo da poter prendere decisioni informate basate sui dati. L'accesso a tutti questi strumenti in un'unica interfaccia consente di:

  • Valutare ed eseguire il debug dei modelli di Machine Learning identificando gli errori del modello e i problemi di equità, diagnosticando il motivo per cui si verificano tali errori e informando i passaggi di mitigazione.

  • Aumentare le capacità decisionali basate sui dati affrontando domande come:

    "Qual è la modifica minima che gli utenti possono applicare alle proprie funzionalità per ottenere un risultato diverso dal modello?"

    "Qual è l'effetto causale della riduzione o dell'aumento di una caratteristica (ad esempio, consumo di carne rossa) su un risultato reale (ad esempio, progressione del diabete)?"

È possibile personalizzare il dashboard in modo da includere solo il subset di strumenti rilevanti per il caso d'uso.

Il dashboard Di intelligenza artificiale responsabile è accompagnato da una scorecard PDF. La scorecard consente di esportare metadati e informazioni dettagliate sull'intelligenza artificiale responsabile nei dati e nei modelli. È quindi possibile condividerli offline con gli stakeholder del prodotto e della conformità.

Componenti del dashboard di intelligenza artificiale responsabile

Il dashboard Di intelligenza artificiale responsabile riunisce, in una visualizzazione completa, vari strumenti nuovi e preesistenti. Il dashboard integra questi strumenti con l'interfaccia della riga di comando di Azure Machine Learning v2, Azure Machine Learning Python SDK v2 e studio di Azure Machine Learning. Gli strumenti comprendono:

  • Analisi dei dati, per comprendere ed esplorare le distribuzioni e le statistiche del set di dati.
  • Panoramica del modello e valutazione dell'equità, per valutare le prestazioni del modello e valutare i problemi di equità dei gruppi del modello (come le stime del modello influiscono su gruppi diversi di persone).
  • Analisi degli errori, per visualizzare e comprendere come vengono distribuiti gli errori nel set di dati.
  • Interpretabilità del modello (valori di importanza per le funzionalità di aggregazione e singole), per comprendere le stime del modello e il modo in cui vengono eseguite le stime complessive e singole.
  • Simulazione controfactuale per osservare in che modo le perturbazioni delle funzionalità influiscono sulle stime del modello, fornendo al tempo stesso i punti dati più vicini con stime del modello opposte o diverse.
  • Analisi causale, per usare dati cronologici per visualizzare gli effetti causali delle caratteristiche di trattamento sui risultati reali.

Insieme, questi strumenti consentono di eseguire il debug di modelli di Machine Learning, informando al tempo fa le decisioni aziendali basate sui dati e basate su modelli. Il diagramma seguente illustra come incorporarli nel ciclo di vita dell'intelligenza artificiale per migliorare i modelli e ottenere informazioni dettagliate solide sui dati.

Diagramma dei componenti del dashboard di intelligenza artificiale responsabile per il debug dei modelli e il processo decisionale responsabile.

Debug del modello

La valutazione e il debug dei modelli di Machine Learning è fondamentale per l'affidabilità del modello, l'interpretabilità, l'equità e la conformità. Consente di determinare come e perché i sistemi di intelligenza artificiale si comportano nel modo in cui si comportano. È quindi possibile usare questa conoscenza per migliorare le prestazioni del modello. Concettualmente, il debug dei modelli è costituito da tre fasi:

  1. Identificare, per comprendere e riconoscere gli errori del modello e/o i problemi di equità risolvendo le domande seguenti:

    "Quali tipi di errori ha il modello?"

    "In quali aree sono gli errori più prevalenti?"

  2. Diagnosticare, per esplorare i motivi alla base degli errori identificati risolvendo:

    "Quali sono le cause di questi errori?"

    "Dove è necessario concentrare le risorse per migliorare il modello?"

  3. Attenuare, per usare le informazioni dettagliate sull'identificazione e la diagnosi delle fasi precedenti per adottare misure di mitigazione mirate e risolvere domande come:

    "Come è possibile migliorare il modello?"

    "Quali soluzioni sociali o tecniche esistono per questi problemi?"

Diagramma del debug del modello tramite il dashboard di intelligenza artificiale responsabile.

La tabella seguente descrive quando usare i componenti del dashboard di intelligenza artificiale responsabile per supportare il debug del modello:

Fase Componente Descrizione
Identify Analisi degli errori Il componente di analisi degli errori consente di ottenere una comprensione più approfondita della distribuzione degli errori del modello e di identificare rapidamente le coorti errate (sottogruppi) dei dati.

Le funzionalità di questo componente nel dashboard provengono dal pacchetto Analisi errori .
Identify Analisi dell'equità Il componente equità definisce i gruppi in termini di attributi sensibili, ad esempio sesso, razza e età. Valuta quindi il modo in cui le stime del modello influiscono su questi gruppi e su come ridurre le disparità. Valuta le prestazioni del modello esplorando la distribuzione dei valori di stima e i valori delle metriche delle prestazioni del modello nei gruppi.

Le funzionalità di questo componente nel dashboard provengono dal pacchetto Fairlearn .
Identify Panoramica dei modelli Il componente di panoramica del modello aggrega le metriche di valutazione del modello in una visualizzazione generale della distribuzione delle stime del modello per un'analisi migliore delle prestazioni. Questo componente consente anche la valutazione dell'equità dei gruppi evidenziando la suddivisione delle prestazioni del modello nei gruppi sensibili.
Diagnosi Analisi dei dati L'analisi dei dati visualizza i set di dati in base a risultati stimati e effettivi, gruppi di errori e funzionalità specifiche. È quindi possibile identificare i problemi di sovrapresentazione e sottopresentazione, oltre a visualizzare il modo in cui i dati vengono raggruppati nel set di dati.
Diagnosi Interpretabilità dei modelli Il componente di interpretabilità genera spiegazioni comprensibili per le stime di un modello di Machine Learning. Fornisce più visualizzazioni nel comportamento di un modello:
- Spiegazioni globali (ad esempio, che influiscono sul comportamento complessivo di un modello di allocazione dei prestiti)
- Spiegazioni locali (ad esempio, perché la domanda di prestito di un richiedente è stata approvata o rifiutata)

Le funzionalità di questo componente nel dashboard provengono dal pacchetto InterpretML .
Diagnosi Analisi controfactuale e simulazione Questo componente è costituito da due funzionalità per una migliore diagnosi degli errori:
- Generazione di un set di esempi in cui le modifiche minime apportate a un determinato punto modificano la stima del modello. Ovvero, gli esempi mostrano i punti dati più vicini con stime del modello opposte.
- Abilitazione delle perturbazioni di simulazione interattive e personalizzate per i singoli punti dati per comprendere in che modo il modello reagisce alle modifiche delle funzionalità.

Le funzionalità di questo componente nel dashboard provengono dal pacchetto DiCE .

I passaggi di mitigazione sono disponibili tramite strumenti autonomi, ad esempio Fairlearn. Per altre informazioni, vedere gli algoritmi di mitigazione dell'iniquità.

Processo decisionale responsabile

Il processo decisionale è una delle maggiori promesse di Machine Learning. Il dashboard Di intelligenza artificiale responsabile consente di prendere decisioni aziendali informate tramite:

  • Informazioni dettagliate basate sui dati, per comprendere ulteriormente gli effetti del trattamento causale su un risultato usando solo i dati cronologici. Ad esempio:

    "Come può un medicinale influenzare la pressione sanguigna di un paziente?"

    "In che modo fornire valori promozionali a determinati clienti influisce sui ricavi?"

    Queste informazioni dettagliate vengono fornite tramite il componente di inferenza causale del dashboard.

  • Informazioni dettagliate basate su modello, per rispondere alle domande degli utenti, ad esempio "Cosa posso fare per ottenere un risultato diverso dalla prossima volta?" in modo che possano intervenire. Queste informazioni vengono fornite ai data scientist tramite il componente di simulazione controfattuale .

Diagramma che mostra le funzionalità del dashboard di intelligenza artificiale responsabile per il processo decisionale aziendale responsabile.

L'analisi esplorativa dei dati, l'inferenza causale e le funzionalità di analisi controfactuale consentono di prendere decisioni informate basate su modelli e basate sui dati in modo responsabile.

Questi componenti del dashboard Di intelligenza artificiale responsabile supportano il processo decisionale responsabile:

  • Analisi dei dati: è possibile riutilizzare il componente di analisi dei dati qui per comprendere le distribuzioni dei dati e identificare la sovrapresentazione e la sottopresentazione. L'esplorazione dei dati è una parte fondamentale del processo decisionale, perché non è possibile prendere decisioni informate su una coorte sottorappresentato nei dati.

  • Inferenza causale: il componente di inferenza causale stima il modo in cui un risultato reale cambia in presenza di un intervento. Aiuta inoltre a costruire interventi promettenti simulando risposte di caratteristiche a vari interventi e creando regole per determinare quali coorti della popolazione trarrebbero vantaggio da un particolare intervento. Collettivamente, queste funzionalità consentono di applicare nuovi criteri ed applicare cambiamenti reali.

    Le funzionalità di questo componente provengono dal pacchetto EconML , che stima gli effetti eterogenei del trattamento dai dati osservazionali tramite Machine Learning.

  • Analisi controfactuale: è possibile riutilizzare il componente di analisi controfactuale qui per generare modifiche minime applicate alle funzionalità di un punto dati che portano a stime del modello opposte. Ad esempio: Taylor avrebbe ottenuto l'approvazione del prestito dall'IA se ha guadagnato $ 10.000 in più nel reddito annuale e aveva due carte di credito aperte.

    Fornire queste informazioni agli utenti per informare la propria prospettiva. Li informa su come intervenire per ottenere il risultato desiderato dall'IA in futuro.

    Le funzionalità di questo componente provengono dal pacchetto DiCE .

Motivi per l'uso del dashboard di IA responsabile

Anche se sono stati compiuti progressi su singoli strumenti per aree specifiche dell'IA responsabile, i data scientist spesso devono usare vari strumenti per valutare in modo olistico i modelli e i dati. Ad esempio, potrebbe essere necessario usare l'interpretazione del modello e la valutazione dell'equità insieme.

Se i data scientist individuano un problema di equità con uno strumento, è necessario passare a uno strumento diverso per comprendere quali dati o fattori del modello si trovano alla radice del problema prima di eseguire qualsiasi procedura di mitigazione. I fattori seguenti complicano ulteriormente questo processo complesso:

  • Non c'è una posizione centrale per scoprire e conoscere gli strumenti, estendendo il tempo necessario per la ricerca e apprendere nuove tecniche.
  • I diversi strumenti non comunicano tra loro. I data scientist devono creare set di dati, modelli e altri metadati man mano che li passano tra gli strumenti.
  • Le metriche e le visualizzazioni non sono facilmente confrontabili e i risultati sono difficili da condividere.

Il dashboard di intelligenza artificiale responsabile sfida questo status quo. Si tratta di uno strumento completo e personalizzabile che riunisce esperienze frammentate in un'unica posizione. Consente di eseguire facilmente l'onboarding in un singolo framework personalizzabile per il debug dei modelli e il processo decisionale basato sui dati.

Usando il dashboard Di intelligenza artificiale responsabile, è possibile creare coorti di set di dati, passarli a tutti i componenti supportati e osservare l'integrità del modello per le coorti identificate. È possibile confrontare ulteriormente le informazioni dettagliate di tutti i componenti supportati in un'ampia gamma di coorti predefinite per eseguire analisi disaggregate e trovare le macchie cieche del modello.

Quando si è pronti per condividere tali informazioni con altri stakeholder, è possibile estrarli facilmente usando la scorecard PDF di intelligenza artificiale responsabile. Allegare il report PDF ai report di conformità o condividerlo con i colleghi per creare fiducia e ottenere l'approvazione.

Modi per personalizzare il dashboard di intelligenza artificiale responsabile

Il punto di forza del dashboard di intelligenza artificiale responsabile è la personalizzazione. Consente agli utenti di progettare flussi di lavoro personalizzati di modelli end-to-end che rispondono alle esigenze specifiche.

Hai bisogno di ispirazione? Ecco alcuni esempi di come i componenti del dashboard possono essere messi insieme per analizzare gli scenari in modi diversi:

Flusso del dashboard di intelligenza artificiale responsabile Caso d'uso
Analisi degli errori di analisi > degli errori > del modello Per identificare gli errori del modello e diagnosticarli comprendendo la distribuzione dei dati sottostante
Analisi dei > dati di valutazione > dell'equità dei modelli Per identificare i problemi di equità del modello e diagnosticarli comprendendo la distribuzione dei dati sottostanti
Analisi degli errori di panoramica > del modello - Analisi > antifatuale e simulazione Per diagnosticare gli errori nelle singole istanze con l'analisi controfactuale (modifica minima per generare una stima del modello diversa)
Analisi dei dati di panoramica > del modello Per comprendere la causa radice di errori e problemi di equità introdotti tramite sbilanciamenti dei dati o mancanza di rappresentazione di una particolare coorte di dati
Interpretazione della panoramica del > modello Per diagnosticare gli errori del modello tramite la comprensione del modo in cui il modello ha effettuato le stime
Inferenza causale dell'analisi > dei dati Per distinguere le correlazioni e le cause nei dati o decidere i trattamenti migliori da applicare per ottenere un risultato positivo
Inferenza causale dell'interpretazione > Per sapere se i fattori usati dal modello per la stima hanno effetti causali sul risultato reale
Analisi contatore dell'analisi > dei dati e simulazione Per rispondere alle domande dei clienti su cosa possono fare la prossima volta per ottenere un risultato diverso da un sistema di intelligenza artificiale

Persone chi deve usare il dashboard di IA responsabile

Le persone seguenti possono usare il dashboard Di intelligenza artificiale responsabile e la corrispondente scorecard di IA responsabile per creare una relazione di trust con i sistemi di intelligenza artificiale:

  • Professionisti di Machine Learning e data scientist interessati al debug e al miglioramento dei modelli di Machine Learning prima della distribuzione
  • Professionisti di Machine Learning e data scientist interessati alla condivisione dei record di integrità del modello con i responsabili dei prodotti e gli stakeholder aziendali per creare fiducia e ricevere autorizzazioni di distribuzione
  • Responsabili dei prodotti e stakeholder aziendali che esaminano i modelli di Machine Learning prima della distribuzione
  • Responsabili dei rischi che esaminano i modelli di Machine Learning per comprendere l'equità e i problemi di affidabilità
  • Provider di soluzioni di intelligenza artificiale che vogliono spiegare le decisioni del modello agli utenti o aiutarli a migliorare il risultato
  • Professionisti in spazi fortemente regolamentati che devono esaminare i modelli di Machine Learning con autorità di regolamentazione e revisori

Scenari e limitazioni supportati

  • Il dashboard di intelligenza artificiale responsabile supporta attualmente i modelli di regressione e classificazione (binaria e multiclasse) sottoposti a training su dati strutturati tabulari.
  • Il dashboard di intelligenza artificiale responsabile supporta attualmente i modelli MLflow registrati in Azure Machine Learning con una versione di sklearn (scikit-learn). I modelli scikit-learn devono implementare predict()/predict_proba() metodi oppure il modello deve essere sottoposto a wrapping all'interno di una classe che implementa i predict()/predict_proba() metodi. I modelli devono essere caricabili nell'ambiente dei componenti e devono essere selezionabili.
  • Il dashboard Di intelligenza artificiale responsabile visualizza attualmente fino a 5.000 punti dati nell'interfaccia utente del dashboard. È consigliabile eseguire il downsample del set di dati a 5K o meno prima di passarlo al dashboard.
  • Gli input del set di dati nel dashboard Di intelligenza artificiale responsabile devono essere dataframe pandas in formato Parquet. I dati NumPy e SciPy sparse non sono attualmente supportati.
  • Il dashboard Di intelligenza artificiale responsabile supporta attualmente funzionalità numeriche o categoriche. Per le funzionalità categorica, l'utente deve specificare in modo esplicito i nomi delle funzionalità.
  • Il dashboard di intelligenza artificiale responsabile attualmente non supporta set di dati con più di 10.000 colonne.

Passaggi successivi