Valutare gli errori nei modelli di ML (anteprima)

Una delle sfide più evidenti con le procedure di debug del modello correnti usa metriche di aggregazione per assegnare punteggi ai modelli in un benchmark. L'accuratezza del modello potrebbe non essere uniforme tra i sottogruppi di dati e potrebbe esistere coorte di input per cui il modello ha esito negativo più spesso. Le conseguenze dirette di questi errori sono una mancanza di affidabilità e sicurezza, iniquità e perdita di fiducia nel machine learning completamente.

Diagram showing benchmark and machine learning model point to accurate then to different regions fail for different reasons.

L'analisi degli errori si allontana dalle metriche di accuratezza aggregata, espone la distribuzione degli errori agli sviluppatori in modo trasparente e consente loro di identificare in modo efficiente gli & errori.

Il componente Analisi degli errori del dashboard di intelligenza artificiale responsabile offre ai professionisti di Machine Learning una conoscenza più approfondita della distribuzione degli errori del modello e li aiuta a identificare rapidamente le coorti sbagliate dei dati. Contribuisce alla fase "identificazione" del flusso di lavoro del ciclo di vita del modello tramite un albero delle decisioni che rivela coorte con tassi di errore elevati e una mappa termica che visualizza come alcune funzionalità di input influiscono sulla frequenza di errore tra coorti. Le discrepanze nell'errore possono verificarsi quando il sistema è sottoperforma per gruppi demografici specifici o raramente osservati coorti di input nei dati di training.

Le funzionalità di questo componente sono fondate da Analisi errori) per generare profili di errore del modello.

Usare l'analisi degli errori quando è necessario:

  • Ottenere una conoscenza approfondita del modo in cui gli errori del modello vengono distribuiti in un determinato set di dati e in diverse dimensioni di input e funzionalità.
  • Suddividere le metriche di prestazioni di aggregazione per individuare automaticamente le coorti errate e seguire i passaggi di mitigazione mirati.

Come vengono generate analisi degli errori

L'analisi degli errori identifica le coorti dei dati con una frequenza di errore superiore rispetto alla frequenza di errore complessiva del benchmark. Il dashboard consente l'esplorazione degli errori usando un albero delle decisioni o una mappa termica guidata da errori.

Albero degli errori

Spesso, i modelli di errore possono essere complessi e comportano più di una o due funzionalità. Pertanto, potrebbe essere difficile per gli sviluppatori esplorare tutte le possibili combinazioni di funzionalità per individuare le tasche dei dati nascoste con errori critici. Per ridurre il carico, la visualizzazione dell'albero binario partiziona automaticamente i dati del benchmark in sottogruppi interpretabili, che hanno tassi di errore imprevisti o bassi. In altre parole, l'albero usa le funzionalità di input per separare al massimo l'errore del modello dall'esito positivo. Per ogni nodo che definisce un sottogruppo di dati, gli utenti possono analizzare le informazioni seguenti:

  • Frequenza di errore: una parte delle istanze nel nodo per cui il modello non è corretto. Questo viene mostrato attraverso l'intensità del colore rosso.
  • Copertura degli errori: una parte di tutti gli errori che rientrano nel nodo. Questa operazione viene visualizzata tramite la frequenza di riempimento del nodo.
  • Rappresentazione dei dati: numero di istanze nel nodo. Viene visualizzato attraverso lo spessore del bordo in ingresso al nodo insieme al numero totale effettivo di istanze nel nodo.

Mappa termica degli errori

La visualizzazione consente di filtrare i dati in base a una griglia bidimensionale delle funzionalità di input. Gli utenti possono scegliere le funzionalità di input di interesse per l'analisi. La mappa termica visualizza le celle con un colore rosso più scuro per portare l'attenzione dell'utente alle aree con discrepanze di errore elevate. Ciò è utile soprattutto quando i temi di errore sono diversi in partizioni diverse, che si verificano spesso in pratica. In questa vista di identificazione degli errori, l'analisi è altamente guidata dagli utenti e dalle proprie conoscenze o ipotesi di quali funzionalità potrebbero essere più importanti per comprendere l'errore.

Passaggi successivi