Valutare gli errori nei modelli di Machine Learning

Una delle principali sfide con le procedure correnti di debug del modello consiste nell'usare le metriche di aggregazione per assegnare punteggi ai modelli in un set di dati di benchmark. L'accuratezza del modello potrebbe non essere uniforme tra sottogruppi di dati e potrebbero esserci coorti di input per cui il modello ha esito negativo più spesso. Le conseguenze dirette di questi errori sono la mancanza di affidabilità e sicurezza, la comparsa di problemi di equità e la perdita di fiducia nel Machine Learning.

Diagramma che mostra un esempio di frequenza e errori di accuratezza per un benchmark e un modello di Machine Learning.

L'analisi degli errori si allontana dalle metriche di accuratezza dell'aggregazione. Espone la distribuzione degli errori agli sviluppatori in modo trasparente e consente loro di identificare e diagnosticare gli errori in modo efficiente.

Il componente di analisi degli errori del dashboard Di intelligenza artificiale responsabile offre ai professionisti del Machine Learning una conoscenza più approfondita della distribuzione degli errori del modello e consente loro di identificare rapidamente le coorti errate dei dati. Questo componente identifica le coorti dei dati con una frequenza di errore superiore rispetto alla frequenza di errore complessiva del benchmark. Contribuisce alla fase di identificazione del flusso di lavoro del ciclo di vita del modello tramite:

  • Albero delle decisioni che rivela coorti con tassi di errore elevati.
  • Mappa termica che visualizza il modo in cui le funzionalità di input influiscono sulla frequenza degli errori tra coorti.

Le discrepanze negli errori possono verificarsi quando il sistema è sottoperforma per gruppi demografici specifici o coorte di input rilevate raramente nei dati di training.

Le funzionalità di questo componente provengono dal pacchetto Analisi errori , che genera profili di errore del modello.

Usare l'analisi degli errori quando è necessario:

  • Acquisire una conoscenza approfondita del modo in cui gli errori del modello vengono distribuiti in un set di dati e in diverse dimensioni di input e funzionalità.
  • Suddividere le metriche delle prestazioni aggregate per individuare automaticamente le coorti errate per informare i passaggi di mitigazione mirati.

Albero degli errori

Spesso, i modelli di errore sono complessi e coinvolgono più di una o due funzionalità. Gli sviluppatori potrebbero avere difficoltà a esplorare tutte le possibili combinazioni di funzionalità per individuare tasche di dati nascoste con errori critici.

Per ridurre il carico di lavoro, la visualizzazione albero binario partiziona automaticamente i dati del benchmark in sottogruppi interpretabili con tassi di errore imprevisti elevati o bassi. In altre parole, l'albero usa le funzionalità di input per separare al massimo l'errore del modello dall'esito positivo. Per ogni nodo che definisce un sottogruppo di dati, gli utenti possono esaminare le informazioni seguenti:

  • Frequenza degli errori: parte delle istanze nel nodo per cui il modello non è corretto. Viene mostrato attraverso l'intensità del colore rosso.
  • Copertura degli errori: parte di tutti gli errori che rientrano nel nodo. Viene visualizzato tramite la frequenza di riempimento del nodo.
  • Rappresentazione dei dati: numero di istanze in ogni nodo dell'albero degli errori. Viene visualizzato attraverso lo spessore del bordo in ingresso al nodo, insieme al numero totale di istanze nel nodo.

Screenshot di un albero di analisi degli errori che mostra le coorti con percentuali di errore superiori o inferiori e copertura.

Mappa termica degli errori

La visualizzazione consente di filtrare i dati in base a una griglia unidimensionale o bidimensionale delle funzionalità di input. Gli utenti possono scegliere le funzionalità di input di interesse per l'analisi.

La mappa termica visualizza le celle con un errore elevato usando un colore rosso più scuro per portare l'attenzione dell'utente a tali aree. Questa funzionalità è particolarmente utile quando i temi di errore sono diversi tra le partizioni, che si verificano spesso in pratica. In questa visualizzazione di identificazione degli errori, l'analisi è altamente guidata dagli utenti e dalle proprie conoscenze o ipotesi su quali funzionalità potrebbero essere più importanti per comprendere gli errori.

Screenshot di una mappa termica di analisi degli errori che mostra gli errori del modello partizionati da una o due funzionalità.

Passaggi successivi