Valutare il modello di ML.NET con le metriche

Comprendere le metriche usate per valutare un modello di ML.NET.

Le metriche di valutazione sono specifiche per il tipo di attività di Machine Learning eseguite da un modello.

Ad esempio, per l'attività di classificazione, il modello viene valutato misurando il livello di corrispondenza di una categoria stimata corrispondente alla categoria effettiva. E per il clustering, la valutazione si basa sulla distanza tra gli elementi cluster e sulla separazione tra i cluster.

Metriche di valutazione per la classificazione binaria

Metrica di Descrizione Obiettivo
Precisione Accuracy o accuratezza corrisponde alla percentuale di stime corrette con un set di dati di test. Equivale al rapporto tra il numero di stime corrette e il numero totale di campioni di input. Funziona bene se è presente un numero simile di campioni appartenenti a ogni classe. Quanto più vicino a 1,00, tanto meglio. Ma se il risultato è esattamente 1,00, significa che si è verificato un problema, in genere di tipo dispersione di dati (etichetta/destinazione), sovradattamento oppure uso di dati di training per il test. Se i dati di test sono squilibrati (per cui la maggior parte delle istanze appartengono a una delle classi), il set di dati è piccolo oppure i punteggi si avvicinano a 0,00 o 1,00, l'accuratezza non rileva in realtà l'efficacia di un classificatore ed è necessario controllare altre metriche.
AUC aucROC o Area sotto la curva misura l'area sotto la curva creata spazzando il tasso positivo reale rispetto al tasso falso positivo. Quanto più vicino a 1,00, tanto meglio. Deve essere maggiore di 0,50 affinché un modello sia accettabile. Un modello con AUC pari o inferiore a 0,50 non è valido.
AUCPR aucPR o Area sotto la curva di una curva precisione-richiamo: misura utile dell'esito positivo della stima quando le classi sono sbilanciate (set di dati altamente asimmetrici). Quanto più vicino a 1,00, tanto meglio. I punteggi elevati vicini a 1,00 mostrano che il classificatore restituisce risultati accurati (alta precisione), e restituisce una maggioranza di risultati tutti positivi (alto recupero).
F1-score F1 score anche detto F-score bilanciato o F-measure. Si tratta della media armonica di precisione e recupero. La metrica F1 Score è utile se si vuole trovare un equilibrio tra precisione e recupero. Quanto più vicino a 1,00, tanto meglio. F1-score raggiunge il valore ottimale con un punteggio 1,00 e il valore peggiore con 0,00. Indica il grado di precisione del classificatore.

Per altre informazioni sulle metriche di classificazione binaria, vedere gli articoli seguenti:

Metriche di valutazione per la classificazione multiclasse e la classificazione del testo

Metrica di Descrizione Obiettivo
Micro-Accuracy L'accuratezza micro-media aggrega i contributi di tutte le classi per calcolare la metrica media. Corrisponde alla percentuale di istanze stimate correttamente. La micro-media non tiene conto dell'appartenenza a una classe. Essenzialmente, ogni coppia campione-classe contribuisce nello stesso modo alla metrica di accuratezza. Quanto più vicino a 1,00, tanto meglio. In un'attività di classificazione multiclasse, la micro-accuratezza è preferibile rispetto alla macro-accuratezza se si sospetta che ci sia uno squilibrio tra classi (ad esempio, potrebbero essere presenti molti altri esempi di una classe rispetto ad altre classi).
Macro-Accuracy L'accuratezza macro-media corrisponde all'accuratezza media a livello di classe. Viene confrontata l'accuratezza per ogni classe e l'accuratezza macro-media è la media di queste accuratezze. Essenzialmente, ogni classe contribuisce nello stesso modo alla metrica di accuratezza. Alle classi di minoranza viene assegnato un peso uguale a quello delle classi più grandi. La metrica della macro-media assegna lo stesso peso a ogni classe, indipendentemente dal numero di istanze di tale classe contenute nel set di dati. Quanto più vicino a 1,00, tanto meglio. Calcola la metrica in modo indipendente per ogni classe e quindi ne considera la media, di conseguenza tratta tutte le classi allo stesso modo
Log-loss La perdita logaritmica misura le prestazioni di un modello di classificazione in cui l'input della stima è un valore di probabilità compreso tra 0,00 e 1,00. Questa metrica aumenta quando la probabilità stimata devia dall'etichetta effettiva. Quanto più vicino a 0,00, tanto meglio. In un modello perfetto, log-loss sarebbe uguale a 0,00. L'obiettivo dei modelli di Machine Learning è ridurre al minimo questo valore.
Log-Loss Reduction La riduzione della perdita logaritmica può essere interpretata come un vantaggio del classificatore rispetto alla stima casuale. Il valore è compreso nell'intervallo da -inf a 1,00, dove 1,00 corrisponde a stime perfette e 0,00 indica stime medie. Ad esempio, se il valore equivale a 0,20, può essere interpretato come "la probabilità di una stima corretta è il 20% maggiore rispetto alla stima casuale"

La micro-accuratezza è generalmente più indicata per le esigenze aziendali di stime di ML. Se si vuole selezionare una singola metrica per scegliere la qualità dell'attività di classificazione multiclasse, è in genere preferibile puntare alla micro-accuratezza.

Ad esempio, per un'attività di classificazione dei ticket di supporto: (mapping dei ticket in arrivo con i team di supporto)

  • Micro-accuratezza: con quale frequenza un ticket in ingresso viene classificato per il team corretto?
  • Macro-accuratezza: con quale frequenza un ticket in ingresso è corretto per un tipico team?

In questo esempio la macro-accuratezza assegna un peso eccessivo ai piccoli team. Un piccolo team che riceve solo 10 ticket all'anno viene conteggiato allo stesso modo di un grande team con 10.000 ticket all'anno. La micro-accuratezza in questo caso si adatta meglio all'esigenza aziendale di calcolare la quantità di tempo/denaro che è possibile risparmiare automatizzando il processo di instradamento dei ticket.

Per altre informazioni sulle metriche di classificazione multiclasse, vedere gli articoli seguenti:

Metriche di valutazione per regressione e raccomandazione

Sia le attività di regressione che di raccomandazione stimano un numero. Nel caso della regressione, il numero può essere qualsiasi proprietà di output influenzata dalle proprietà di input. Per la raccomandazione, il numero è in genere un valore di classificazione (compreso tra 1 e 5 ad esempio) o una raccomandazione sì/no (rappresentata rispettivamente da 1 e 0).

Metrico Descrizione Obiettivo
R-Squared R-squared (R2) o coefficiente di determinazione rappresenta la potenza predittiva del modello come valore compreso tra -inf e 1,00. 1,00 significa corrispondenza perfetta e la corrispondenza può essere arbitrariamente insufficiente, quindi i punteggi possono essere negativi. Il punteggio 0,00 significa che il modello indovina il valore previsto per l'etichetta. Un valore R2 negativo indica che l'adattamento non segue la tendenza dei dati e il modello esegue prestazioni peggiori rispetto all'ipotesi casuale. Ciò è possibile solo con modelli di regressione non lineare o regressione lineare vincolata. R2 misura il grado di prossimità dei valori dei dati di test effettivi ai valori stimati. Quanto più vicino a 1,00, tanto migliore è la qualità. Tuttavia, a volte i valori di R-squared bassi (ad esempio 0,50) possono essere perfettamente normali o sufficientemente validi per uno specifico scenario, mentre quelli alti non sono sempre validi e possono essere sospetti.
Absolute-loss Absolute-loss o errore assoluto medio misura la prossimità delle stime ai risultati effettivi. Corrisponde alla media di tutti gli errori del modello, dove un errore del modello è la distanza tra il valore di etichetta stimato e quello corretto. Questo errore di stima viene calcolato per ogni record del set di dati di test. Infine, viene calcolato il valore medio per tutti gli errori assoluti registrati. Quanto più vicino a 0,00, tanto migliore è la qualità. L'errore assoluto medio usa la stessa scala dei dati misurati, ossia non è normalizzato in base a un intervallo specifico. Le metriche Absolute-loss, Squared-loss e RMS-loss possono essere usate solo per eseguire confronti tra modelli per lo stesso set di dati o per un set di dati con una distribuzione simile dei valori di etichetta.
Squared-loss La perdita quadratica o l'errore quadratico medio (MSE), detto anche deviazione quadratica media (MSD), indica come chiudere una linea di regressione a un set di valori di dati di test prendendo le distanze dai punti alla linea di regressione (queste distanze sono gli errori E) ed elevandoli al quadrato. La quadratura assegna più peso alle differenze maggiori. È sempre un valore non negativo e i valori migliori sono quelli più vicini a 0,00. A seconda dei dati, può essere impossibile ottenere un valore molto piccolo per l'errore quadratico medio.
RMS-loss RMS-loss o radice dell'errore quadratico medio, anche detto radice della deviazione quadratica media, misura la differenza tra i valori stimati da un modello e i valori osservati nell'ambiente del modello. RMS-loss è la radice quadrata di Squared-loss e ha la stessa unità come etichetta, simile a absolute-loss ma assegnando più peso alle differenze maggiori. La radice dell'errore quadratico medio viene comunemente usata in climatologia, previsioni e analisi di regressione per verificare i risultati sperimentali. È sempre un valore non negativo e i valori migliori sono quelli più vicini a 0,00. RMSD è una misura dell'accuratezza, per confrontare gli errori di previsione di diversi modelli per uno specifico set di dati e non tra set di dati, in quando è dipendente dalla scala.

Per altre informazioni sulle metriche di regressione, vedere gli articoli seguenti:

Metriche di valutazione per il clustering

Metrico Descrizione Obiettivo
Distanza media Media della distanza tra i punti dei dati e il centro del cluster assegnato. La distanza media è una misura della prossimità dei punti dati ai centroidi cluster. Si tratta di una misura della "stretta" del cluster. I valori più vicini a 0 sono migliori. Più vicino a zero è la distanza media, maggiore è il cluster dei dati. Si noti tuttavia che questa metrica diminuisce se il numero di cluster è aumentato e, nel caso estremo (in cui ogni punto dati distinto è il proprio cluster), sarà uguale a zero.
Indice Davies Bouldin Rapporto medio tra distanze all’interno dei cluster e distanze tra cluster. Quanto più stretto è il cluster e quanto più distanti sono i cluster, tanto più basso è questo valore. I valori più vicini a 0 sono migliori. I cluster più distanti e meno dispersi genereranno un punteggio migliore.
Informazioni reciproche normalizzate Può essere usato quando i dati di training usati per eseguire il training del modello di clustering sono disponibili anche con etichette di verità di base (ovvero il clustering supervisionato). La metrica Normalized Mutual Information misura se i punti di dati simili vengono assegnati allo stesso cluster e se i punti di dati diversi vengono assegnati a cluster diversi. Le informazioni reciproche normalizzate sono un valore compreso tra 0 e 1. I valori più vicini a 1 sono migliori.

Metriche di valutazione per la classificazione

Metrico Descrizione Obiettivo
Guadagni cumulativi scontati Il guadagno cumulativo scontato (DCG) è una misura della qualità della classificazione. È derivato da due presupposti. Uno: Gli elementi altamente rilevanti sono più utili quando appaiono più in alto in ordine di classificazione. Due: l'utilità tiene traccia della pertinenza, maggiore è la rilevanza, più utile è un elemento. Il guadagno cumulativo scontato viene calcolato per una determinata posizione nell'ordine di classificazione. Somma la classificazione della pertinenza divisa per il logaritmo dell'indice di classificazione fino alla posizione di interesse. Viene calcolato usando $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ Le gradazioni di pertinenza vengono fornite a un algoritmo di training di classificazione come etichette di verità di base. Viene fornito un valore DCG per ogni posizione nella tabella di classificazione, da cui il nome Guadagni cumulativi scontati. I valori superiori sono migliori.
Guadagni cumulativi scontati normalizzati La normalizzazione DCG consente di confrontare la metrica per gli elenchi di classificazioni di lunghezze diverse. I valori più vicini a 1 sono migliori.

Metriche di valutazione per il rilevamento di anomalie

Metrico Descrizione Obiettivo
Area sotto la curva ROC L'area sotto la curva dell'operatore ricevitore misura il modo in cui il modello separa i punti di dati anomali e consueti. I valori più vicini a 1 sono migliori. Solo i valori maggiori di 0,5 mostrano l'efficacia del modello. I valori 0,5 o inferiori indicano che il modello non è migliore dell'allocazione casuale degli input a categorie anomale e consuete.
Frequenza di rilevamento al conteggio dei falsi positivi La frequenza di rilevamento a un conteggio dei falsi positivi è il rapporto tra il numero di anomalie identificate correttamente e il numero totale di anomalie in un set di test, indicizzato da ogni falso positivo. Vale a dire, esiste un valore per la frequenza di rilevamento al conteggio dei falsi positivi per ogni elemento falso positivo. I valori più vicini a 1 sono migliori. Se non sono presenti falsi positivi, questo valore è 1.

Metriche di valutazione per la somiglianza delle frasi

Metrico Descrizione Obiettivo
Correlazione di Pearson La correlazione di Pearson, nota anche come coefficiente di correlazione, misura la dipendenza o la relazione tra due set di dati. I valori assoluti più vicini a 1 sono più simili. Questa metrica varia da -1 a 1. Un valore assoluto pari a 1 implica che i set di dati sono identici. Il valore 0 implica che non esiste alcuna relazione tra i due set di dati.