Valutare il modello di ML.NET con le metriche

Comprendere le metriche usate per valutare un modello di ML.NET.

Le metriche di valutazione sono specifiche del tipo di attività di Machine Learning eseguite da un modello.

Ad esempio, per l'attività di classificazione, il modello viene valutato misurando quanto bene una categoria prevista corrisponde alla categoria effettiva. E per il clustering, la valutazione si basa sulla prossimità degli elementi all'interno di ciascun cluster e sulla separazione tra i cluster.

Metriche di valutazione per la classificazione binaria

Metriche	Descrizione	Cercare
accuratezza	l'accuratezza è la percentuale di previsioni corrette con un set di dati di test. È il rapporto tra il numero di stime corrette e il numero totale di campioni di input. Funziona bene se è presente un numero simile di campioni appartenenti a ogni classe.	Più vicino a 1,00, meglio. Ma esattamente 1.00 indica un problema (in genere: fuga di etichette/target, overfitting o test con dati di addestramento). Quando i dati di test sono sbilanciati (in cui la maggior parte delle istanze appartiene a una delle classi), il set di dati è piccolo o i punteggi si avvicinano a 0,00 o 1,00, la misura dell'accuratezza non riflette effettivamente l'efficacia di un classificatore ed è necessario considerare metriche supplementari.
AUC	aucROC o area sotto la curva misura l'area sotto la curva creata spazzando il tasso positivo reale rispetto al tasso falso positivo.	Più vicino a 1,00, meglio. Deve essere maggiore di 0,50 affinché un modello sia accettabile. Un modello con AUC pari o inferiore a 0,50 non è valido.
AUCPR	aucPR o area sotto la curva Precision-Recall: misura utile del successo della previsione quando le classi sono sbilanciate (set di dati molto sbilanciati).	Più vicino a 1,00, meglio. I punteggi alti vicini a 1,00 indicano che il classificatore restituisce risultati accurati (precisione elevata) e restituisce una maggior parte di tutti i risultati positivi (richiamo elevato).
punteggio F1	punteggio F1 noto anche come punteggio F bilanciato o F-measure. È la media armonica della precisione e del richiamo. Il punteggio F1 è utile quando si vuole cercare un equilibrio tra Precisione e Richiamo.	Più vicino a 1,00, meglio. Un punteggio F1 raggiunge il suo valore migliore a 1,00 e il punteggio peggiore a 0,00. Indica quanto è preciso il classificatore.

Per altri dettagli sulle metriche di classificazione binaria, vedere gli articoli seguenti:

Metriche di valutazione per la classificazione multiclasse e la classificazione del testo

Metriche	Descrizione	Cercare
microprecisione	Micro-accuratezza media aggrega i contributi di tutte le classi per calcolare la metrica media. È la frazione delle istanze stimate correttamente. La micro-media non tiene conto dell'appartenenza alla classe. In pratica, ogni coppia di classi di esempio contribuisce allo stesso modo alla metrica di accuratezza.	Più vicino a 1,00, meglio. In un'attività di classificazione multiclasse, la micro-accuratezza è preferibile rispetto all'accuratezza della macro se si sospetta che ci sia uno squilibrio tra classi (ad esempio, potrebbero essere presenti molti altri esempi di una classe rispetto ad altre classi).
Accuratezza Macro	Accuratezza macro-media è l'accuratezza media a livello di classe. L'accuratezza per ogni classe viene calcolata e la macro-accuratezza è la media di queste accuratezze. Fondamentalmente, ogni classe contribuisce allo stesso modo alla metrica di accuratezza. Le classi minoritarie hanno un peso uguale a quello delle classi più grandi. La metrica macro-media dà lo stesso peso a ogni classe, indipendentemente dal numero di istanze di tale classe che contiene il set di dati.	Più vicino a 1,00, meglio. Calcola la metrica in modo indipendente per ogni classe e quindi accetta la media (trattando quindi equamente tutte le classi)
perdita logaritmica	La perdita logaritmica misura le prestazioni di un modello di classificazione in cui l'input di stima è un valore di probabilità compreso tra 0,00 e 1,00. La perdita logaritmica aumenta man mano che la probabilità stimata diverge dall'etichetta reale.	Più vicino a 0,00, meglio. Un modello perfetto avrebbe una perdita di log pari a 0,00. L'obiettivo dei modelli di Machine Learning è ridurre al minimo questo valore.
Log-Loss riduzione	La riduzione della perdita logaritmica può essere interpretata come il vantaggio del classificatore rispetto a una previsione casuale.	Varia da -inf e 1,00, dove 1,00 rappresenta stime perfette e 0,00 indica stime medie. Ad esempio, se il valore è uguale a 0,20, può essere interpretato come "la probabilità di una stima corretta è 20% migliore dell'ipotesi casuale"

La micro-accuratezza è in genere più allineata alle esigenze aziendali delle stime di Machine Learning. Se si vuole selezionare una singola metrica per scegliere la qualità di un'attività di classificazione multiclasse, in genere dovrebbe essere una micro-accuratezza.

Ad esempio, per un compito di classificazione dei ticket di supporto: (mappa i ticket in ingresso ai team di supporto)

Micro-accuratezza: con quale frequenza un ticket in ingresso viene classificato al team giusto?
Precisione macro—per una squadra media, con quale frequenza un ticket in arrivo è corretto per il loro team?

La macro-accuratezza dà maggior peso ai piccoli team in questo esempio; un piccolo team che ottiene solo 10 biglietti all'anno conta tanto quanto un grande team con 10.000 biglietti all'anno. L'accuratezza micro in questo caso si correla meglio con l'esigenza aziendale di sapere, "quanto tempo/denaro può risparmiare l'azienda automatizzando il processo di instradamento dei miei ticket".

Per altri dettagli sulle metriche di classificazione multiclasse, vedere Micro-average e Macro-average of Precision, Recall e F-Score.

Metriche di valutazione per regressione e raccomandazione

Sia le attività di regressione che di raccomandazione stimano un numero. Nel caso della regressione, il numero può essere qualsiasi proprietà di output influenzata dalle proprietà di input. Per la raccomandazione, il numero è in genere un valore di classificazione (compreso tra 1 e 5 ad esempio) o una raccomandazione sì/no (rappresentata rispettivamente da 1 e 0).

Metrico	Descrizione	Cercare
R Quadrato	R quadrato (R2)o Coefficiente di determinazione rappresenta la potenza predittiva del modello come valore tra -inf e 1,00. 1,00 significa che c'è un adattamento perfetto, e poiché l'adattamento può essere arbitrariamente scadente, i punteggi possono essere negativi. Un punteggio pari a 0,00 indica che il modello indovina il valore previsto per l'etichetta. Un valore R2 negativo indica che l'adattamento non segue la tendenza dei dati e il modello esegue prestazioni peggiori rispetto all'ipotesi casuale. Ciò è possibile solo con modelli di regressione non lineare o regressione lineare vincolata. R2 misura quanto i valori effettivi dei dati di test siano vicini ai valori previsti.	Più è vicino a 1,00, migliore è la qualità. Tuttavia, a volte valori R quadratici bassi (ad esempio 0,50) possono essere completamente normali o abbastanza buoni per lo scenario e i valori R quadratici elevati non sono sempre validi e sono sospetti.
Perdita assoluta	di perdita assoluta o errore assoluto medio (MAE) misura la vicinanza delle stime ai risultati effettivi. È la media di tutti gli errori del modello, in cui l'errore del modello è la distanza assoluta tra il valore dell'etichetta stimata e il valore di etichetta corretto. Questo errore di stima viene calcolato per ogni record del set di dati di test. Infine, il valore medio viene calcolato per tutti gli errori assoluti registrati.	Più è vicino a 0,00, migliore è la qualità. L'errore assoluto medio usa la stessa scala dei dati misurati (non viene normalizzato in un intervallo specifico). La perdita assoluta, la perdita quadrata e la perdita RMS possono essere usate solo per eseguire confronti tra modelli per lo stesso set di dati o set di dati con una distribuzione di valori di etichetta simile.
Perdita quadratica	perdita quadratica o errore quadratico medio (MSE), detto anche deviazione quadratica media (MSD), indica la vicinanza di una linea di regressione a un insieme di valori dati di test prendendo le distanze dai punti alla linea di regressione (queste distanze sono gli errori E) ed elevandole al quadrato. La quadratura dà più peso a differenze maggiori.	È sempre non negativo, e i valori di più vicini a 0,00 sono migliori per. A seconda dei dati, potrebbe essere impossibile ottenere un valore molto piccolo per l'errore quadratico medio.
di perdita RMS	di perdita RMS o errore quadratico medio medio radice (RMSE) (detta anche deviazione quadrata media radice , RMSD), misura la differenza tra i valori stimati da un modello e i valori osservati dall'ambiente in fase di modellazione. RMS-loss è la radice quadrata di Squared-loss e ha le stesse unità dell'etichetta, simile alla perdita assoluta, anche se dando più peso a differenze maggiori. L'errore quadratico medio viene comunemente usato nell'analisi climatologica, previsionale e di regressione per verificare i risultati sperimentali.	È sempre non negativo, e i valori di più vicini a 0,00 sono migliori per. RMSD è una misura di accuratezza, per confrontare gli errori di previsione di modelli diversi per un determinato set di dati e non tra set di dati, in quanto dipende dalla scalabilità.

Per altri dettagli sulle metriche di regressione, vedere gli articoli seguenti:

Metriche di valutazione per il clustering

Metrico	Descrizione	Cercare
distanza media	Media della distanza tra i punti dati e il centro del cluster assegnato. La distanza media è una misura della prossimità dei punti dati ai centroidi cluster. Si tratta di una misura della "compattezza" del cluster.	I valori più vicini a 0 sono migliori. Più vicino a zero è la distanza media, maggiore è il cluster dei dati. Si noti tuttavia che questa metrica diminuisce se il numero di cluster è aumentato e nel caso estremo (in cui ogni punto dati distinto è il proprio cluster) sarà uguale a zero.
Davies Bouldin Index	Rapporto medio tra distanze all'interno dello stesso cluster e distanze tra cluster. Più piccolo è il cluster e più distanti sono i cluster tra loro, più basso è questo valore.	I valori più vicini a 0 sono migliori. I cluster più distanti e meno dispersi genereranno un punteggio migliore.
Informazioni Mutue Normalizzate	Può essere usato quando i dati di training usati per eseguire il training del modello di clustering vengono forniti anche con etichette di verità di base, ovvero il clustering supervisionato. La metrica Normalized Mutual Information misura se i punti dati simili vengono assegnati allo stesso cluster. Punti dati diversi vengono assegnati a cluster diversi. Le informazioni reciproche normalizzate sono un valore compreso tra 0 e 1.	I valori più vicini a 1 sono migliori.

Metriche di valutazione per la classificazione

Metrico	Descrizione	Cercare
Guadagni Cumulativi Scontati	Il guadagno cumulativo scontato (DCG) è una misura della qualità della classificazione. È derivato da due presupposti. Uno: Gli elementi altamente rilevanti sono più utili quando appaiono più in alto in ordine di classificazione. Due: l'utilità è legata alla pertinenza, quindi maggiore è la rilevanza, più utile è un oggetto. Il guadagno cumulativo scontato viene calcolato per una determinata posizione nell'ordine di classificazione. Somma la classificazione della pertinenza divisa per il logaritmo dell'indice di posizionamento fino alla posizione di interesse. Viene calcolato usando $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ Le gradazioni di pertinenza vengono fornite a un algoritmo di training di classificazione come etichette di verità di base. Viene fornito un valore DCG per ogni posizione nella tabella di classificazione, da cui il nome Discounted Cumulative Gains.	valori superiori sono migliori.
Guadagni Cumulativi Scontati Normalizzati	La normalizzazione DCG consente di confrontare la metrica per gli elenchi di classificazioni di lunghezze diverse.	i valori più vicini a 1 sono migliori.

Metriche di valutazione per il rilevamento anomalie

Metrico	Descrizione	Cercare
area sotto la curva ROC	L'area sotto la curva operativa del ricevitore misura quanto bene il modello separa i punti dati anomali e normali.	Valori più vicini a 1 sono migliori. Solo i valori maggiori di 0,5 mostrano l'efficacia del modello. I valori 0,5 o inferiori indicano che il modello non è migliore dell'allocazione casuale degli input a categorie anomale e consuete.
Tasso di rilevamento al conteggio dei falsi positivi	Il tasso di rilevamento al conteggio dei falsi positivi è il rapporto tra il numero di anomalie correttamente identificate e il numero totale di anomalie in un set di test, calcolato per ogni falso positivo. Vale a dire, esiste un valore per il tasso di rilevamento calcolato sul conteggio dei falsi positivi per ciascun elemento di falso positivo.	Valori più vicini a 1 sono migliori. Se non sono presenti falsi positivi, questo valore è 1.

Metriche di valutazione per la somiglianza delle frasi

Metrico	Descrizione	Cercare
correlazione di Pearson	la correlazione di Pearson, nota anche come coefficiente di correlazione, misura la dipendenza o la relazione tra due set di dati.	i valori Assoluti più vicini a 1 sono più simili. Questa metrica varia da -1 a 1. Un valore assoluto pari a 1 implica che i set di dati sono identici. Il valore 0 implica che non esiste alcuna relazione tra i due set di dati.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2024-12-21