Évaluer votre modèle ML.NET avec des métriques

Comprendre les métriques utilisées pour évaluer un modèle ML.NET.

Les métriques d’évaluation sont propres au type de tâche de machine learning effectuée par un modèle.

Par exemple, pour la tâche de classification, le modèle est évalué en mesurant la façon dont une catégorie prédite correspond à la catégorie réelle. Et pour le clustering, l’évaluation est basée sur la proximité des éléments cluster les uns avec les autres et sur la quantité de séparation entre les clusters.

Métriques d’évaluation pour la classification binaire

Métriques	Descriptif	Cherchez
Précision	La précision est la proportion de prédictions correctes avec un jeu de données de test. Il s’agit du ratio du nombre de prédictions correctes au nombre total d’échantillons d’entrée. Cela fonctionne bien s’il existe un nombre similaire d’échantillons appartenant à chaque classe.	Plus proche de 1,00, mieux c’est. Mais exactement 1.00 indique un problème (généralement : fuite d’étiquette/cible, surajustement ou test avec des données d’entraînement). Lorsque les données de test sont déséquilibrés (où la plupart des instances appartiennent à l’une des classes), le jeu de données est petit, ou les scores approchent 0,00 ou 1,00, alors la précision ne capture pas vraiment l’efficacité d’un classifieur et vous devez vérifier des métriques supplémentaires.
AUC	aucROC ou Area sous la courbe mesure la zone sous la courbe créée en balayant le taux vrai positif par rapport au taux faux positif.	Plus proche de 1,00, mieux c’est. Il doit être supérieur à 0,50 pour qu’un modèle soit acceptable. Un modèle avec AUC de 0,50 ou moins est sans valeur.
AUCPR	aucPR ou Area sous la courbe d’une courbe Precision-Recall : mesure utile de la réussite de la prédiction lorsque les classes sont déséquilibrées (jeux de données fortement asymétriques).	Plus proche de 1,00, mieux c’est. Les scores élevés proches de 1,00 montrent que le classifieur retourne des résultats précis (haute précision) et retourne une majorité de tous les résultats positifs (rappel élevé).
Score F1	Score F1 également appelé score F-score équilibré ou mesure F. C’est la moyenne harmonique de la précision et du rappel. Le score F1 est utile lorsque vous souhaitez rechercher un équilibre entre précision et rappel.	Plus proche de 1,00, mieux c’est. Un score F1 atteint sa meilleure valeur à 1,00 et le pire score à 0,00. Il vous indique la précision de votre classifieur.

Pour plus d’informations sur les métriques de classification binaire, consultez les articles suivants :

Métriques d’évaluation pour la classification multiclasse et la classification de texte

Métriques	Descriptif	Cherchez
Micro-précision	La précision micro-moyenne agrège les contributions de toutes les classes pour calculer la métrique moyenne. Il s’agit de la fraction des instances prédites correctement. La micro-moyenne ne prend pas en compte l’appartenance aux classes. En fait, chaque paire échantillon-classe contribue de façon égale à la métrique de précision.	Plus proche de 1,00, mieux c’est. Dans une tâche de classification multiclasse, la micro-précision est préférable à la précision des macros si vous pensez qu’il peut y avoir un déséquilibre de classe (c’est-à-dire que vous pouvez avoir plusieurs exemples d’une classe que d’autres classes).
Précision des macros	La précision moyenne des macros correspond à la précision moyenne au niveau de la classe. La précision de chaque classe est calculée et la précision des macros est la moyenne de ces précisions. En fait, chaque classe contribue de façon égale à la métrique de précision. Les classes minoritaires ont un poids égal à celui des classes plus grandes. La métrique macro-moyenne donne le même poids à chaque classe, quel que soit le nombre d’instances de cette classe que contient le jeu de données.	Plus proche de 1,00, mieux c’est. Il calcule la métrique indépendamment pour chaque classe, puis prend la moyenne (par conséquent, traiter toutes les classes de façon égale)
Perte de journal	La perte logarithmique mesure les performances d’un modèle de classification où l’entrée de prédiction est une valeur de probabilité comprise entre 0,00 et 1,00. La perte de journal augmente à mesure que la probabilité prédite diffère de l’étiquette réelle.	Plus proche de 0,00, mieux c’est. Un modèle parfait aurait une perte de journal de 0,00. L’objectif des modèles Machine Learning est de réduire cette valeur.
réductionLog-Loss	La réduction de perte logarithmique peut être interprétée comme l’avantage du classifieur par rapport à une prédiction aléatoire.	Plages de -inf et 1.00, où 1.00 est des prédictions parfaites et 0,00 indique les prédictions moyennes. Par exemple, si la valeur est égale à 0,20, elle peut être interprétée comme « la probabilité d’une prédiction correcte est de 20% mieux que l’estimation aléatoire »

La micro-précision est généralement mieux alignée sur les besoins métier des prédictions ML. Si vous souhaitez sélectionner une seule métrique pour choisir la qualité d’une tâche de classification multiclasse, elle doit généralement être micro-précision.

Par exemple, pour une tâche de classification des tickets de support : (mappe les tickets entrants aux équipes de support)

Micro-précision : à quelle fréquence un ticket entrant est-il classé auprès de l’équipe appropriée ?
Précision des macros : pour une équipe moyenne, à quelle fréquence un ticket entrant est-il correct pour son équipe ?

La précision des macros est en surpoids aux petites équipes de cet exemple ; une petite équipe qui ne reçoit que 10 tickets par an compte autant qu’une grande équipe avec 10 000 tickets par an. La micro-précision dans ce cas correspond mieux au besoin métier de « combien de temps/argent peut économiser l’entreprise en automatisant mon processus de routage des tickets ».

Pour plus d’informations sur les métriques de classification multiclasse, consultez Micro-moyenne et Macro moyenne de précision, rappel et F-Score.

Métriques d’évaluation pour la régression et la recommandation

Les tâches de régression et de recommandation prédisent un nombre. Dans le cas de la régression, le nombre peut être n’importe quelle propriété de sortie influencée par les propriétés d’entrée. Pour recommandation, le nombre est généralement une valeur d’évaluation (entre 1 et 5 par exemple), ou une recommandation oui/non (représentée par 1 et 0 respectivement).

Unité de mesure	Descriptif	Cherchez
R-Squared	R-squared (R2) ou Coefficient de détermination représente la puissance prédictive du modèle sous forme de valeur comprise entre -inf et 1,00. 1.00 signifie qu’il y a un ajustement parfait, et que l’ajustement peut être arbitrairement médiocre afin que les scores puissent être négatifs. Un score de 0,00 signifie que le modèle suppose la valeur attendue de l’étiquette. Une valeur R2 négative indique que l’ajustement ne suit pas la tendance des données et que le modèle s’exécute pire que l’estimation aléatoire. Cela n’est possible qu’avec les modèles de régression non linéaire ou la régression linéaire contrainte. R2 mesure la fermeture des valeurs réelles des données de test aux valeurs prédites.	Plus proche de 1,00, la meilleure qualité. Toutefois, parfois, les valeurs R-squared faibles (telles que 0,50) peuvent être entièrement normales ou suffisamment bonnes pour votre scénario et les valeurs R-squared élevées ne sont pas toujours bonnes et sont suspectes.
Perte absolue	La perte absolue ou l’erreur absolue moyenne (MAE) mesure la fermeture des prédictions aux résultats réels. Il s’agit de la moyenne de toutes les erreurs de modèle, où l’erreur de modèle correspond à la distance absolue entre la valeur d’étiquette prédite et la valeur d’étiquette correcte. Cette erreur de prédiction est calculée pour chaque enregistrement du jeu de données de test. Enfin, la valeur moyenne est calculée pour toutes les erreurs absolues enregistrées.	Plus proche de 0,00, la meilleure qualité. L’erreur absolue moyenne utilise la même échelle que les données mesurées (n’est pas normalisée à une plage spécifique). La perte absolue, la perte carrée et la perte RMS ne peuvent être utilisées que pour effectuer des comparaisons entre les modèles pour le même jeu de données ou jeu de données avec une distribution de valeurs d’étiquette similaire.
Perte carrée	La perte carrée ou l’erreur carrée moyenne (MSE), également appelée Écart carré moyen (MSD), vous indique la fermeture d’une ligne de régression à un ensemble de valeurs de données de test en prenant les distances entre les points et la ligne de régression (ces distances sont les erreurs E) et lesquar. Laquar donne plus de poids à des différences plus importantes.	Il est toujours non négatif, et les valeurs plus proches de 0,00 sont meilleures. Selon vos données, il peut être impossible d’obtenir une très petite valeur pour l’erreur carrée moyenne.
PERTE RMS	RmS-loss ou Root Mean Squared Error (RMSE) ( également appelé Écart carré moyen racine, RMSD), mesure la différence entre les valeurs prédites par un modèle et les valeurs observées à partir de l’environnement qui est modélisé. RMS-loss est la racine carrée de la perte carrée et a les mêmes unités que l’étiquette, similaire à la perte absolue, tout en donnant plus de poids à des différences plus importantes. L’erreur carrée moyenne racine est couramment utilisée dans la climatologie, la prévision et l’analyse de régression pour vérifier les résultats expérimentaux.	Il est toujours non négatif, et les valeurs plus proches de 0,00 sont meilleures. RMSD est une mesure de précision, pour comparer les erreurs de prévision de différents modèles pour un jeu de données particulier et non entre les jeux de données, car il dépend de l’échelle.

Pour plus d’informations sur les métriques de régression, lisez les articles suivants :

Métriques d’évaluation pour le clustering

Unité de mesure	Descriptif	Cherchez
Distance moyenne	Moyenne de la distance entre les points de données et le centre de leur cluster affecté. La distance moyenne est une mesure de proximité des points de données vers les centroïdes de cluster. Il s’agit d’une mesure de la façon dont le cluster est « serré ».	Les valeurs plus proches de 0 sont meilleures. Plus la distance moyenne est proche de zéro, plus les données sont en cluster. Notez toutefois que cette métrique diminue si le nombre de clusters est augmenté et, dans l’extrême cas (où chaque point de données distinct est son propre cluster), il sera égal à zéro.
Davies Bouldin Index	Rapport moyen entre les distances de cluster et entre les distances de cluster. Plus le cluster est serré et plus les clusters sont éloignés, plus cette valeur est faible.	Les valeurs plus proches de 0 sont meilleures. Les clusters plus éloignés et moins dispersés entraînent un meilleur score.
Informations mutuelles normalisées	Peut être utilisé lorsque les données d’apprentissage utilisées pour entraîner le modèle de clustering sont également associées à des étiquettes de vérité au sol (autrement dit, le clustering supervisé). La métrique d’informations mutuelles normalisées mesure si des points de données similaires sont affectés au même cluster et aux points de données disparates affectés à différents clusters. Les informations mutuelles normalisées sont une valeur comprise entre 0 et 1.	Les valeurs plus proches de 1 sont meilleures.

Métriques d’évaluation pour le classement

Unité de mesure	Descriptif	Cherchez
Gains cumulés réduits	Le gain cumulé réduit (DCG) est une mesure de la qualité de classement. Il est dérivé de deux hypothèses. Un : Les éléments hautement pertinents sont plus utiles lorsqu’ils apparaissent plus haut dans l’ordre de classement. Deux : L’utilité suit la pertinence, plus la pertinence est élevée, plus un élément est utile. Le gain cumulé réduit est calculé pour une position particulière dans l’ordre de classement. Il additionne la pertinence de la notation divisée par le logarithme de l’index de classement jusqu’à la position d’intérêt. Elle est calculée à l’aide de $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ Les notations de pertinence sont fournies à un algorithme de formation de classement en tant qu’étiquettes de vérité de base. Une valeur DCG est fournie pour chaque position dans la table de classement, par conséquent le nom Gains cumulés réduits.	Les valeurs plus élevées sont meilleures.
Gains cumulés réduits normalisés	La normalisation de DCG permet de comparer la métrique pour les listes de classement de longueurs différentes.	Les valeurs plus proches de 1 sont meilleures.

Métriques d’évaluation pour la détection d’anomalies

Unité de mesure	Descriptif	Cherchez
Zone sous courbe ROC	La zone sous la courbe de l’opérateur récepteur mesure la façon dont le modèle sépare les points de données anormaux et habituels.	Les valeurs plus proches de 1 sont meilleures. Seules les valeurs supérieures à 0,5 illustrent l’efficacité du modèle. Les valeurs 0,5 ou inférieures indiquent que le modèle n’est pas mieux que d’allouer aléatoirement les entrées à des catégories anormales et habituelles.
Taux de détection au nombre de faux positifs	Le taux de détection au nombre de faux positifs est le rapport entre le nombre d’anomalies correctement identifiées et le nombre total d’anomalies dans un jeu de tests, indexé par chaque faux positif. Autrement dit, il existe une valeur pour le taux de détection au nombre de faux positifs pour chaque élément faux positif.	Les valeurs plus proches de 1 sont meilleures. S’il n’y a pas de faux positifs, cette valeur est 1.

Métriques d’évaluation pour la similarité des phrases

Unité de mesure	Descriptif	Cherchez
Corrélation Pearson	La corrélation Pearson, également appelée coefficient de corrélation, mesure la dépendance ou la relation entre deux ensembles de données.	Les valeurs absolues proches de 1 sont les plus similaires. Cette métrique est comprise entre -1 et 1. Une valeur absolue de 1 implique que les jeux de données sont identiques. La valeur 0 implique qu’il n’existe aucune relation entre les deux jeux de données.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-06-22