Métriques d’évaluation pour les modèles de flux de travail d’orchestration

Article
12/19/2023

Votre jeu de données est divisé en deux parties : un jeu pour l’entraînement et un jeu pour le test. Le jeu d’entraînement est utilisé pour entraîner le modèle, tandis que le jeu de tests est utilisé comme test pour le modèle après l’entraînement pour calculer les performances et l’évaluation du modèle. Le jeu de tests n’est pas introduit dans le modèle par le biais du processus de formation pour s’assurer que le modèle est testé sur de nouvelles données.

L’évaluation du modèle est déclenchée automatiquement une fois l’entraînement effectué. Le processus d’évaluation commence par l’utilisation du modèle entraîné pour prédire les intentions définies par l’utilisateur pour les énoncés du jeu de test. Il les compare aux étiquettes fournies (ce qui établit une base de référence de confiance). Les résultats sont retournés pour pouvoir examiner les performances du modèle. Pour l’évaluation, le flux de travail de l’orchestration utilise les métriques suivantes :

Précision : mesure la précision/justesse de votre modèle. Il s’agit du rapport entre les positifs correctement identifiés (vrais positifs) et tous les positifs identifiés. La métrique de précision révèle le nombre de classes prédites qui sont correctement étiquetées.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Rappel : mesure la capacité du modèle à prédire les classes positives réelles. Il s’agit du rapport entre les vrais positifs prédits et ce qui a été réellement étiqueté. La métrique de rappel révèle le nombre de classes prédites correctes.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
Score F1 : le score F1 est une fonction de précision et de rappel. Il est nécessaire quand vous recherchez l’équilibre entre précision et rappel.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

La précision, le rappel et le score F1 sont calculés pour :

Chaque intention séparément (évaluation au niveau de l’intention)
Pour le modèle collectivement (évaluation au niveau du modèle).

Les définitions de la précision, du rappel et de l’évaluation sont les mêmes pour les évaluations au niveau de l’intention et au niveau du modèle. Toutefois, le nombre de vrais positifs, faux positifs et faux négatifs peut différer. Par exemple, prenons le texte suivant.

Exemple

Faire une réponse avec merci beaucoup
Appeler mon ami
Hello
Good morning

Voici les intentions utilisées : CLUEmail et Greeting

Le modèle peut effectuer les prédictions suivantes :

Énoncé	Intention prédite	Intention réelle
Faire une réponse avec merci beaucoup	CLUEmail	CLUEmail
Appeler mon ami	Greeting	CLUEmail
Hello	CLUEmail	Greeting
Bonjour	Greeting	Greeting

Évaluation au niveau de l’intention pour l’intention CLUEmail

Clé	Count	Explication
Vrai positif	1	L’énoncé 1 a été correctement prédit comme CLUEmail.
Faux positif	1	L’énoncé 3 a été prédit par erreur comme CLUEmail.
Faux négatif	1	L’énoncé 2 a été prédit par erreur comme Greeting.

Précision = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Rappel = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

Score F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Évaluation au niveau de l’intention pour Greeting

Clé	Count	Explication
Vrai positif	1	L’énoncé 4 a été correctement prédit comme Greeting.
Faux positif	1	L’énoncé 2 a été prédit par erreur comme Greeting.
Faux négatif	1	L’énoncé 3 a été prédit par erreur comme CLUEmail.

Précision = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Rappel = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

Score F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Évaluation au niveau du modèle pour le modèle collectif

Clé	Count	Explication
Vrai positif	2	Somme des vrais positifs pour toutes les intentions
Faux positif	2	Somme des faux positifs pour toutes les intentions
Faux négatif	2	Somme des faux négatifs pour toutes les intentions

Précision = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Rappel = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

Score F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Matrice de confusion

Une matrice de confusion est une matrice N x N utilisée pour l’évaluation des performances du modèle, où N est le nombre d’intentions. La matrice compare les étiquettes réelles aux étiquettes prédites par le modèle. Cela donne une vue holistique du niveau de performance du modèle et des genres d’erreur qu’il commet.

Vous pouvez utiliser la matrice de confusion pour identifier les intentions trop proches les unes des autres et qui sont souvent mal interprétées (ambiguïté). Dans ce cas, songez à fusionner ces intentions. Si cela n’est pas possible, ajoutez d’autres exemples étiquetés des deux intentions pour permettre au modèle de les différencier.

Vous pouvez calculer les métriques d’évaluation au niveau du modèle à partir de la matrice de confusion :

Le vrai positif du modèle correspond à la somme des vrais positifs de toutes les intentions.
Le faux positif du modèle correspond à la somme des faux positifs de toutes les intentions.
Le faux négatif du modèle correspond à la somme des faux négatifs de toutes les intentions.

Étapes suivantes

Effectuer l'apprentissage d’un modèle dans Language Studio

Métriques d’évaluation pour les modèles de flux de travail d’orchestration

Exemple

Évaluation au niveau de l’intention pour l’intention CLUEmail

Évaluation au niveau de l’intention pour Greeting

Évaluation au niveau du modèle pour le modèle collectif

Matrice de confusion

Étapes suivantes

Ressources supplémentaires