Tester et évaluer vos modèles de résumé personnalisés

Article
12/19/2023

Lorsque vous créez votre modèle de résumé personnalisé, vous voulez veiller à vous retrouver avec un modèle de qualité. Vous devez tester et évaluer votre modèle de résumé personnalisé pour vérifier qu’il fonctionne correctement.

Conseils sur les tests et les jeux d’apprentissage fractionnés

Une étape importante de la création d’un modèle de résumé personnalisé consiste à vérifier que le modèle créé est satisfaisant en termes de qualité et qu’il génère des résumés comme prévu. Ce processus de validation doit être effectué avec un jeu d’exemples distinct (appelés exemples de test) des exemples utilisés pour l’apprentissage. Nous vous recommandons de suivre trois recommandations importantes lors du fractionnement des données disponibles en apprentissage et en test :

Taille : pour établir une confiance suffisante quant à la qualité du modèle, le jeu de tests doit être d’une taille raisonnable. Le test du modèle sur quelques exemples seulement peut donner des temps d’évaluation des résultats trompeurs. Nous vous recommandons d’évaluer plusieurs centaines d’exemples. Lorsqu’un grand nombre de documents/conversations est disponible, nous vous recommandons de réserver au moins 10 % d’entre eux pour le test.
Aucun chevauchement : il est essentiel de vérifier que le même document n’est pas utilisé pour l’apprentissage et le test en même temps. Les tests doivent être effectués sur des documents qui n’ont jamais été utilisés pour l’apprentissage à n’importe quel state. Autrement, la qualité du modèle sera fortement surestimée.
Diversité : le jeu de tests doit couvrir autant de caractéristiques d’entrée que possible. Par exemple, il est toujours préférable d’inclure des documents de différentes longueurs, rubriques, styles, ... etc. le cas échéant. De même, pour des résumés des conversations, il est toujours judicieux d’inclure des conversations ayant divers nombres de tours et d’intervenants.

Conseils pour l’évaluation d’un modèle de résumé personnalisé

Lorsque vous évaluez un modèle personnalisé, nous vous recommandons d’utiliser l’évaluation automatique et manuelle ensemble. L’évaluation automatique permet de juger rapidement la qualité des résumés produits pour l’ensemble du jeu de tests, couvrant ainsi un grand éventail de variations d’entrée. Toutefois, l’évaluation automatique offre une estimation de la qualité et n’est pas suffisante pour établir une confiance dans la qualité du modèle. Nous vous recommandons donc d’inspecter également les résumés produits pour le plus grand nombre possible de documents de test.

Évaluation automatique

Actuellement, nous utilisons une métrique appelée ROUGE (Rappel-Oriented Understudy for Gisting Evaluation). Cette technique comprend des mesures permettant de déterminer automatiquement la qualité d’un résumé en le comparant aux résumés idéaux créés par des humains. Les mesures comptent le nombre d’unités qui se chevauchent, comme les n-grammes, les séquences de mots et les paires de mots, entre le résumé généré par ordinateur en cours d’évaluation et les résumés idéaux. Pour en savoir plus sur Rouge, consultez l’entrée de Wikipédia relative à ROUGE et le document sur le package ROUGE.

Évaluation manuelle

Lorsque vous inspectez manuellement la qualité d’un résumé, il existe des qualités générales d’un résumé que nous vous recommandons de vérifier en plus de toutes les attentes souhaitées que le modèle personnalisé a été entraîné à respecter, telles que le style, le format ou la longueur. Les qualités générales que nous recommandons de vérifier sont les suivantes :

Fluidité : le résumé ne doit pas avoir de problèmes de mise en forme, d’erreurs de majuscules ou de phrases non grammaticales.
Cohérence : le résumé doit être bien structuré et bien organisé. Le résumé ne doit pas simplement être un pile d’informations connexes. Il doit créer d’une phrase à l’autre un ensemble cohérent d’informations relatif à un sujet.
Couverture : le résumé doit couvrir toutes les informations importantes du document/de la conversation.
Pertinence : le résumé doit inclure uniquement des informations importantes du document/de la conversation source sans redondances.
Hallucinations : le résumé contient aucune information incorrecte qui n’est pas prise en charge par le document/la conversation source.

Si vous souhaitez en savoir plus sur l’évaluation des résumés, consultez l’article MIT Press sur SummEval.

Partage via