Partage via


Choisir des méthodes d’évaluation

[Cet article fait partie de la documentation en version préliminaire et peut faire l’objet de modifications.]

Lors de la création de jeux de test, vous pouvez choisir parmi différentes méthodes de test pour évaluer les réponses de votre agent : correspondance de texte, similarité et qualité. Chaque méthode de test a ses propres points forts et est adaptée à différents types d’évaluations.

Méthodes de test de correspondance de texte

Les méthodes de test de correspondance de texte comparent les réponses de l’agent aux réponses attendues que vous définissez dans le jeu de tests. Il existe deux tests de correspondance :

La correspondance exacte vérifie si la réponse de l’agent correspond exactement à la réponse attendue dans le test : caractère pour caractère, mot pour mot. Si c’est le même, il passe. Si quelque chose diffère, il échoue. La correspondance exacte est utile pour des réponses courtes et précises telles que des nombres, des codes ou des expressions toutes faites. Elle ne convient pas aux réponses qu’il est possible de formuler de plusieurs manières correctes.

La correspondance par mot-clé vérifie si la réponse de l’agent contient certains des mots ou expressions de la réponse attendue que vous définissez. Si c’est le cas, il réussit. Si ce n’est pas le cas, elle échoue. La correspondance par mot-clé est utile lorsqu’une réponse peut être formulée de différentes manières correctes, mais que des mots-clés ou des idées doivent toujours être inclus dans la réponse.

Méthodes de test de similarité

La méthode du test de similarité compare la similarité des réponses de l’agent aux réponses attendues que vous définissez dans votre ensemble de test. Il est utile lorsqu’une réponse peut être formulée de plusieurs manières correctes, mais que le sens ou l’intention générale doit tout de même être préservé(e).

Il utilise une métrique de similarité cosinus pour évaluer la façon dont la réponse de l’agent est similaire à la formulation et à la signification de la réponse attendue et détermine un score. Le score varie entre 0 et 1, 1 indiquant que la réponse correspond étroitement et 0 qu’elle ne correspond pas. Vous pouvez définir un seuil de réussite afin de déterminer ce qui constitue un score suffisant pour qu’une réponse soit considérée comme correcte.

Méthodes de test de qualité

Les méthodes de test de qualité vous aident à déterminer si les réponses de votre assistant répondent à vos normes. Cette approche garantit que les résultats sont à la fois fiables et faciles à expliquer.

Ces méthodes utilisent un modèle de langage volumineux (LLM) pour évaluer la façon dont un agent répond efficacement aux questions utilisateur. Elles sont particulièrement utiles lorsqu’il n’y a pas de réponse exacte attendue, offrant un moyen flexible et évolutif d’évaluer les réponses en fonction des documents récupérés et du flux de conversation.

Les méthodes de test de qualité incluent deux méthodes de test :

La qualité générale évalue les réponses de l’assistant. Il utilise ces critères clés et applique une consigne cohérente pour guider la notation :

  • Pertinence : dans quelle mesure la réponse de l’assistant répond à la question. Par exemple, la réponse de l’agent reste-t-elle sur le sujet et répond directement à la question ?

  • Fondement : dans quelle mesure la réponse de l’assistant est basée sur le contexte fourni. Par exemple, la réponse de l’assistant se base-t-elle sur les informations fournies dans le contexte ou y fait-elle référence, plutôt que d’introduire des éléments sans rapport ou non étayés ?

  • Exhaustivité : dans quelle mesure la réponse de l’assistant fournit toutes les informations nécessaires. Par exemple, la réponse de l’assistant aborde-t-elle tous les aspects de la question et fournit-elle suffisamment de détails ?

  • Abstention : indique si l’assistant a tenté de répondre à la question ou non.

Pour être considérée comme de haute qualité, une réponse doit répondre à tous ces critères clés. Si un critère n’est pas rempli, la réponse est signalée pour amélioration. Cette méthode d’évaluation garantit que seules les réponses à la fois complètes et bien étayées obtiennent la note maximale. En revanche, les réponses incomplètes ou qui manquent de preuves de soutien reçoivent des scores inférieurs.

Compare le sens : évalue dans quelle mesure la réponse de l’assistant reflète le sens prévu de la réponse attendue. Au lieu de se concentrer sur la formulation exacte, il utilise la similarité d’intention, c’est-à-dire qu’il compare les idées et le sens derrière les mots, pour juger à quel point la réponse correspond à ce qui était attendu.

Vous pouvez définir un seuil de réussite afin de déterminer ce qui constitue un score suffisant pour qu’une réponse soit considérée comme correcte. Le score de réussite par défaut est de 50. La méthode de test de comparaison du sens est utile lorsqu’une réponse peut être formulée de plusieurs manières correctes, mais que le sens ou l’intention générale doit tout de même être préservé(e).

Seuils et taux de réussite

La réussite d’un cas de test dépend de la méthode de test que vous sélectionnez et du seuil que vous définissez pour passer des scores.

Chaque méthode de test, sauf la correspondance exacte, produit un score numérique basé sur un ensemble de critères d’évaluation. Ce score reflète la qualité de la réponse de l’agent à ces critères. Le seuil correspond à la note limite qui sépare la réussite de l’échec. Vous pouvez définir les scores de réussite pour les tests de similarité et de comparaison du sens.

La correspondance exacte est une méthode de test stricte qui ne produit pas de score numérique. La réponse doit correspondre exactement pour réussir. En choisissant le seuil d’un incident de test, vous déterminez le niveau de rigueur ou de tolérance de l’évaluation. Chaque méthode de test évalue la réponse de l’assistant différemment. Il est donc important de choisir celle qui correspond le mieux à vos critères d’évaluation.