Choisir des méthodes d’évaluation

Lorsque vous créez des ensembles de test, choisissez parmi différentes méthodes de test pour évaluer les réponses de votre agent. Chaque méthode de test a ses propres forces et convient à différents types d’évaluations.

Méthode de test	Mesures	Type d'ensemble de tests	Évaluation	Configurations
Qualité générale	Quelle est la qualité des réponses d’un cas de test en fonction de qualités spécifiques	Réponse unique ou conversation	Noté sur 100 %	None
Comparer la signification	Dans quelle mesure le sens de la réponse du cas test correspond à la réponse attendue	Réponse unique	Noté sur 100 %	Note de réussite, réponse prévue
Utilisation des capacités	Indique si le cas de test a utilisé toutes ou toutes les ressources attendues	Réponse unique	Réussite/échec	Capacités attendues
Correspondance de mots-clés	Que le cas de test ait utilisé tous ou tout le nombre de mots-clés ou expressions attendus	Réponse unique ou conversation	Réussite/échec	Mots-clés ou expressions attendus
Similarité du texte	Dans quelle mesure le texte de la réponse du cas test correspond à la réponse attendue	Réponse unique	Noté sur 100 %	Note de réussite, réponse prévue
Correspondance exacte	Si la réponse du cas test correspond exactement à la réponse attendue	Réponse unique	Réussite/échec	Réponse attendue
Personnalisée	Indique si la réponse du cas de test répond à vos critères ou attentes définis.	Réponse unique ou conversation	Réussite/Échec (répond aux critères d'étiquetage définis)	Nom, instructions d’évaluation, étiquettes

Ajouter une méthode de test

Lors de la création ou de l’édition d’un ensemble de test, sélectionnez Ajouter méthode de test.
Sélectionnez toutes les méthodes que vous souhaitez tester, puis sélectionnez OK. Vous pouvez ajouter plusieurs méthodes.
1. Certaines méthodes exigent un score de réussite. Le score de réussite détermine quel score correspond à une réussite ou à un échec. Fixez le score, puis sélectionnez OK.
2. Certaines méthodes de test nécessitent plus de critères.
Sélectionnez Enregistrer pour enregistrer vos modifications dans l’ensemble de test.

Sélectionnez une méthode de test existante pour modifier les critères de cette méthode ou supprimez-la.

Qualité générale

Disponible pour les ensembles de tests de réponses uniques et de conversation. La qualité générale vous aide à décider si les réponses de votre agent répondent à vos attentes. Il utilise un modèle de langage volumineux (LLM) pour évaluer la façon dont un agent répond efficacement aux questions des utilisateurs.

La qualité générale est particulièrement utile quand il n’y a pas de réponse exacte attendue. Il offre un moyen flexible et évolutif d’évaluer les réponses en fonction des documents récupérés et du déroulement de la conversation.

Il utilise ces critères clés et applique une consigne cohérente pour guider la notation :

Pertinence : dans quelle mesure la réponse de l’assistant répond à la question. Par exemple, la réponse de l’agent reste-t-elle sur le sujet et répond directement à la question ?
Fondement : dans quelle mesure la réponse de l’assistant est basée sur le contexte fourni. Par exemple, la réponse de l’assistant se base-t-elle sur les informations fournies dans le contexte ou y fait-elle référence, plutôt que d’introduire des éléments sans rapport ou non étayés ?
Exhaustivité : dans quelle mesure la réponse de l’assistant fournit toutes les informations nécessaires. Par exemple, la réponse de l’assistant aborde-t-elle tous les aspects de la question et fournit-elle suffisamment de détails ?
Abstention : indique si l’assistant a tenté de répondre à la question ou non.

Pour être considérée comme de haute qualité, une réponse doit répondre à tous ces critères clés. Si un critère n’est pas rempli, la réponse est signalée pour amélioration. Cette méthode d’évaluation garantit que seules les réponses à la fois complètes et bien étayées obtiennent la note maximale. En revanche, les réponses incomplètes ou qui manquent de preuves de soutien reçoivent des scores inférieurs.

Lorsque vous ajoutez ou modifiez des méthodes de test, sélectionnez Qualité générale. Tous les ensembles de tests commencent par défaut avec cette méthode.

Vous n’avez pas besoin d’ajouter les réponses attendues aux cas tests pour réaliser une évaluation générale de la qualité.

Note

La réduction du nombre de sources de connaissances pour l’agent n’est pas garantie d’améliorer la notation de qualité générale dans l’évaluation de l’agent. Cette limitation existe, car les connaissances récupérées (la connaissance que le modèle pense est pertinente pour un cas de test spécifique) peuvent être trop volumineuses.

Comparer la signification

Disponible pour les séries de tests de réponse unique. Compare le sens : évalue dans quelle mesure la réponse de l’assistant reflète le sens prévu de la réponse attendue. Au lieu de se concentrer sur la formulation exacte, il utilise la similarité d’intention, c’est-à-dire qu’il compare les idées et le sens derrière les mots, pour juger à quel point la réponse correspond à ce que vous attendiez.

Comme pour la qualité générale, comparer le sens est particulièrement utile lorsqu’il n’y a pas de réponse exacte attendue. Il offre un moyen flexible et évolutif d’évaluer les réponses en fonction des documents récupérés et du déroulement de la conversation.

Vous pouvez définir un seuil de réussite afin de déterminer ce qui constitue un score suffisant pour qu’une réponse soit considérée comme correcte. Le score de réussite par défaut est de 50. La méthode de test de comparaison du sens est utile lorsqu’une réponse peut être formulée de plusieurs manières correctes, mais que le sens ou l’intention générale doit tout de même être préservé(e).

Lorsque vous ajoutez ou modifiez des méthodes de test, sélectionnez Comparer la signification.
Définissez le score de réussite pour cette méthode.
Ajoutez les réponses attendues. Tout cas de test sans réponses attendues produit un résultat non valide pour cette méthode de test.
1. Sélectionnez un cas test.
2. Ajoutez la réponse que vous attendez.
3. Sélectionnez Appliquer pour enregistrer la réponse attendue.
4. Répétez pour tous les cas de test que vous souhaitez tester en utilisant cette méthode.

Utilisation de l’outil

Disponible pour les séries de tests de réponse unique. Tests d’utilisation des capacités si l’agent a utilisé des outils ou des sujets spécifiques pour générer une réponse. Si c’est le cas, il réussit. Si ce n’est pas le cas, elle échoue.

Lors de l’ajout ou de la modification de méthodes de test, sélectionnez Utiliser l’outil.
Ajoutez les outils ou sujets attendus. Tout cas de test sans réponses attendues produit un résultat non valide pour cette méthode de test.
1. Sélectionnez un cas test. Pour ajouter les mêmes outils et rubriques attendus pour tous les cas de test, sélectionnez l’icône Modifier dans l’outil utiliser l’en-tête de colonne.
2. Dans le volet Modifier le cas de test , sélectionnez les outils que votre agent doit utiliser pour ce cas de test.
3. Cliquez sur OK.
4. Sélectionnez Appliquer pour enregistrer les modifications.
5. Répétez l’opération pour tous les cas de test pour lesquels vous souhaitez tester l’utilisation des outils.

Correspondance de mots-clés

Disponible pour les ensembles de tests de réponses uniques et de conversation. La correspondance par mot-clé vérifie si la réponse de l’agent contient certains ou tous les mots ou expressions de la réponse attendue que vous définissez. Si c’est le cas, il réussit. Si ce n’est pas le cas, elle échoue.

Vous pouvez choisir si un pass nécessite l’un des mots-clés ou tous . Choisir N’importe lequel signifie que si au moins un mot ou une phrase correspond, le cas de test passe. Choisir Tous signifie que tous les mots ou expressions attendus doivent correspondre pour qu’un cas test soit réussi.

Lorsque vous ajoutez ou modifiez des méthodes de test, sélectionnez Correspondance par mot-clé.
Sélectionnez si un cas de test nécessite un mot-clé ou tous les mots-clés pour correspondre.
Ajoutez les mots-clés attendus. Tout cas de test sans mots clés attendus produit un résultat non valide pour cette méthode de test.
1. Sélectionnez un cas test.
2. Dans le volet Modifier le cas de test , ajoutez un mot clé ou une expression que vous attendez de la réponse de ce cas.
3. Sélectionnez + Ajouter pour ajouter d’autres mots clés ou expressions. Pour supprimer un mot clé ou une expression, sélectionnez l’icône Supprimer .
4. Sélectionnez Appliquer pour enregistrer les mots-clés attendus.
5. Répétez pour tous les cas de test que vous souhaitez tester pour la correspondance de mots-clés.

Similarité du texte

La méthode de test de similarité de texte compare la similarité des réponses de l’agent aux réponses attendues que vous définissez dans votre jeu de tests. Utilisez cette méthode de test lorsqu’une réponse correcte doit correspondre exactement à la réponse attendue, ou presque exactement, dans la structure des formulations et des phrases. Par exemple, une formulation précise est souvent nécessaire lorsqu’un document juridique est généré. Ce test est généralement utilisé en même temps que la méthode de test Compare signification qui garantit la similarité de la signification, mais ne garantit pas la similarité de la formulation. Il est également distinct de la méthode de test de correspondance de mot clé , qui garantit la présence de certains termes, mais ne garantit pas la similarité de la construction. Si l’ensemble de la réponse doit correspondre exactement à la réponse attendue, utilisez plutôt la méthode de test de correspondance exacte .

Une métrique de similarité cosinus évalue la façon dont la réponse de l’agent est similaire à la formulation de la réponse attendue et détermine un score. Le score est compris entre 0 et 1, où 1 signifie que la réponse correspond étroitement et 0 signifie qu’elle ne le fait pas. Vous pouvez définir un seuil de réussite afin de déterminer ce qui constitue un score suffisant pour qu’une réponse soit considérée comme correcte.

Lorsque vous ajoutez ou modifiez des méthodes de test, sélectionnez Similarité de texte.
Définissez le score de réussite pour cette méthode.
Ajoutez les réponses attendues. Tout cas de test sans réponses attendues produit un résultat non valide pour cette méthode de test.
1. Sélectionnez un cas test.
2. Ajoutez la réponse que vous attendez.
3. Sélectionnez Appliquer pour enregistrer la réponse attendue.
4. Répétez pour tous les cas de test que vous souhaitez tester en utilisant cette méthode.

Correspondance exacte

Disponible pour les séries de tests de réponse unique. La correspondance exacte vérifie si la réponse de l’agent correspond exactement à la réponse attendue dans le test : caractère pour caractère, mot pour mot. Si c’est identique, il passe le test. Si quelque chose diffère, il échoue. La correspondance exacte est utile pour des réponses courtes et précises telles que des nombres, des codes ou des expressions toutes faites. Elle ne convient pas aux réponses qu’il est possible de formuler de plusieurs manières correctes.

Lorsque vous ajoutez ou modifiez des méthodes de test, sélectionnez Correspondance exacte.
Ajoutez les réponses attendues. Tout cas de test sans réponses attendues produit un résultat non valide pour cette méthode de test.
1. Sélectionnez un cas test.
2. Ajoutez la réponse que vous attendez.
3. Sélectionnez Appliquer pour enregistrer la réponse attendue.
4. Répétez pour tous les cas de test que vous souhaitez tester en utilisant cette méthode.

Personnalisée

Custom est une méthode de test personnalisable. Il vous permet de tester et d’étiqueter les réponses de l’agent à l’aide de vos propres critères. Par exemple, vous pouvez créer un test de conformité pour un agent RH afin d’étiqueter les réponses de test comme conformes ou nonconformes avec votre description de la conformité RH.

Un test personnalisé comporte deux composants pour vous permettre de configurer :

Instructions d’évaluation : décrit l’objectif que vous souhaitez accomplir avec ce test. Que voulez-vous que le test découvre à propos des réponses de votre agent ?

Les bonnes instructions d’évaluation doivent :

Soyez orienté vers l’objectif.
Utilisez uniquement les caractères autorisés.
Utilisez des points à puces et des en-têtes pour l’organisation.

Par exemple:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Étiquettes : décrit le résultat affecté à chaque réponse à l’aide du test personnalisé. Les étiquettes ont également des assignations de réussite/échec, qui contribuent au taux de réussite du jeu de tests pour cette méthode de test.

Les étiquettes ont un nom et une description. Une bonne description :

Est concis.
Contient les attributs que vous recherchez dans les réponses correspondantes.

Une stratégie pour les étiquettes est d’avoir deux : il s’agit de réponses qui remplissent correctement les critères que vous recherchez, et l’autre pour les réponses qui ne le sont pas. Par exemple, un test personnalisé de conformité de stratégie RH peut avoir des étiquettes conformes et non conformes .

Lorsque vous ajoutez ou modifiez des méthodes de test, sélectionnez Personnalisé.
Entrez un nom pour ce test personnalisé.
Ajoutez des instructions d’évaluation.
Ajoutez deux étiquettes ou plus. Chaque étiquette a un nom et une description.

Pour ajouter d’autres étiquettes, sélectionnez Ajouter une étiquette.

Les titres des étiquettes ne peuvent contenir que des lettres, des nombres, des espaces, des traits -, des traits de soulignement _, des barres obliques /, des esperluettes &, des signes + + et des points..
Définissez le résultat Pass ou Fail pour chaque étiquette.
Cliquez sur OK.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-05-21