Choisir des méthodes d’évaluation

Lorsque vous créez des ensembles de test, choisissez parmi différentes méthodes de test pour évaluer les réponses de votre agent. Chaque méthode de test a ses propres forces et convient à différents types d’évaluations.

Méthode de test Mesures Type d'ensemble de tests Notation Configurations
Qualité générale Quelle est la qualité des réponses des cas de test selon des critères spécifiques Réponse unique ou conversation Noté sur 100 % Aucun
Comparer la signification Dans quelle mesure le sens de la réponse du cas test correspond à la réponse attendue Réponse unique Noté sur 100 % Note de réussite, réponse prévue
Utilisation des capacités Indique si le cas de test a utilisé toutes ou toutes les ressources attendues Réponse unique Réussite/échec Capacités attendues
Correspondance de mots-clés Que le cas de test ait utilisé tous ou tout le nombre de mots-clés ou expressions attendus Réponse unique ou conversation Réussite/échec Mots-clés ou expressions attendus
Similarité du texte Dans quelle mesure le texte de la réponse du cas test correspond à la réponse attendue Réponse unique Noté sur 100 % Note de réussite, réponse prévue
Correspondance exacte Si la réponse du cas test correspond exactement à la réponse attendue Réponse unique Réussite/échec Réponse attendue

Ajouter une méthode de test

  1. Lors de la création ou de l’édition d’un ensemble de test, sélectionnez Ajouter méthode de test.

  2. Sélectionnez toutes les méthodes que vous souhaitez tester, puis sélectionnez OK. Vous pouvez ajouter plusieurs méthodes.

    1. Certaines méthodes exigent un score de réussite. Le score de réussite détermine quel score correspond à une réussite ou à un échec. Fixez le score, puis sélectionnez OK.

    2. Certaines méthodes de test nécessitent plus de critères.

  3. Sélectionnez Enregistrer pour enregistrer vos modifications dans l’ensemble de test.

Sélectionnez une méthode de test existante pour modifier les critères de cette méthode ou supprimez-la.

Qualité générale

Disponible pour les ensembles de tests de réponses uniques et de conversation. La qualité générale vous aide à décider si les réponses de votre agent répondent à vos attentes. Il utilise un modèle de langage volumineux (LLM) pour évaluer la façon dont un agent répond efficacement aux questions des utilisateurs.

La qualité générale est particulièrement utile quand il n’y a pas de réponse exacte attendue. Il offre un moyen flexible et évolutif d’évaluer les réponses en fonction des documents récupérés et du déroulement de la conversation.

Il utilise ces critères clés et applique une consigne cohérente pour guider la notation :

  • Pertinence : dans quelle mesure la réponse de l’assistant répond à la question. Par exemple, la réponse de l’agent reste-t-elle sur le sujet et répond directement à la question ?

  • Fondement : dans quelle mesure la réponse de l’assistant est basée sur le contexte fourni. Par exemple, la réponse de l’assistant se base-t-elle sur les informations fournies dans le contexte ou y fait-elle référence, plutôt que d’introduire des éléments sans rapport ou non étayés ?

  • Exhaustivité : dans quelle mesure la réponse de l’assistant fournit toutes les informations nécessaires. Par exemple, la réponse de l’assistant aborde-t-elle tous les aspects de la question et fournit-elle suffisamment de détails ?

  • Abstention : indique si l’assistant a tenté de répondre à la question ou non.

Pour être considérée comme de haute qualité, une réponse doit répondre à tous ces critères clés. Si un critère n’est pas rempli, la réponse est signalée pour amélioration. Cette méthode d’évaluation garantit que seules les réponses à la fois complètes et bien étayées obtiennent la note maximale. En revanche, les réponses incomplètes ou qui manquent de preuves de soutien reçoivent des scores inférieurs.

Lorsque vous ajoutez ou modifiez des méthodes de test, sélectionnez Qualité générale. Tous les ensembles de tests commencent par défaut avec cette méthode.

Vous n’avez pas besoin d’ajouter les réponses attendues aux cas tests pour réaliser une évaluation générale de la qualité.

Note

La réduction du nombre de sources de connaissances pour l’agent n’est pas garantie d’améliorer la notation de qualité générale dans l’évaluation de l’agent. Cette limitation existe, car les connaissances récupérées (la connaissance que le modèle pense est pertinente pour un cas de test spécifique) peuvent être trop volumineuses.

Comparer la signification

Disponible pour les séries de tests de réponse unique. Compare le sens : évalue dans quelle mesure la réponse de l’assistant reflète le sens prévu de la réponse attendue. Au lieu de se concentrer sur la formulation exacte, il utilise la similarité d’intention, c’est-à-dire qu’il compare les idées et le sens derrière les mots, pour juger à quel point la réponse correspond à ce que vous attendiez.

Comme pour la qualité générale, comparer le sens est particulièrement utile lorsqu’il n’y a pas de réponse exacte attendue. Il offre un moyen flexible et évolutif d’évaluer les réponses en fonction des documents récupérés et du déroulement de la conversation.

Vous pouvez définir un seuil de réussite afin de déterminer ce qui constitue un score suffisant pour qu’une réponse soit considérée comme correcte. Le score de réussite par défaut est de 50. La méthode de test de comparaison du sens est utile lorsqu’une réponse peut être formulée de plusieurs manières correctes, mais que le sens ou l’intention générale doit tout de même être préservé(e).

  1. Lorsque vous ajoutez ou modifiez des méthodes de test, sélectionnez Comparer la signification.

  2. Définissez le score de réussite pour cette méthode.

  3. Ajoutez les réponses attendues. Tout cas de test sans réponses attendues produit un résultat non valide pour cette méthode de test.

    1. Sélectionnez un cas test.

    2. Ajoutez la réponse que vous attendez.

    3. Sélectionnez Appliquer pour enregistrer la réponse attendue.

    4. Répétez pour tous les cas de test que vous souhaitez tester en utilisant cette méthode.

Utilisation de l’outil

Disponible pour les séries de tests de réponse unique. Tests d’utilisation des capacités si l’agent a utilisé des outils ou des sujets spécifiques pour générer une réponse. Si c’est le cas, il réussit. Si ce n’est pas le cas, elle échoue.

  1. Lors de l’ajout ou de la modification de méthodes de test, sélectionnez Utiliser l’outil.

  2. Ajoutez les outils ou sujets attendus. Tout cas de test sans réponses attendues produit un résultat non valide pour cette méthode de test.

    1. Sélectionnez un cas test. Pour ajouter les mêmes outils et rubriques attendus pour tous les cas de test, sélectionnez l’icône Modifier dans l’outil utiliser l’en-tête de colonne.

    2. Dans le volet Modifier le cas de test , sélectionnez les outils que votre agent doit utiliser pour ce cas de test.

    3. Cliquez sur OK.

    4. Sélectionnez Appliquer pour enregistrer les modifications.

    5. Répétez l’opération pour tous les cas de test pour lesquels vous souhaitez tester l’utilisation des outils.

Correspondance de mots-clés

Disponible pour les ensembles de tests de réponses uniques et de conversation. La correspondance par mot-clé vérifie si la réponse de l’agent contient certains ou tous les mots ou expressions de la réponse attendue que vous définissez. Si c’est le cas, il réussit. Si ce n’est pas le cas, elle échoue.

Vous pouvez choisir si un pass nécessite l’un des mots-clés ou tous . Choisir N’importe lequel signifie que si au moins un mot ou une phrase correspond, le cas de test passe. Choisir Tous signifie que tous les mots ou expressions attendus doivent correspondre pour qu’un cas test soit réussi.

  1. Lorsque vous ajoutez ou modifiez des méthodes de test, sélectionnez Correspondance par mot-clé.

  2. Sélectionnez si un cas de test nécessite un mot-clé ou tous les mots-clés pour correspondre.

  3. Ajoutez les mots-clés attendus. Tout cas de test sans mots clés attendus produit un résultat non valide pour cette méthode de test.

    1. Sélectionnez un cas test.

    2. Dans le volet Modifier le cas de test , ajoutez un mot clé ou une expression que vous attendez de la réponse de ce cas.

    3. Sélectionnez + Ajouter pour ajouter d’autres mots clés ou expressions. Pour supprimer un mot clé ou une expression, sélectionnez l’icône Supprimer .

    4. Sélectionnez Appliquer pour enregistrer les mots-clés attendus.

    5. Répétez pour tous les cas de test que vous souhaitez tester pour la correspondance de mots-clés.

Similarité du texte

Disponible pour les séries de tests de réponse unique. La méthode de test de similarité de texte compare la similarité des réponses de l’agent aux réponses attendues que vous définissez dans votre jeu de tests. Il est utile lorsqu’une réponse peut être formulée de plusieurs manières correctes, mais que le sens ou l’intention générale doit tout de même être préservé(e).

Il utilise une métrique de similarité cosinus pour évaluer la façon dont la réponse de l’agent est similaire à la formulation et à la signification de la réponse attendue et détermine un score. Le score varie entre 0 et 1, 1 indiquant que la réponse correspond étroitement et 0 qu’elle ne correspond pas. Vous pouvez définir un seuil de réussite afin de déterminer ce qui constitue un score suffisant pour qu’une réponse soit considérée comme correcte.

  1. Lorsque vous ajoutez ou modifiez des méthodes de test, sélectionnez Similarité de texte.

  2. Définissez le score de réussite pour cette méthode.

  3. Ajoutez les réponses attendues. Tout cas de test sans réponses attendues produit un résultat non valide pour cette méthode de test.

    1. Sélectionnez un cas test.

    2. Ajoutez la réponse que vous attendez.

    3. Sélectionnez Appliquer pour enregistrer la réponse attendue.

    4. Répétez pour tous les cas de test que vous souhaitez tester en utilisant cette méthode.

Correspondance exacte

Disponible pour les séries de tests de réponse unique. La correspondance exacte vérifie si la réponse de l’agent correspond exactement à la réponse attendue dans le test : caractère pour caractère, mot pour mot. Si c’est identique, il passe le test. Si quelque chose diffère, il échoue. La correspondance exacte est utile pour des réponses courtes et précises telles que des nombres, des codes ou des expressions toutes faites. Elle ne convient pas aux réponses qu’il est possible de formuler de plusieurs manières correctes.

  1. Lorsque vous ajoutez ou modifiez des méthodes de test, sélectionnez Correspondance exacte.

  2. Ajoutez les réponses attendues. Tout cas de test sans réponses attendues produit un résultat non valide pour cette méthode de test.

    1. Sélectionnez un cas test.

    2. Ajoutez la réponse que vous attendez.

    3. Sélectionnez Appliquer pour enregistrer la réponse attendue.

    4. Répétez pour tous les cas de test que vous souhaitez tester en utilisant cette méthode.

Personnalisée

Custom est une méthode de test personnalisable. Il vous permet de tester et d’étiqueter les réponses de l’agent à l’aide de vos propres critères. Par exemple, vous pouvez créer un test de conformité pour un agent RH afin d’étiqueter les réponses de test comme conformes ou nonconformes avec votre description de la conformité RH.

Un test personnalisé comporte deux composants pour vous permettre de configurer :

Instructions d’évaluation : décrit l’objectif que vous souhaitez accomplir avec ce test. Que voulez-vous que le test découvre à propos des réponses de votre agent ?

Les bonnes instructions d’évaluation doivent :

  • Soyez orienté vers l’objectif.

  • Utilisez uniquement les caractères autorisés.

  • Utilisez des points à puces et des en-têtes pour l’organisation.

Par exemple:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Étiquettes : décrit le résultat affecté à chaque réponse à l’aide du test personnalisé. Les étiquettes ont également des assignations de réussite/échec, qui contribuent au taux de réussite du jeu de tests pour cette méthode de test.

Les étiquettes ont un nom et une description. Une bonne description :

  • Est concis.

  • Contient les attributs que vous recherchez dans les réponses correspondantes.

Une stratégie pour les étiquettes est d’avoir deux : il s’agit de réponses qui remplissent correctement les critères que vous recherchez, et l’autre pour les réponses qui ne le sont pas. Par exemple, un test personnalisé de conformité de stratégie RH peut avoir des étiquettes conformes et non conformes .

  1. Lorsque vous ajoutez ou modifiez des méthodes de test, sélectionnez Personnalisé.

  2. Entrez un nom pour ce test personnalisé.

  3. Ajoutez des instructions d’évaluation.

  4. Ajoutez deux étiquettes ou plus. Chaque étiquette a un nom et une description.

    Pour ajouter d’autres étiquettes, sélectionnez Ajouter une étiquette.

    Les titres des étiquettes ne peuvent contenir que des lettres, des nombres, des espaces, des traits -, des traits de soulignement _, des barres obliques /, des esperluettes &, des signes + + et des points..

  5. Définissez le résultat Pass ou Fail pour chaque étiquette.

  6. Cliquez sur OK.