Partager via


Exécuter des tests avec des conversations à plusieurs tours

L’évaluation conversationnelle vous permet d’évaluer le comportement général de votre agent sur une interaction plus longue. Elle reflète la façon dont les utilisateurs réels interagissent avec les agents, où chaque réponse dépend du contexte précédent dans une conversation en cours. Vous pouvez utiliser ces évaluations pour déterminer si un agent peut maintenir le contexte, demander des clarifications et effectuer des tâches en plusieurs étapes.

Vous pouvez également exécuter des évaluations de réponse uniques, qui sont bonnes pour tester votre agent sur la façon dont il répond à des questions spécifiques, sur les fonctionnalités qu’il appelle et sur la formulation exacte qu’il utilise dans ses réponses.

Les évaluations utilisent des jeux de tests. Un jeu de tests pour les évaluations conversationnelles se compose d’un groupe de 20 cas de test maximum. Lorsque vous effectuez une évaluation d’agent, vous sélectionnez un ensemble de test et Copilot Studio exécute chaque cas de test de cet ensemble contre votre agent.

Vous pouvez créer des cas de test dans un jeu de tests en les important à l’aide d’une feuille de calcul ou en utilisant l’IA pour générer des messages en fonction de la conception et des ressources de votre agent. Vous pouvez ensuite choisir comment mesurer la qualité des réponses de votre agent pour chaque cas de test au sein d’un ensemble de tests.

Pour plus d’informations sur le fonctionnement de l’évaluation des agents, consultez la section À propos de l’évaluation des agents.

Pour apprendre à modifier un ensemble de test existant, voir Modifier les détails d’un ensemble de test.

Important

Les résultats des tests sont disponibles dans Copilot Studio pendant 89 jours. Pour sauvegarder vos résultats de test plus longtemps, exportez les résultats dans un fichier CSV.

Créer un ensemble de tests de conversation

  1. Rendez-vous sur la page d’évaluation de votre agent.

Capture d’écran montrant comment sélectionner l’onglet Évaluation lorsque la sélection d’onglet est compressée en raison de la taille de l’écran.

  1. Sélectionnez Nouvelle évaluation, puis conversation.

    Capture d’écran montrant l’option de conversation sélectionnée pour la création de jeux de tests.

  2. Vous pouvez créer des cas de test à plusieurs tour à l’aide de l’une des méthodes suivantes :

    • Ensemble de conversations rapides : générez automatiquement 10 conversations courtes en fonction de la description, des instructions et des fonctionnalités de votre agent.

    • Ensemble de conversations complètes : générez des conversations à l’aide des connaissances de votre agent ou des rubriques définies. Dans cette option, vous pouvez sélectionner la création de conversations courtes ou longues.

    • Utilisez votre chat de test : convertissez le dernier chat de test en scénario de test.

Note

Les jeux de tests de conversation prennent en charge jusqu’à 20 cas de test. Chaque cas de test prend en charge jusqu’à 12 messages totaux, soit 6 paires de questions et réponses.

  1. Sous Nom, tapez un nom pour votre jeu de tests.

  2. Modifiez ou ajoutez les méthodes de test que vous souhaitez utiliser. Pour les jeux de tests de conversation, vous pouvez ajouter la qualité générale, la correspondance des mots clés, la correspondance des fonctionnalités ou les méthodes de test personnalisées de classification .

    • Ajoutez une nouvelle méthode :
      1. Sélectionnez Ajouter méthode de test.
      2. Sélectionnez toutes les méthodes que vous souhaitez tester, puis sélectionnez OK. Vous pouvez ajouter plusieurs méthodes.
      3. Pour certaines méthodes, fixez un score de réussite, puis sélectionnez OK. Le score de réussite détermine quel score aboutit à réussir ou à un échec.
      4. Certaines méthodes nécessitent d’ajouter des réponses attendues ou des mots-clés pour chacun de vos cas tests. Pour plus d’informations, voir Choisir les méthodes d’évaluation.
    • Sélectionnez une méthode de test existante à modifier ou à supprimer.
    Méthode de test Mesures Type d'ensemble de tests Notation Configurations
    Qualité générale Quelle est la qualité des réponses des cas de test selon des critères spécifiques Réponse unique ou conversation Noté sur 100 Aucun
    Comparer la signification Dans quelle mesure le sens de la réponse du cas test correspond à la réponse attendue Réponse unique Noté sur 100 Note de réussite, réponse prévue
    Utilisation des capacités Indique si le cas de test a utilisé toutes ou toutes les ressources attendues Réponse unique Réussite/échec Capacités attendues
    Correspondance de mots-clés Que le cas de test ait utilisé tous ou tout le nombre de mots-clés ou expressions attendus Réponse unique ou conversation Réussite/échec Mots-clés ou expressions attendus
    Similarité du texte Dans quelle mesure le texte de la réponse du cas test correspond à la réponse attendue Réponse unique Noté sur 100 Note de réussite, réponse prévue
    Correspondance exacte Si la réponse du cas test correspond exactement à la réponse attendue Réponse unique Réussite/échec Réponse attendue
  3. Modifier les détails des cas de test. Toutes les méthodes de test, à l’exception de la qualité générale, nécessitent des réponses ou des mots clés attendus. Pour plus d’informations sur la modification des cas de test, consultez Modifier un jeu de tests.

  4. Sélectionnez le profil utilisateur, puis sélectionnez ou ajoutez le compte que vous souhaitez utiliser pour cet ensemble de test, ou continuez sans authentification. L’évaluation utilise ce compte pour se connecter aux sources de connaissances et aux outils lors des tests. Pour des informations sur l’ajout et la gestion des profils utilisateurs, voir Gérer les profils et connexions utilisateurs.

Note

Les tests automatisés utilisent l’authentification du compte de test sélectionné. Si votre agent dispose de sources de connaissances ou de connexions nécessitant une authentification spécifique, sélectionnez le compte approprié pour vos tests.

  1. Modifiez ou créez davantage de cas de test. En savoir plus dans Modifier les cas de test dans un jeu de tests.

  2. Sélectionnez Enregistrer pour mettre à jour l’ensemble de test sans lancer les cas de test ou Évaluer pour exécuter immédiatement l’ensemble de test.