Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
À mesure que les agents d’IA assument des rôles critiques dans les processus métier, le besoin de tests fiables et répétables devient essentiel. L’évaluation de l’agent vous permet de générer des tests qui simulent des scénarios réels pour votre agent. Ces tests couvrent plus de questions et de conversations plus rapides que les tests de cas par cas manuels. Ensuite, vous pouvez mesurer la précision, la pertinence et la qualité des réponses des interactions de votre agent, en fonction des informations que l’agent peut accéder. En utilisant les résultats du test set, vous pouvez optimiser le comportement de votre agent et valider qu’il répond à vos exigences commerciales et de qualité.
Pourquoi utiliser les tests automatisés ?
L’évaluation des agents permet des tests automatisés et structurés. Cela permet de détecter les problèmes tôt, réduit le risque de mauvaises réponses et maintient la qualité au fur et à mesure que l’agent évolue. Ce processus apporte une forme automatisée et répétable d’assurance qualité aux tests des agents. Il s’assure que l’agent répond aux normes de précision et de fiabilité de votre entreprise et donne de la transparence sur son fonctionnement. Il a des points forts différents de tester via le chat de test.
Vous exécutez des évaluations et voyez les résultats à l’aide de l’interface de Copilot Studio, via des API REST Power Platform ou via des actions de adding dans les outils, les flux ou Power Automate.
L’évaluation de l’agent mesure la justesse et la performance, pas l’éthique de l’IA ou les problèmes de sécurité. Un agent peut réussir tous les tests d’évaluation mais, par exemple, fournir une réponse inappropriée à une question. Les clients doivent toujours utiliser des révisions d’IA responsables et des filtres de sécurité de contenu ; les évaluations ne remplacent pas ces révisions et filtres.
Limitations du Cloud communautaire gouvernemental
L’évaluation des agents dans les environnements Government Community Cloud (GCC) présente les limitations suivantes :
Les créateurs ne peuvent pas ajouter de profil utilisateur à leurs ensembles de tests. Cependant, les makers peuvent toujours lancer des évaluations sans profil utilisateur.
Les fabricants ne peuvent pas utiliser la méthode du test de similarité pour les évaluations. Toutes les autres méthodes de test sont disponibles.
Comment fonctionne l’évaluation des agents
Copilot Studio utilise un cas test pour chaque évaluation de l’agent. Un cas de test est une interaction unique qui simule la façon dont un utilisateur interagirait avec votre agent. L’interaction peut être une question unique ou une conversation entière.
Un cas test peut également inclure la réponse que vous attendez de votre agent. Par exemple:
La question : Quels sont vos horaires d’ouverture ?
La réponse attendue : Nous sommes ouverts de 9h à 17h du lundi au vendredi.
En utilisant l’évaluation des agents, vous pouvez générer, importer ou écrire manuellement un groupe de cas de test. Ce groupe de cas de test est appelé un ensemble de test. Un ensemble de test vous permet de :
Effectuez plusieurs cas de test couvrant un large éventail de capacités en même temps, au lieu de poser une question à votre agent.
Analysez la performance de votre agent avec un score agrégé facile à assimiler et zoomez également sur des cas de test individuels.
Testez les changements apportés à vos agents en utilisant le même ensemble de tests, afin d’avoir une norme objective pour mesurer et comparer les variations de performance.
Créez rapidement de nouveaux ensembles de tests ou modifiez ceux existants pour répondre aux capacités ou exigences changeantes des agents.
Chaque ensemble de tests peut évaluer votre agent en utilisant plusieurs méthodes de test simultanément.
Vous pouvez également choisir un profil utilisateur pour agir en tant qu’utilisateur stimulé. L’agent peut être configuré pour répondre à différents utilisateurs de différentes manières, ou permettre l’accès aux ressources de différentes manières.
Lorsque vous sélectionnez un jeu de tests et exécutez une évaluation de l'agent, Copilot Studio envoie les questions dans les cas de test, enregistre les réponses de l'agent, compare ces réponses à des réponses attendues ou une norme de qualité, et attribue un score à chaque cas de test. Vous pouvez également voir les détails, la transcription et la carte d’activité pour chaque cas de test ainsi que les ressources utilisées par votre agent pour créer la réponse.
Créer une stratégie d’évaluation complète
Avant d’exécuter des évaluations, définissez la réussite de votre agent et décidez quels scénarios importent le plus pour vos résultats métier. Une stratégie claire vous permet de choisir les méthodes de test appropriées, de hiérarchiser les cas de test à impact élevé et d’interpréter les résultats avec le bon contexte.
Utilisez des solutions d’agent d’architecture : infrastructures d’évaluation pour mapper les objectifs métier aux dimensions d’évaluation mesurables et aux approches de scoring.
Utilisez la conception et l’opérationnalisation de l’évaluation de l’agent pour créer un processus d’évaluation reproductible qui prend en charge les améliorations continues de la qualité.
Intégrer des évaluations dans des flux automatisés
L’évaluation de l’agent prend en charge l’automatisation afin que les concepteurs puissent mener des évaluations sans intervention manuelle. En utilisant des API REST ou des connecteurs Power Platform, vous pouvez déclencher par programme des exécutions d’évaluation et intégrer des tests dans des flux de travail automatisés, tels que l’intégration continue et les pipelines de déploiement continu (CI/CD). Cette approche vous permet d’exécuter des jeux de test à grande échelle et de valider le comportement de l’agent à mesure que les modifications sont introduites, sans nécessiter d’exécution manuelle dans Copilot Studio.
Test de chat par rapport à l'évaluation des agents
Chaque méthode de test vous donne des perspectives différentes sur les qualités et le comportement de votre agent :
Reçoit et répond à une question à la fois. Il est difficile de répéter les mêmes tests plusieurs fois.
Permet de tester une session complète contenant plusieurs messages.
Cela vous permet d’interagir avec votre agent en tant qu’utilisateur via une interface de chat.
Évaluation de l’agent :
Peut créer et exécuter plusieurs cas de test à la fois à l’aide d’un jeu de tests. Vous pouvez répéter des tests en testant le même jeu de tests.
Peut tester une question et une réponse par cas de test, ou une conversation par cas de test. Toutefois, vous avez moins de contrôle sur les conversations que vous le feriez lors de l’utilisation de la conversation de test.
Choisissez différents profils utilisateurs pour simuler différents utilisateurs sans avoir à effectuer vous-même les interactions.
Lorsque vous testez un agent, utilisez à la fois le chat de test et l’évaluation de l’agent pour avoir une image complète de votre agent.
Informations associées
- Planifiez et créez un test de performance d’agent conversationnel
- Concevoir et opérationnaliser l’évaluation des agents
- Améliorer les agents à l’aide du tri et de la correction pilotés par l’évaluation
- Conception de solutions pour agents : cadres d’évaluation
- Solutions d’architecture d’agents : approches d’évaluation courantes