Guide : Flux de travail de développement des agents

Ce guide fournit un point de départ pour comprendre le cycle de vie complet de la création d’une application IA ou d’un agent IA. Tout au long de ce guide, l'« agent IA » est un terme générique pour les systèmes basés sur GenAI, notamment les appels LLM simples, les fonctions IA et les implémentations basées sur des agents.

Vue d’ensemble du cycle de vie du développement

Comprendre les métriques de cas d’usage, d’étendue et de réussite
Générer un agent IA initial
Améliorer la qualité de l’agent IA par itérations
Aligner avec les parties prenantes avant la production
Mise en production et surveillance continue de la qualité

1. Comprendre les métriques de cas d’usage, d’étendue et de réussite

Avant de créer quoi que ce soit, précisez ce que l’agent IA est destiné à faire. S'aligner sur les parties prenantes, y compris les personnes qui approuveront le déploiement en production.

Quels types d’entrées l’agent gérera-t-il (le « domaine » ou « étendue ») ? Quels utilisateurs soumettreont les entrées ?
Comment l’agent doit-il répondre idéalement aux entrées courantes ? Quelles informations ou contexte devez-vous utiliser ?
Quels critères définissent une bonne ou mauvaise réponse : tonalité, précision, complétité, longueur de réponse, sécurité, citations ou autres exigences ?
Quelles sont les exigences système et les contraintes en production : coût, latence et scalabilité ?
Qu’est-ce que les modes d’échec potentiels et comment l’agent doit-il les gérer : entrées utilisateur incorrectes, informations insuffisantes pour répondre, commentaires des utilisateurs indiquant une mauvaise réponse ou d’autres personnes ?

Choisissez l’approche la plus viable la plus simple. De nombreux cas d’usage ne nécessitent pas de systèmes agentiques ou multi-agents complexes. Avant de construire, évaluez où votre problème tombe sur le continuum de complexité. La logique déterministe simple ou les fonctions d’IA par lots suffiront-elles ? Si l’appel d’outils, le raisonnement ou la coordination dynamiques sont nécessaires, envisagez d’appeler des agents ou des systèmes multi-agents. Pour obtenir des conseils plus approfondis, consultez les modèles de conception du système agent.

Cette base vous permet de :

Identifier les sources de données et les outils dont votre agent a besoin
Écrire des instructions initiales ou des invites qui reflètent le comportement prévu
Identifier des experts ou des testeurs de domaine qui peuvent fournir des exemples représentatifs et des commentaires précoces
Créer des juges automatisés qui encodent les critères d’évaluation et accélèrent l’itération

Vous n’avez pas besoin de clarté parfaite à ce stade, et votre compréhension s’améliorera à mesure que vous itérerez. Mais un alignement plus rapide, en particulier sur la façon dont la qualité sera mesurée et ce que signifie la « production prête », rend les améliorations de qualité ultérieures et l’authentification beaucoup plus rapide.

2. Générer un agent IA initial

Une fois que votre cas d’usage et vos objectifs sont bien définis, vous êtes prêt à prototyper votre agent IA. Databricks fournit des itinéraires guidés, basés sur l’interface utilisateur et des itinéraires entièrement personnalisés et basés sur du code pour la création d’agents IA.

2.1. Préparer des données et des outils

Les agents IA utilisent généralement des données et des outils pour fournir un contexte et des capacités. Consultez les outils de l’agent IA pour obtenir une vue d’ensemble de l’utilisation des données et des outils sur Databricks.

Recherchez des données et des outils existants avant de les créer :

Explorez les données disponibles dans le catalogue Unity ou la recherche d’espace de travail pour comprendre les ressources régies qui existent déjà. Cela vous aide à comprendre le contexte et les fonctionnalités disponibles avant de créer de nouvelles ressources.
Dans AI Playground, vous pouvez afficher et sélectionner des outils déjà disponibles pour les agents, tels que les index de recherche vectorielle, les serveurs MCP ou les fonctions UC.

Créez et gérez de nouvelles ressources en fonction des besoins :

Préparez et servez des données structurées ou des données non structurées.
Créez des outils simples ou complexes à l’aide de serveurs MCP managés ou externes.

Toutes ces ressources et outils de données sont régis et versionnés dans le catalogue Unity, ce qui les rend détectables et réutilisables dans les agents et applications IA.

2.2. Créer un agent initial

Avant de créer un agent personnalisé, évaluez si un agent d’Assistant Connaissances déclaratif, des fonctions IA ou un accélérateur de solutions Databricks existant correspond déjà à votre cas d’usage. Pour les modèles courants, ces approches guidées peuvent réduire considérablement la configuration, améliorer la qualité par défaut et accélérer la production.

Si un agent personnalisé est toujours requis, les nouveaux constructeurs doivent commencer par le moyen le plus rapide d’expérimenter. Utilisez AI Playground pour prototyper un agent sans écrire de code. AI Playground vous permet d’essayer différents modèles, d’utiliser des outils d’ingénierie et de test pour comprendre rapidement la qualité des données, le comportement de l’agent et le potentiel de votre approche. Vous pouvez ensuite exporter l’agent en tant que code pour une personnalisation et une itération supplémentaires.

Si vous avez déjà du code d’agent, vous pouvez importer du code existant dans Databricks et le déployer en tant qu’application Databricks.

Lorsque vous construisez votre agent, planifiez à l'avance l'évaluation et la production.

Instrumentez votre agent avec le traçage MLflow pour enregistrer et analyser le comportement de l’agent.
- À ce stade, concentrez-vous sur l’exactitude fonctionnelle : assurez-vous que l’agent s’exécute de bout en bout et peut accéder aux données et outils requis.
- Vérification précoce des problèmes initiaux tels que la sélection incorrecte de l’outil, le manque de contexte ou les erreurs de perception.
- Plus tard, ces traces seront utilisées pour évaluer la qualité de l’agent.
Pendant l’implémentation, tenez compte de la méthode d’authentification appropriée pour votre application de production.

3. Améliorer la qualité de l’agent IA

Une fois qu’un prototype de travail existe, la phase suivante est une boucle étroite de mesure, de compréhension et d’amélioration de la qualité. Databricks place L’évaluation MLflow au centre de cette boucle, prise en charge par le suivi MLflow, les jeux de données d’évaluation et les juges LLM.

Les scoreurs automatisés et les juges LLM fournissent une échelle et une cohérence, mais les commentaires humains sont essentiels pour valider l’utilité réelle et comprendre les défaillances subtiles. Les commentaires humains guident également le développement et l’étalonnage des juges LLM. Les commentaires humains entrent généralement en trois étapes à mesure que l’agent mûrit :

Validation anticipée des développeurs et des parties prenantes
Examen des experts de domaine plus larges
Commentaires des utilisateurs finaux

3.1. Valider le comportement précoce

Les développeurs et un petit groupe d’intervenants ou d’experts du domaine peuvent fournir des commentaires rapides et précoces. Avant de mettre à l’échelle les tests et l’évaluation, vérifiez que l’agent fait les bonnes choses dans les situations les plus évidentes.

Lors du prototypage, les développeurs effectuent souvent une « vérification d’ambiance » informelle en interrogeant manuellement l’agent pour confirmer qu’il s’exécute de bout en bout et se comporte comme prévu. Avec l’interface utilisateur de suivi MLflow, les développeurs peuvent joindre des commentaires ou des attentes directement pour signaler les problèmes de qualité, marquer des exemples réussis et capturer des notes pour l’évaluation et l’itération futures.

Une fois que vous avez déployé un prototype interne, l’interface utilisateur review App Chat fournit une interface utilisateur simple pour collecter des commentaires. Partagez l’interface utilisateur de conversation pour votre prototype avec un petit ensemble de développeurs ou d’experts de domaine qui peuvent demander des requêtes raisonnables et problématiques.

Le suivi MLflow enregistre les interactions et les commentaires pour créer un jeu de données initial de résultats. Analysez les traces avec l’interface utilisateur ou le code MLflow pour comprendre les performances et le comportement de l’agent. Si les résultats sont incorrects ou inattendus, utilisez les traces pour déboguer :

Analysez les problèmes de qualité dans l’agent, tels que l’utilisation abusive des outils, les hallucinations ou le contexte manquant. Appliquez des correctifs, tels que l’optimisation des invites, l’utilisation des outils ou les données. Voir 3.4. Corrigez les problèmes et ré-vérifiez les améliorations.
Au fur et à mesure que vous effectuez une itération, vous pouvez utiliser le jeu de données de trace comme entrées utilisateur représentatives pour générer des traces pour votre nouveau prototype.
Répétez cette boucle : exécutez, inspectez, corrigez et réexécutez jusqu’à ce que l’agent gère toutes ou la plupart des entrées représentatives comme prévu.
D’autres problèmes peuvent être découverts et résolus dans les itérations ultérieures. L’amélioration de la qualité est itérative et n’est pas limitée à cette phase précoce.

Après cette étape, vous pouvez vous sentir confiant que le prototype se comporte sensiblement dans les cas courants et obtient un niveau de qualité raisonnable, avant d’investir dans des tests plus approfondis.

3.2. Développer les tests et les commentaires

Une fois que le prototype fonctionne dans des cas simples, augmentez l’évaluation de la qualité en élargissant votre ensemble de testeurs bêta et en collectant des commentaires plus personnalisés. Cette phase révèle des taches aveugles telles que des rubriques inattendues, des requêtes mal comprises, des outils et des lacunes de récupération ou des modèles d’utilisation émergents. Il développe également vos jeux de données d’évaluation.

Déployez l’application sur un ensemble plus large d’intervenants et d’experts du domaine, ou pour les utilisateurs finaux bêta. Incorporez leurs commentaires à mesure que l’agent est exposé à des modèles d’utilisation plus larges.
Capturez des commentaires et des attentes plus détaillés en utilisant les sessions d’étiquetage de l'application de révision avec un schéma personnalisé pour les commentaires d’experts.
Créez des jeux de données d’évaluation en synchronisant les commentaires humains et les traces étiquetées, en préparant l’évaluation et la surveillance systématiques à l’étape suivante.
Pour enrichir davantage le jeu de données d’évaluation, envisagez de générer des jeux d’évaluation synthétiques.

3.3. Évaluer la qualité et procéder au débogage de façon systématique

À mesure que vos jeux de données d’évaluation deviennent plus volumineux et plus diversifiés, vous aurez besoin de moyens structurés et plus automatisés pour détecter les problèmes, exposer les défaillances les plus importantes et comprendre les causes racines.

Dans la pratique, vous allez probablement diviser vos données en deux types de jeux de données d’évaluation :

Test de régression : les données avec des réponses IA de haute qualité permettent de définir le comportement attendu. Utilisez ces jeux de données pour valider que les nouvelles versions de l’agent continuent de fonctionner correctement dans un large ensemble de scénarios attendus.
Débogage axé sur les problèmes : les données avec des réponses IA de faible qualité peuvent inclure divers comportements indésirables. Isolez les groupes de traces qui présentent les mêmes types de comportement de faible qualité afin de comprendre les causes racines et d’itérer sur les correctifs ciblés.

Les outils ci-dessous permettent de générer et d’analyser les deux types de jeux de données d’évaluation.

Exécuter des tests de régression

Générez des tests de régression en sélectionnant des sous-ensembles représentatifs de données pour lesquels vous avez des réponses IA de haute qualité ou des attentes humaines.
Définissez des critères d’évaluation à l’aide de juges et de scoreurs LLM intégrés ou personnalisés. L’évaluation automatisée peut utiliser des modules LLM seuls pour évaluer la qualité de la réponse, ou ils peuvent comparer les réponses par rapport aux réponses de base ou aux attentes.
Exécutez l’évaluation sur les nouvelles versions de votre agent pour vous assurer que les mises à jour ne dégradent pas le comportement précédemment correct.

Identifier les types de réponses de faible qualité

Utilisez à la fois l’évaluation automatisée et les commentaires humains pour repérer des exemples où l’agent répond mal.
Filtrez et analysez les traces MLflow par des scores de juge ou des commentaires des utilisateurs pour isoler les interactions problématiques. Avec des juges spécifiques et un schéma de commentaires personnalisés, vous pouvez isoler des types de problèmes spécifiques, tels que l’hallucination, le contexte manquant ou les réponses non pertinentes.
Pour le débogage agentique, vous pouvez utiliser MLflow AI Insights ou connecter vos propres agents au serveur MCP MLflow.

Améliorer la précision de la détection automatisée

Bien que vous puissiez commencer à créer des jeux de données d’évaluation à l’aide principalement de commentaires humains, vous pouvez mettre à l’échelle l’évaluation avec la détection automatisée. Lorsque vous effectuez une itération, investissez dans des évaluateurs LLM ou des systèmes de notation basés sur le code qui sont adaptés à votre application et à votre domaine.

Commencez par les juges intégrés et ajoutez des juges personnalisés et des scoreurs basés sur du code en fonction des besoins. Lorsque vous observez un mode d’échec non capturé par un juge intégré, vous pouvez automatiser la détection future avec un juge personnalisé ou un scoreur conçu pour détecter ce type spécifique de défaillance.
Utilisez des retours humains pour harmoniser les juges personnalisés avec la compréhension des experts. Le réglage des juges pour réduire les faux positifs et les négatifs augmentera la confiance dans l’évaluation et le triage automatisés.
Vos nouveaux juges et scoreurs peuvent être utilisés à la fois pour l’évaluation et la surveillance automatisées et pour filtrer les traces afin de créer des jeux de données pour le débogage.

Traitez efficacement les problèmes de cause fondamentale

Une fois qu’un échec est identifié, vous devez déterminer pourquoi il s’est produit.

Utilisez le suivi MLflow pour inspecter manuellement chaque étape du raisonnement de l’agent :
- Quels outils ont été sélectionnés
- Utilisation des entrées et sorties de l’outil
- Indique si la récupération a retourné le contexte pertinent
- Comment les réponses de modèle ont influencé les décisions en aval
Appliquez MLflow AI Insights ou agent-as-a-juge pour analyser les traces et pointer vers des causes probables telles que la mauvaise base, une structure d’invite incorrecte ou des arguments d’outils incorrects.
Comparez les versions de l’interface utilisateur d’évaluation de MLflow pour déterminer si les problèmes régressent ou persistent entre les itérations.

Le résultat idéal de cette étape est d’avoir une compréhension structurée de ce qui échoue, pourquoi elle échoue et comment la corriger. Les juges spécifiques au domaine de l'automatisation et de l'application vous permettent d'itérer en toute confiance à mesure que votre agent devient plus compétent et que le jeu de tests devient plus complexe.

3.4. Résoudre les problèmes et re-vérifier les améliorations

Tout comme les problèmes sont spécifiques à l’application, les correctifs doivent être adaptés à votre application. Voici quelques exemples de correctifs courants :

Optimisation de l’invite : affinez manuellement les instructions de l’agent ou utilisez l’optimisation des invites pilotées par les données. Pour une optimisation plus large de l’agent, telle que le réglage en plusieurs étapes ou l’utilisation d’un outil, utilisez le réglage DSPy.
Outils et données : améliorez les flux d’outils ou de récupération lorsque les traces montrent des faits manquants ou une mauvaise base.
Routage : lorsque les traces montrent que les outils ou sous-agents incorrects ont été appelés, améliorer les métadonnées de l’outil ou de l’agent, l'invite ou le modèle de routage.
Garde-fous : lorsque les réponses violent les règles de sécurité ou divulguent des informations, utilisez soit des garde-fous de la passerelle d'IA, soit des garde-fous personnalisés dans votre agent.
Secours : gérez les cas extrêmes, les données manquantes ou les défaillances d'appels API de manière élégante à l'aide de mécanismes de récupération tels que des points de terminaison API alternatifs ou des réponses de secours.

Lorsque vous effectuez une itération sur les correctifs, utilisez le contrôle de version des applications et le Registre d’invite pour enregistrer les versions pour des comparaisons et des tests de régression plus simples.

Chaque correctif concernant les invites, la récupération, les outils, les données ou autres parties de votre agent doit être validé de la même manière que la façon dont il a été découvert. Réexécutez la nouvelle version de l’agent sur les mêmes jeux de données d’évaluation pour confirmer que le problème est résolu et qu’aucune régression n’a été introduite.

4. Se coordonner avec les parties prenantes avant la production

Avant de libérer un agent dans un environnement réel, les équipes ont besoin d’une compréhension partagée de ses fonctionnalités actuelles, de ses limitations et de sa qualité mesurée. L’obtention de ce point nécessite généralement plusieurs séries d’itérations et d’améliorations de qualité à l’étape 3. À ce stade, traduisez les signaux techniques (tels que les métriques d’évaluation, les métriques système et les exemples de traces) dans le contexte métier qui détermine finalement si l’agent est vraiment « prêt ».

Traduire les résultats de l’évaluation en signaux opérationnels clairs : résumer la précision, la stabilité, la sécurité et les limitations connues dans un langage que les parties prenantes peuvent comprendre et utiliser.
Vérifiez que les vérifications de qualité standardisées sont remplies : assurez-vous que les métriques d’évaluation requises, les vérifications de régression et les seuils de couverture du jeu de données passent pour la version candidate.
Validez le prêt opérationnel et obtenez l'approbation : revoyez la configuration de la surveillance, les paramètres de sécurité et le plan de déploiement. Documenter les risques et les critères d’acceptation avant la production.

5. Mise en production et surveillance continue de la qualité

Atteindre la production est un jalon majeur ! Cela signifie que l’agent est prêt pour les utilisateurs réels et un impact concret. En même temps, la production est également le début d’un nouveau cycle. Une fois qu’un agent est actif, il entre en surveillance et amélioration continue, car l’utilisation réelle fait apparaître de nouveaux comportements, des cas de périphérie et des problèmes.

Collectez les commentaires des utilisateurs finaux en production. Lier les commentaires des utilisateurs à des traces spécifiques afin qu’ils puissent être analysés en même temps que le comportement du modèle. Pour ce faire, vous pouvez journaliser les commentaires en tant qu’évaluations jointes à la trace d’origine.
Tirez parti de la passerelle IA pour les garde-fous, le routage et la journalisation cohérente. Assurez-vous que chaque nouvelle version de l’agent peut être évaluée par rapport au trafic réel sans friction opérationnelle.
Surveillez la qualité du trafic en direct en exécutant l’évaluation sur des traces de production échantillonées. Assurez-vous que la nouvelle version est au moins aussi performante que les versions précédentes et identifiez de nouveaux problèmes lorsque les utilisateurs soumettent de nouveaux types de requêtes. La surveillance continue maintient l’agent fiable, sûr et aligné sur les besoins de l’entreprise au fur et à mesure qu’il évolue. MLflow fournit un tableau de bord de surveillance, mais étant donné que les traces peuvent être stockées dans le catalogue Unity, vous pouvez personnaliser des tableaux de bord et des alertes :
- Créez des tableaux de bord personnalisés pour la surveillance et le partage avec les parties prenantes de l’entreprise.
- Configurez des alertes de qualité Databricks SQL pour détecter les défaillances ou les problèmes émergents.
Agir sur les aperçus de production :
- Pour les cas d’usage à haut risque, liez la surveillance aux mécanismes de restauration automatisés ou contrôlé pour résoudre les problèmes critiques.
- Utilisez vos insights de production dans votre prochaine itération. Convertissez les défaillances réelles en nouvelles données d’évaluation et revenez à la boucle d’évaluation et de débogage pour générer la prochaine version de votre agent.

Étapes suivantes

Fonctionnalités d’IA générative Azure Databricks - Passez en revue les fonctionnalités de plateforme Azure Databricks pour les agents et GenAI
Modèles de conception de systèmes d’agent - Découvrez la gamme d’agents allant des plus simples aux plus complexes
Démarrer : Interroger des LLMs et des agents IA sans code - Prototyper un agent avec AI Playground

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-03-27