Obtenir des commentaires sur la qualité d’une application avec agent

Article
10/15/2024

Important

Cette fonctionnalité est disponible en préversion publique.

Cet article vous montre comment utiliser l’application Databricks Review pour recueillir les commentaires des évaluateurs humains sur la qualité de votre application agentique. Il couvre les points suivants :

Comment déployer l’application de révision.
Comment les réviseurs utilisent l’application pour fournir des commentaires sur les réponses de l’application agentique.
Comment les experts peuvent consulter les conversations journalisées pour fournir des suggestions d’amélioration et d’autres commentaires à l’aide de l’application.

En quoi consiste une évaluation humaine ?

Dans l’application de révision Databricks, le LLM est préconfiguré dans un environnement où les parties prenantes d’experts peuvent interagir avec lui. En d’autres termes, avoir une conversation, poser des questions, et ainsi de suite. L’application de révision vous permet ainsi de recueillir des commentaires sur votre demande, ce qui contribue à garantir la qualité et la sécurité des réponses qu’elle fournit.

Les parties prenantes peuvent discuter avec le bot d’application et fournir des commentaires sur ces conversations, ou fournir des commentaires sur les journaux d’activité historiques, les traces organisées ou les sorties de l’agent.

Spécifications

Les tables d’inférence doivent être activées sur le point de terminaison de mise en service de l’agent.
Chaque réviseur humain doit avoir accès à l’espace de travail de l’application de révision. Consultez la section suivante, Définir les autorisations pour l’espace de travail de l’application de révision.
Les développeurs doivent installer le kit de développement logiciel (SDK) databricks-agents pour configurer les autorisations et l’application de révision.
```
%pip install databricks-agents
dbutils.library.restartPython()
```

configurer les autorisations pour l’espace de travail de l’application de révision

Si vos réviseurs ont déjà accès à l’espace de travail contenant l’application de révision, vous n’avez rien à faire.

Si les réviseurs n’y ont pas déjà accès, les administrateurs de compte peuvent utiliser le provisionnement SCIM au niveau du compte pour synchroniser automatiquement les utilisateurs et les groupes de votre fournisseur d’identité vers votre compte Azure Databricks. Vous pouvez également inscrire manuellement ces utilisateurs et ces groupes lorsque vous configurez des identités dans Databricks. Cela leur permet d’être inclus en tant que réviseurs éligibles. Consulter Synchroniser les utilisateurs et les groupes de Microsoft Entra ID.

from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=PermissionLevel.CAN_QUERY)

Les experts qui passent en revue les journaux de conversation doivent disposer d’autorisations CAN_REVIEW.

Déployer l’application de révision

Lorsque vous déployez un agent à l’aide de agents.deploy(), l’application de révision est automatiquement activée et déployée. La sortie de la commande montre l’URL de l’application de révision. Pour plus d’informations sur le déploiement d’un agent, voir Déployer un agent pour une application d’IA générative.

lien vers l’application de révision à partir de la sortie de la commande notebook

Si vous avez perdu le lien vers le déploiement, vous pouvez le retrouver en utilisant list_deployments().

from databricks import agents

deployments = agents.list_deployments()
deployments

IU de l’application de révision

Pour ouvrir l’application d’évaluation, cliquez sur l’URL fournie. L’IU de l’application de révision comporte trois onglets dans la barre latérale gauche :

Instructions Affiche les instructions destinées au réviseur. Consultez Fournir des instructions aux réviseurs.
Conversations à consulter Affiche les journaux des interactions des réviseurs avec l’application pour que les experts puissent les évaluer. Consultez Examen expert des journaux d’activité des interactions d’autres utilisateurs avec l’application.
Tester le bot Permet aux réviseurs de discuter avec l’application et d’envoyer des révisions de ses réponses. Consultez Conversation avec l’application et envoi de révisions.

Lorsque vous ouvrez l’application de révision, la page d’instructions s’affiche.

Pour discuter avec le bot, cliquez sur Démarrer la révision ou sélectionnez Tester le bot dans la barre latérale gauche. Pour plus d’informations, consultez Conversation avec l’application et envoi de révisions.
Pour consulter les journaux de discussion qui ont été mis à votre disposition, sélectionnez Conversion à consulter dans la barre latérale. Pour plus de détails, consultez Examen par un expert des journaux d’interactions d’autres utilisateurs avec l’application. Pour savoir comment rendre les journaux de conversation disponibles à partir de l’application de révision, consultez Rendre les journaux de conversation disponibles pour l’évaluation par les réviseurs experts.

écran d’accueil d’application de révision

Fournir des instructions aux réviseurs

Pour fournir un texte personnalisé aux instructions affichées pour les évaluateurs, utilisez le code suivant :

from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

Capture d’écran des instructions de l’application de révision spécifiées dans l’exemple Python.

Discutez avec l’application et soumettez des commentaires

Pour discuter avec l’application et soumettre des commentaires :

Cliquez sur Tester le bot dans la barre latérale gauche.
Tapez votre question dans la zone, puis appuyez sur Retour ou Entrée sur votre clavier, ou cliquez sur la flèche dans la zone. L’application affiche sa réponse à votre question et les sources qu’elle a utilisées pour trouver la réponse.
Examinez la réponse de l’application et sélectionnez Oui, Non ou Je ne sais pas.
L’application demande des informations supplémentaires. Cochez les cases appropriées ou tapez vos commentaires dans le champ fourni.
Vous pouvez également modifier la réponse directement pour donner une meilleure réponse. Pour modifier la réponse, cliquez sur Modifier la réponse, apportez vos modifications dans la boîte de dialogue, puis cliquez sur Enregistrer, comme illustré dans la vidéo suivante.
Cliquez sur Terminé pour enregistrer vos retours d’expérience.
Continuez à poser des questions pour fournir des commentaires supplémentaires.

Le diagramme suivant illustre ce flux de travail.

À l’aide de l’application de révision, révisez les conversations avec l’application agentique.
À l’aide de l’application de révision, le réviseur fournit des commentaires sur les réponses de l’application.
Toutes les demandes, réponses et commentaires sont journalisées dans les tables d’inférence.

Exécutez l’application de révision dans laquelle les experts discutent avec l’application avec agent et fournissent des commentaires.

Rendre les journaux de conversation disponibles pour l’évaluation par les réviseurs experts

Lorsqu’un utilisateur interagit avec l’application à l’aide de l’API REST ou de l’application de révision, toutes les demandes, réponses et commentaires supplémentaires sont enregistrés dans les tables d’inférence. Les tables d’inférence se trouvent dans le même catalogue et schéma du catalogue Unity où le modèle a été inscrit et sont nommées <model_name>_payload, <model_name>_payload_assessment_logs et <model_name>_payload_request_logs. Pour plus d’informations sur ces tables, notamment les schémas, consultez les tables d’inférence améliorées par agent.

Pour charger ces journaux dans l’application de révision afin qu’ils soient évalués par des réviseurs experts, vous devez d’abord trouver request_id et activer les révisions pour cette request_id comme suit :

Recherchez les request_id à réviser à partir de la table d’inférence <model_name>_payload_request_logs. La table d’inférence se trouve dans le même catalogue et schéma Unity Catalog que celui dans lequel le modèle a été enregistré.

Utilisez du code similaire à ce qui suit pour charger les journaux d’activité de révision dans l’application de révision :

from databricks import agents

agents.enable_trace_reviews(
  model_name=model_fqn,
  request_ids=[
      "52ee973e-0689-4db1-bd05-90d60f94e79f",
      "1b203587-7333-4721-b0d5-bba161e4643a",
      "e68451f4-8e7b-4bfc-998e-4bda66992809",
  ],
)

La cellule de résultat comprend un lien vers l’application d’examen avec les journaux sélectionnés chargés pour l’examen.

Application d’examen avec chargement des journaux de conversation pour examen par des experts

Examen expert des journaux d’activité à partir des interactions d’autres utilisateurs avec l’application

Pour passer en revue les journaux des conversations précédentes, les journaux doivent avoir été activés pour révision. Consultez Rendre les journaux de conversation disponibles pour l’évaluation par les réviseurs experts.

Dans la barre latérale gauche de l’application de révision, sélectionnez Conversations à réviser. Les requêtes activées sont affichées.
Cliquez sur une demande pour l’afficher pour révision.
Vérifiez la demande et la réponse. L’application affiche également les sources utilisées pour référence. Vous pouvez cliquer sur ces éléments pour consulter la référence et fournir des commentaires sur la pertinence de la source.
Pour fournir des commentaires sur la qualité de la réponse, sélectionnez Oui, Non, ou Je ne sais pas.
L’application demande des informations supplémentaires. Cochez les cases appropriées ou tapez vos commentaires dans le champ fourni.
Vous pouvez également modifier la réponse directement pour donner une meilleure réponse. Pour modifier la réponse, cliquez sur Modifier la réponse, apportez vos modifications dans la boîte de dialogue et cliquez sur Enregistrer. Consultez Conversation avec l’application et envoi de révisions pour une vidéo qui montre le processus.
Cliquez sur Terminé pour enregistrer vos retours d’expérience.

Le diagramme suivant illustre ce flux de travail.

Grâce à l’application de révision ou à l’application personnalisée, les évaluateurs discutent avec l’application agentique.
Toutes les demandes et les réponses sont enregistrées dans des tables d’inférence.
Le développeur d’applications utilise enable_trace_reviews([request_id]) (où request_id est issu de la table d’inférence <model_name>_payload_request_logs) pour publier des journaux de conversation dans l’application de révision.
À l’aide de l’application de révision, l’expert examine les journaux et fournit des commentaires. Les commentaires des experts sont consignés dans les tables d’inférence.

Exécutez une révision de trace dans laquelle les réviseurs interagissent avec l’application de révision ou avec l’API REST pour fournir des commentaires.

Remarque

Si le pare-feu du Stockage Azure est activé, contactez l’équipe du compte Azure Databricks afin d’activer les tables d’inférence pour vos points de terminaison.

Utiliser `mlflow.evaluate()` sur la table des journaux de demande

Le bloc-notes suivant montre comment utiliser les journaux d’activité de l’application de révision comme entrée pour une exécution d’évaluation à l’aide mlflow.evaluate(). Pour plus d’informations sur mlflow.evaluate(), consultez Évaluer des modèles de langage volumineux avec MLflow.

Exécuter l’évaluation sur le bloc-notes des journaux de requête

Obtenir le notebook

Partage via

Obtenir des commentaires sur la qualité d’une application avec agent

En quoi consiste une évaluation humaine ?

Spécifications

configurer les autorisations pour l’espace de travail de l’application de révision

Déployer l’application de révision

IU de l’application de révision

Fournir des instructions aux réviseurs

Discutez avec l’application et soumettez des commentaires

Rendre les journaux de conversation disponibles pour l’évaluation par les réviseurs experts

Examen expert des journaux d’activité à partir des interactions d’autres utilisateurs avec l’application

Utiliser `mlflow.evaluate()` sur la table des journaux de demande

Exécuter l’évaluation sur le bloc-notes des journaux de requête

Commentaires

Ressources supplémentaires

Partage via

Obtenir des commentaires sur la qualité d’une application avec agent

En quoi consiste une évaluation humaine ?

Spécifications

configurer les autorisations pour l’espace de travail de l’application de révision

Déployer l’application de révision

IU de l’application de révision

Fournir des instructions aux réviseurs

Discutez avec l’application et soumettez des commentaires

Rendre les journaux de conversation disponibles pour l’évaluation par les réviseurs experts

Examen expert des journaux d’activité à partir des interactions d’autres utilisateurs avec l’application

Utiliser mlflow.evaluate() sur la table des journaux de demande

Exécuter l’évaluation sur le bloc-notes des journaux de requête

Commentaires

Ressources supplémentaires

Utiliser `mlflow.evaluate()` sur la table des journaux de demande