Partager via


Guide pratique pour évaluer des applications d’IA générative avec Azure AI Studio

Important

Les éléments marqués (préversion) dans cet article sont actuellement en préversion publique. Cette préversion est fournie sans contrat de niveau de service, nous la déconseillons dans des charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Pour évaluer soigneusement les performances de votre application IA générative lorsqu’elle est appliquée à un jeu de données important, vous pouvez lancer un processus d’évaluation. Pendant cette évaluation, votre application est testée avec le jeu de données donné et ses performances seront mesurées quantitativement avec les métriques mathématiques et les métriques assistées par l’IA. Cette exécution d’évaluation vous fournit des insights complets sur les fonctionnalités et limitations de l’application.

Vous pouvez effectuer cette évaluation à l’aide d’Azure AI Studio, une plateforme complète qui offre des outils et des fonctionnalités permettant d’évaluer les performances et la sécurité de votre modèle d’IA générative. Dans AI Studio, vous pouvez journaliser, afficher et analyser des métriques d’évaluation détaillées.

Dans cet article, vous allez découvrir comment créer une exécution d’évaluation à partir d’un jeu de données de test ou d’un flux avec des métriques d’évaluation intégrées à partir de l’IU d’Azure AI Studio. Pour une plus grande flexibilité, vous pouvez établir un flux d’évaluation personnalisé et utiliser la fonctionnalité d’évaluation personnalisée. Vous pouvez également utiliser la fonctionnalité d’évaluation personnalisée si votre objectif consiste uniquement à exécuter un lot sans évaluation.

Prérequis

Pour exécuter une évaluation avec des métriques assistées par l’IA, vous devez disposer des éléments suivants :

  • Jeu de données de test dans l’un de ces formats : csv ou jsonl.
  • Une connexion Azure OpenAI.
  • Un déploiement de l’un de ces modèles : modèles GPT 3.5, modèles GPT 4 ou modèles Davinci.

Créer une évaluation avec des métriques d’évaluation intégrées

Une exécution d’évaluation vous permet de générer des sorties de métriques pour chaque ligne de données de votre jeu de données de test. Vous pouvez choisir une ou plusieurs métriques d’évaluation pour évaluer la sortie à partir de différents aspects. Vous pouvez créer une exécution d’évaluation à partir des pages d’évaluation et d’invite de flux dans AI Studio. Ensuite, un Assistant création d’évaluation s’affiche pour vous guider tout au long du processus de configuration d’une exécution d’évaluation.

À partir de la page évaluer

Dans le menu de gauche réductible, sélectionnez Évaluation>+ Nouvelle évaluation.

Capture d’écran du bouton permettant de créer une évaluation.

À partir de la page de flux

Dans le menu de gauche réductible, sélectionnez flux d’invite>Évaluer>évaluation intégrée.

Capture d’écran montrant comment sélectionner l’évaluation intégrée.

Informations de base

Lorsque vous démarrez une évaluation à partir de la page d’évaluation, vous devez d’abord décider de la cible d’évaluation. En spécifiant la cible d’évaluation appropriée, nous pouvons adapter l’évaluation à la nature spécifique de votre application, en garantissant des métriques précises et pertinentes. Actuellement, nous prenons en charge deux types de cibles d’évaluation :

Jeu de données : vous disposez déjà de sorties générées par votre modèle dans un jeu de données de test. Flux d’invite : vous avez créé un flux et vous souhaitez évaluer la sortie du flux.

Capture d’écran de ce que vous souhaitez évaluer montrant la sélection de jeu de données ou de flux d’invite.

Quand vous entrez dans l’Assistant Création d’évaluation, indiquez éventuellement un nom pour l’exécution d’évaluation, puis sélectionnez le scénario qui correspond le mieux aux objectifs de votre application. Nous proposons actuellement la prise en charge des scénarios suivants :

  • Questions et réponses avec contexte : ce scénario est conçu pour les applications qui impliquent une réponse aux requêtes utilisateur avec des informations de contexte.
  • Questions et réponses sans contexte : ce scénario est conçu pour les applications qui impliquent une réponse aux requêtes utilisateur sans informations de contexte.

Vous pouvez utiliser le panneau d’aide pour consulter les FAQ et vous guider dans l’Assistant.

Capture d’écran de la page d’informations de base au moment de la création d’une évaluation.

Si vous évaluez un flux d’invite, vous pouvez sélectionner le flux à évaluer. Si vous lancez l’évaluation à partir de la page Flux, nous sélectionnerons automatiquement votre flux à évaluer. Si vous envisagez d’évaluer un autre flux, vous pouvez en sélectionner un autre. Il est important de noter qu’au sein d’un flux, vous pouvez avoir plusieurs nœuds, chacun pouvant avoir son propre ensemble de variantes. Dans ce genre de cas, vous devez spécifier le nœud et les variantes à évaluer durant le processus d’évaluation.

Capture d’écran de la page de sélection d’un flux à évaluer au moment de la création d’une évaluation.

Configurer des données de test

Vous pouvez sélectionner parmi les jeux de données préexistants ou charger un nouveau jeu de données spécifiquement pour évaluer. Si aucun flux n’a été sélectionné à l’étape précédente, le jeu de données de test doit disposer des sorties générées par le modèle pour pouvoir être utilisé à des fins d’évaluation.

  • Choisir un jeu de données existant: vous pouvez choisir le jeu de données de test dans votre collection de jeux de données établie.

    Capture d’écran de l’option permettant de choisir des données de test au moment de la création d’une évaluation.

  • Ajouter un nouveau jeu de données : Vous pouvez charger des fichiers à partir de votre stockage local. Nous prenons uniquement en charge les formats de fichier .csv et .jsonl.

    Capture d’écran de l’option permettant de charger un fichier au moment de la création d’une évaluation.

  • Mappage des données pour le flux : Si vous sélectionnez un flux à évaluer, vérifiez que vos colonnes de données sont configurées pour être alignées sur les entrées requises afin de permettre au flux d’effectuer une exécution par lots et de générer la sortie à évaluer. L’évaluation est ensuite effectuée à l’aide de la sortie du flux. Configurez ensuite le mappage de données pour les entrées d’évaluation à la prochaine étape.

    Capture d’écran du mappage de jeu de données au moment de la création d’une évaluation.

Sélectionnez des mesures

Nous prenons en charge deux types de métriques organisés par Microsoft pour faciliter une évaluation complète de votre application :

  • Métriques de performance et de qualité : ces métriques évaluent la qualité et la cohérence globales du contenu généré.
  • Métriques de risque et de sécurité : ces métriques se concentrent sur l’identification des risques potentiels liés au contenu ainsi que sur la sécurisation du contenu généré.

Vous pouvez consulter le tableau pour obtenir la liste complète des métriques que nous prenons en charge dans chaque scénario. Pour plus d’informations sur chaque définition de métrique et son mode de calcul, consultez Métriques d’évaluation et de monitoring.

Scénario Métriques de performance et de qualité Métriques de risque et de sécurité
Questions et réponses avec contexte Fondement, pertinence, cohérence, fluidité, similarité GPT, score F1 Contenu lié à l’auto-préjudice, contenu haineux et injuste, contenu violent, contenu sexuel, matériel protégé, attaque indirecte
Questions et réponses sans contexte Cohérence, fluidité, similarité GPT, score F1 Contenu lié à l’auto-préjudice, contenu haineux et injuste, contenu violent, contenu sexuel, matériel protégé, attaque indirecte

Quand vous utilisez des métriques assistées par IA dans le cadre de l’évaluation des performances et de la qualité, vous devez spécifier un modèle GPT pour le processus de calcul. Choisissez une connexion Azure OpenAI et un déploiement avec GPT-3.5, GPT-4 ou le modèle Davinci pour nos calculs.

Capture d’écran de la page de sélection de métriques montrant des métriques de qualité sélectionnées au moment de la création d’une évaluation.

Pour les métriques de risque et de sécurité, vous n’avez pas besoin de fournir de connexion ni de déploiement. Le service back-end des évaluations de sécurité d’Azure AI Studio approvisionne un modèle GPT-4, qui génère des scores de gravité et des explications sur les risques liés au contenu. Vous pouvez ainsi évaluer votre application en recherchant les problèmes potentiels liés à son contenu.

Vous pouvez définir le seuil pour calculer le taux de défaut pour les métriques de préjudice au contenu (contenu lié à l’auto-préjudice, contenu haineux et injuste, contenu violent, contenu sexuel). Le taux de défaut est calculé en prenant un pourcentage d’instances dont les niveaux de gravité (Très bas, Bas, Moyen, Élevé) dépassent un certain seuil. Par défaut, nous définissons le seuil à « Moyen ».

Pour le matériel protégé et les attaques indirectes, le taux de défauts est calculé en prenant un pourcentage d’instances où la sortie est « true » (Taux de défaut = (# true / # instances) × 100).

Capture d’écran des métriques de risque et de sécurité organisées par Microsoft montrant les options auto-préjudice, matériel protégé et attaque indirecte sélectionnées.

Remarque

Les métriques de risque et de sécurité assistées par IA sont hébergées par le service back-end des évaluations de sécurité d’Azure AI Studio. Elles sont disponibles uniquement dans les régions suivantes : USA Est 2, France Centre, Royaume-Uni Sud, Suède Centre

Mappage de données pour l’évaluation : Vous devez spécifier les colonnes de données de votre jeu de données correspondant aux entrées nécessaires dans l’évaluation. Différentes métriques d’évaluation demandent des types distincts d’entrées de données pour des calculs précis.

Capture d’écran du mappage de jeu de données à votre entrée d’évaluation.

Remarque

Si vous évaluez à partir de données, « réponse » devrait être mappé à la colonne de réponse de votre jeu de données ${data$answer}. Si vous évaluez à partir d’un flux, « réponse » devrait venir de la sortie de flux ${run.outputs.answer}.

Pour obtenir des conseils sur les exigences de mappages de données spécifiques pour chaque métrique, reportez-vous aux informations fournies dans le tableau :

Exigences en matière de métriques de réponse aux questions
Métrique Question Réponse Context Vérité de terrain
Fondement Obligatoire : Str Obligatoire : Str Obligatoire : Str S/O
Cohérence Obligatoire : Str Obligatoire : Str N/A N/A
Maîtrise Obligatoire : Str Obligatoire : Str N/A N/A
Pertinence Obligatoire : Str Obligatoire : Str Obligatoire : Str S/O
Similarité GPT Obligatoire : Str Obligatoire : Str S/O Obligatoire : Str
Score F1 Obligatoire : Str Obligatoire : Str S/O Obligatoire : Str
Contenu lié à l’automutilation Obligatoire : Str Obligatoire : Str N/A N/A
Contenu haineux et discriminatoire Obligatoire : Str Obligatoire : Str N/A N/A
Contenu violent Obligatoire : Str Obligatoire : Str N/A N/A
Contenu à caractère sexuel Obligatoire : Str Obligatoire : Str N/A N/A
Matériel protégé Obligatoire : Str Obligatoire : Str N/A N/A
Attaque indirecte Obligatoire : Str Obligatoire : Str N/A N/A
  • Question : question posée par l’utilisateur dans la paire Réponse aux questions
  • Réponse : réponse à la question générée par le modèle comme réponse
  • Contexte : la source de réponse est générée par rapport à (c’est-à-dire, les documents de base)
  • Vérité de base : la réponse à la question générée par l’utilisateur/l’homme comme véritable réponse

Passer en revue et terminer

Une fois que toutes les configurations nécessaires sont terminées, vous pouvez passer en revue et continuer à sélectionner « Envoyer » pour envoyer l’exécution de l’évaluation.

Capture d’écran de la page de vérification et de fin pour la création d’une évaluation.

Créer une évaluation avec un flux d’évaluation personnalisé

Vous pouvez développer vos propres méthodes d’évaluation :

Dans la page de flux, dans le menu de gauche réductible, sélectionnez Flux d’invite>Évaluer>Évaluation personnalisée.

Capture d’écran montrant comment créer une évaluation personnalisée à partir d’un flux d’invite.

Afficher et gérer les évaluateurs dans la bibliothèque d’évaluateurs

La bibliothèque d’évaluateurs est un endroit centralisé qui vous permet de voir les détails et l’état de vos évaluateurs. Vous pouvez afficher et gérer les évaluateurs organisés par Microsoft.

Conseil

Vous pouvez utiliser des évaluateurs personnalisés via le kit de développement logiciel (SDK) de flux d’invite. Pour plus d’informations, consultez Évaluer avec le kit de développement logiciel (SDK) de flux d’invite.

La bibliothèque d’évaluateurs active également la gestion des versions. Vous pouvez comparer différentes versions de votre travail, restaurer les versions précédentes si nécessaire et collaborer plus facilement avec d’autres utilisateurs.

Pour utiliser la bibliothèque d’évaluateurs dans AI Studio, accédez à la page Évaluation de votre projet et sélectionnez l’onglet Bibliothèque d’évaluateurs.

Capture d’écran de la page pour sélectionner des évaluateurs dans la bibliothèque d’évaluateurs.

Vous pouvez sélectionner le nom de l’évaluateur pour afficher plus de détails. Vous pouvez voir le nom, la description et les paramètres, et vérifier les fichiers associés à l’évaluateur. Voici quelques exemples d’évaluateurs organisés par Microsoft :

  • Pour les évaluateurs de performances et de qualité organisés par Microsoft, vous pouvez afficher l’invite d’annotations sur la page de détails. Vous pouvez adapter ces invites à votre propre cas d’usage en modifiant les paramètres ou les critères en fonction de vos données et objectifs avec le kit de développement logiciel (SDK) de flux d’invite. Par exemple, vous pouvez sélectionner Groundedness-Evaluator et vérifier le fichier Prompty montrant comment nous calculons la métrique.
  • Pour les évaluateurs de risque et de sécurité organisés par Microsoft, vous pouvez voir la définition des métriques. Par exemple, vous pouvez sélectionner Self-Harm-Related-Content-Evaluator et apprendre ce qu’il signifie et comment Microsoft détermine les différents niveaux de gravité pour cette métrique de sécurité

Étapes suivantes

En savoir plus sur la manière d’évaluer vos applications IA générative :