Partager via


Observabilité dans l’IA générative

Important

Les éléments marqués (aperçu) dans cet article sont actuellement en aperçu public. Cette version préliminaire est fournie sans contrat de niveau de service, et nous la déconseillons pour les charges de travail en production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure.

Dans le monde basé sur l’IA d’aujourd’hui, Générative AI Operations (GenAIOps) révolutionne la façon dont les organisations créent et déploient des systèmes intelligents. Étant donné que les entreprises utilisent de plus en plus l’IA pour transformer la prise de décision, améliorer les expériences client et alimenter l’innovation, un élément est essentiel : des infrastructures d’évaluation robustes. L’évaluation n’est pas seulement un point de contrôle. C’est la base de la confiance dans les applications IA. Sans évaluation rigoureuse, les systèmes IA peuvent produire du contenu qui est :

  • Fabriqué ou sans fondement dans la réalité
  • Non pertinent ou incohérent pour les besoins de l’utilisateur
  • Néfaste pour perpétuer les risques et stéréotypes liés au contenu
  • Dangereux dans la diffusion de fausses informations
  • Vulnérable aux attaques de sécurité

C’est là que les évaluateurs deviennent essentiels. Ces outils spécialisés mesurent à la fois la fréquence et la gravité des risques dans les sorties d’IA, ce qui permet aux équipes de traiter systématiquement les problèmes de qualité, de sécurité et de sécurité tout au long du parcours de développement de l’IA, de la sélection du modèle approprié à la surveillance des performances de production, de la qualité et de la sécurité.

Qu’est-ce que les évaluateurs ?

Les évaluateurs sont des outils spécialisés qui mesurent la qualité, la sécurité et la fiabilité des réponses ia. En implémentant des évaluations systématiques tout au long du cycle de vie du développement d’IA, les équipes peuvent identifier et résoudre les problèmes potentiels avant qu’elles n’affectent les utilisateurs. Les évaluateurs pris en charge suivants fournissent des fonctionnalités d’évaluation complètes sur différents types et préoccupations d’application IA :

RAG (récupération de génération augmentée):

Évaluateur Objectif
Récupération Mesure la façon dont le système récupère efficacement les informations pertinentes.
Récupération de documents Mesure la précision dans la récupération donne la vérité au sol.
Fondement Mesure la cohérence de la réponse par rapport au contexte récupéré.
Groundedness Pro Mesure si la réponse est cohérente par rapport au contexte récupéré.
Pertinence Mesure la pertinence de la réponse par rapport à la requête.
Complétivité de la réponse Évalue dans quelle mesure la réponse est complète, sans omission d'informations critiques, par rapport à la vérité terrain.

Agents (préversion) :

Évaluateur Objectif
Résolution d’intention Mesure la précision de l’agent pour identifier et aborder les intentions de l’utilisateur.
Respect des tâches Mesure la façon dont l’agent suit les tâches identifiées.
Précision des appels de l’outil Mesure la façon dont l’agent sélectionne et appelle les outils appropriés.

Usage général :

Évaluateur Objectif
Fluidité Mesure la qualité et la lisibilité du langage naturel.
Cohérence Mesure la cohérence logique et le flux des réponses.
Assurance qualité Mesure de manière exhaustive différents aspects de la qualité dans la réponse aux questions.

Sécurité et sécurité (préversion) :

Évaluateur Objectif
Violence Détecte le contenu violent ou l’incitation.
Sexuel Identifie le contenu sexuel inapproprié.
Automutilation Détecte le contenu qui promeut ou décrit l’auto-préjudice.
Haine et injustice Identifie le contenu biaisé, discriminatoire ou haineux.
Attributs non fondés Détecte les informations fabriquées ou hallucinées déduites des interactions de l'utilisateur.
Vulnérabilité du code Identifie les problèmes de sécurité dans le code généré.
Matériaux protégés Détecte l’utilisation non autorisée du contenu protégé ou protégé par le droit d’auteur.
Sécurité du contenu Évaluation complète des diverses préoccupations en matière de sécurité.

Similarité textuelle :

Évaluateur Objectif
Similitude Mesure de similarité textuelle assistée par l’IA.
Score F1 La moyenne harmonique de précision et de rappel dans les jetons chevauche la réponse et la vérité terrestre.
BLEU Le score d’évaluation bilingue Understudy pour les mesures de qualité de la traduction se chevauche en n-grammes entre la réponse et la vérité au sol.
GLEU La variante Google-BLEU pour les mesures d’évaluation au niveau de la phrase se chevauche en n-grammes entre la réponse et la vérité au sol.
ROUGE Les mesures d’évaluation basées sur le rappel se chevauchent en n-grammes entre la réponse et la vérité sur le terrain.
MÉTÉORE Métrique pour l’évaluation de la traduction avec des mesures de classement explicite se chevauchent en n-grammes entre la réponse et la vérité au sol.

Azure OpenAI Graders (préversion) :

Évaluateur Objectif
Générateur d’étiquettes de modèle Classifie le contenu à l’aide d’instructions et d’étiquettes personnalisées.
Scoreur de modèle Génère des scores numériques (plage personnalisée) pour le contenu en fonction des instructions personnalisées.
Vérificateur de chaînes Effectue des validations de texte flexibles et de la correspondance de modèles.
Similarité textuelle Évalue la qualité du texte ou détermine la proximité sémantique.

En utilisant ces évaluateurs stratégiquement tout au long du cycle de vie de développement, les équipes peuvent créer des applications IA plus fiables, sécurisées et efficaces qui répondent aux besoins des utilisateurs tout en réduisant les risques potentiels.

Diagramme du cycle de vie GenAIOps de l’entreprise, montrant la sélection du modèle, la création d’une application IA et l’opérationnalisation.

Les trois étapes de l’évaluation genAIOps

Sélection du modèle de base

Avant de créer votre application, vous devez sélectionner la base appropriée. Cette évaluation initiale vous aide à comparer différents modèles en fonction des points suivants :

  • Qualité et précision : Quelles sont les réponses du modèle pertinentes et cohérentes ?
  • Performances des tâches : le modèle gère-t-il efficacement vos cas d’usage spécifiques ?
  • Considérations éthiques : le modèle est-il exempt de préjugés nuisibles ?
  • Profil de sécurité : Quel est le risque de générer du contenu non sécurisé ?

Outils disponibles : benchmark Azure AI Foundry pour comparer des modèles sur des jeux de données publics ou vos propres données, ainsi que le Kit de développement logiciel (SDK) Azure AI Evaluation pour tester des points de terminaison de modèle spécifiques.

Évaluation de préproduction

Une fois que vous avez sélectionné un modèle de base, l’étape suivante consiste à développer une application IA, telle qu’un chatbot alimenté par l’IA, une application de génération augmentée de récupération (RAG), une application IA agentique ou tout autre outil d’IA générative. Une fois le développement terminé, l’évaluation de préproduction commence. Avant de déployer dans un environnement de production, des tests approfondis sont essentiels pour garantir que le modèle est prêt pour une utilisation réelle.

L’évaluation en préproduction implique les éléments suivants :

  • Test avec des jeux de données d’évaluation : ces jeux de données simulent des interactions utilisateur réalistes pour garantir que l’application IA s’exécute comme prévu.
  • Identification des cas de périphérie : recherche de scénarios où la qualité de réponse de l’application IA peut dégrader ou produire des sorties indésirables.
  • Évaluation de la robustesse : s’assurer que le modèle peut gérer une gamme de variations d’entrée sans baisse significative de la qualité ou de la sécurité.
  • Mesure des métriques clés : les métriques telles que la réactivité, la pertinence et la sécurité sont évaluées pour confirmer la préparation de la production.

Diagramme de l’évaluation de préproduction pour les modèles et les applications avec les six étapes.

La phase de préproduction agit comme un contrôle qualité final, ce qui réduit le risque de déploiement d’une application d’IA qui ne répond pas aux normes de performances ou de sécurité souhaitées.

Outils et approches d’évaluation :

  • Apportez vos propres données : vous pouvez évaluer vos applications IA en préproduction à l’aide de vos propres données d’évaluation avec les évaluateurs pris en charge, notamment la qualité de génération, la sécurité ou les évaluateurs personnalisés, et afficher les résultats via le portail Azure AI Foundry. Utilisez l’assistant d’évaluation d'Azure AI Foundry ou les évaluateurs pris en charge par Azure AI Evaluation SDK, notamment la qualité de génération, la sécurité ou les évaluateurs personnalisés, et affichez les résultats sur le portail Azure AI Foundry.
  • Simulateurs et agent d’association rouge IA (préversion) : si vous n’avez pas de données d’évaluation (données de test), Kit de développement logiciel (SDK) Azure AI Evaluation les simulateurs peuvent vous aider en générant des requêtes liées à des rubriques ou contradictoires. Ces simulateurs testent la réponse du modèle à des requêtes appropriées à la situation ou similaires à des attaques (cas de périphérie).
    • Les simulateurs adversaires injectent des requêtes statiques qui imitent les risques de sécurité ou les attaques de sécurité potentiels ou tentent de jailbreaker, ce qui permet d’identifier les limitations et de préparer le modèle pour des conditions inattendues.
    • Les simulateurs appropriés au contexte génèrent des conversations classiques et pertinentes auxquelles vous vous attendriez de la part des utilisateurs afin de tester la qualité des réponses. Avec les simulateurs appropriés au contexte, vous pouvez évaluer des métriques telles que la pertinence, la pertinence, la cohérence et la fluidité des réponses générées.
    • Agent d’association rouge d’IA (préversion) simule des attaques contradictoires complexes contre votre système IA à l’aide d’un large éventail d’attaques de sécurité et de sécurité à l’aide de l’infrastructure ouverte de Microsoft pour Python Risk Identification Tool ou PyRIT. Les analyses automatisées utilisant l’agent Red Teaming IA améliorent l’évaluation des risques de préproduction en testant systématiquement les applications IA pour les risques. Ce processus implique des scénarios d’attaque simulés pour identifier les faiblesses des réponses de modèle avant le déploiement réel. En exécutant des analyses Red Teaming IA, vous pouvez détecter et atténuer les problèmes de sécurité potentiels avant le déploiement. Cet outil est recommandé pour être utilisé avec des processus humains dans la boucle, tels que l’association rouge d’IA conventionnelle pour accélérer l’identification des risques et l’aide à l’évaluation par un expert humain.

Vous pouvez également utiliser le widget d’évaluation du portail Azure AI Foundry pour tester vos applications IA génératives.

Une fois que les résultats sont satisfaisants, l’application d’IA peut être déployée en production.

Surveillance post-production

Après le déploiement, la supervision continue garantit la qualité de votre application IA dans des conditions réelles :

  • Suivi des performances : mesure régulière des métriques clés.
  • Réponse aux incidents : action rapide lorsque des résultats dangereux ou inappropriés se produisent.

Une surveillance efficace permet de maintenir la confiance des utilisateurs et permet une résolution rapide des problèmes.

L’observabilité Azure AI Foundry offre des fonctionnalités de supervision complètes essentielles pour le paysage d’IA complexe et en évolution rapide. Intégrée en toute transparence à Azure Monitor Application Insights, cette solution permet une surveillance continue des applications IA déployées pour garantir des performances, une sécurité et une qualité optimales dans les environnements de production. Le tableau de bord Foundry Observability fournit des insights en temps réel sur les métriques critiques, ce qui permet aux équipes d’identifier et de résoudre rapidement les problèmes de performances, les problèmes de sécurité ou la dégradation de la qualité. Pour les applications basées sur agent, Foundry offre des fonctionnalités d’évaluation continue améliorées qui peuvent être activées pour fournir une visibilité plus approfondie des métriques de qualité et de sécurité, créant un écosystème de surveillance robuste qui s’adapte à la nature dynamique des applications IA tout en conservant des normes élevées de performances et de fiabilité.

En surveillant en continu le comportement de l’application IA en production, vous pouvez maintenir des expériences utilisateur de haute qualité et résoudre rapidement les problèmes qui se posent.

Création d’une confiance par le biais d’une évaluation systématique

GenAIOps établit un processus fiable pour la gestion des applications IA tout au long de leur cycle de vie. En implémentant une évaluation approfondie à chaque étape, à partir de la sélection du modèle par le biais du déploiement et au-delà, les équipes peuvent créer des solutions IA qui ne sont pas seulement puissantes, fiables et sécurisées.

Aide-mémoire sur l’évaluation

Objectif Processus Paramètres
Que cherchez-vous à évaluer ? Identifier ou créer des évaluateurs pertinents - Exemple de cahier de qualité et de performances

- Qualité de la réponse des agents

- Sécurité et protection (Exemple de notebook sur la sécurité et la protection)

- Personnalisé (Exemple de notebook personnalisé)
Quelles données devez-vous utiliser ? Charger ou générer un jeu de données pertinent Simulateur générique pour mesurer la qualité et les performances (Exemple de notebook de simulateur générique)

- Simulateur adversaire pour mesurer la sécurité (Exemple de notebook de simulateur adversaire)

Agent de l'équipe rouge IA pour réaliser des analyses automatisées afin d'évaluer les vulnérabilités de sécurité et de sûreté (bloc-notes d'exemple de l'agent de l'équipe rouge IA)
Quelles sont les ressources qui devraient mener l’évaluation ? Exécuter l’évaluation - Exécution locale

-  Exécution à distance du cloud
Quelles ont été les performances de mon modèle/application ? Analyser les résultats Afficher les scores agrégés, afficher les détails, les détails du score, comparer les exécutions d’évaluation
Quelles sont les améliorations à apporter ? Apporter des modifications aux modèles, aux applications ou aux programmes d’évaluation – Si les résultats de l’évaluation ne se sont pas alignés sur les commentaires humains, ajustez votre programme d’évaluation.

 – Si les résultats de l’évaluation sont alignés sur les commentaires humains, mais ne respectaient pas les seuils de qualité/sécurité, appliquez des atténuations ciblées. Exemple d’atténuation à appliquer : Azure AI Content Safety

Soutien régional

Actuellement, certains programmes d’évaluation assistés par l’IA sont disponibles uniquement dans les régions suivantes :

Région Haine et injustice, Sexuel, Violent, Automutilation, Attaque indirecte, Vulnérabilités du code, Attributs sans fondement Groundedness Pro Matériel protégé
Est des États-Unis 2 Soutenu Soutenu Soutenu
Suède Centre Soutenu Soutenu N/A
USA Centre Nord Soutenu N/A N/A
France Centrale Soutenu N/A N/A
Suisse Ouest Soutenu N/A N/A

Tarification

Les fonctionnalités d’observabilité telles que les évaluations de risque et de sécurité et les évaluations continues sont facturées en fonction de la consommation, comme indiqué dans notre page de tarification Azure. Sélectionnez l’onglet Chaîne d'outils IA complète pour afficher les détails des prix des évaluations.