Évaluations des risques et de la sécurité d’Azure AI Foundry (Préversion) Note de transparence

2025-06-30

Important

Les éléments marqués (aperçu) dans cet article sont actuellement en aperçu public. Cette version préliminaire est fournie sans contrat de niveau de service, et nous la déconseillons pour les charges de travail en production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure.

Qu’est-ce qu’une note de transparence

Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel il est déployé. La création d’un système adapté à l’usage auquel il est destiné nécessite une compréhension du fonctionnement de la technologie, de ses capacités et de ses limites, et de la manière d’obtenir les meilleures performances. Les notes de transparence de Microsoft sont destinées à vous aider à comprendre le fonctionnement de notre technologie IA, les choix que les propriétaires de système peuvent faire qui influencent les performances et le comportement du système, et l’importance de penser à l’ensemble du système, y compris la technologie, les personnes et l’environnement. Vous pouvez utiliser des notes de transparence lors du développement ou du déploiement de votre propre système, ou les partager avec les personnes qui utiliseront ou seront affectées par votre système.

Les notes de transparence de Microsoft font partie d’un effort plus large de Microsoft visant à mettre en pratique nos principes d’IA. Pour en savoir plus, consultez les principes de Microsoft AI.

Les informations de base sur les évaluations des risques et de la sécurité d’Azure AI Foundry (préversion)

Présentation

Les évaluations des risques et de la sécurité d’Azure AI Foundry permettent aux utilisateurs d’évaluer la sortie de leur application d’IA générative au niveau des risques liés au contenu textuel : contenu haineux et partial, contenu à caractère sexuel, contenu violent, contenu lié à l’automutilation, vulnérabilité au jailbreak direct et indirect ainsi que matériel protégé par droits d’auteur présent dans le contenu. Les évaluations de sécurité permettent également de générer des jeux de données contradictoires pour accélérer et améliorer les opérations menées par une équipe rouge (« Red Team »). Les évaluations de sécurité d’Azure AI Foundry reflètent les engagements de Microsoft visant à garantir une conception sécurisée et responsable des systèmes IA, sur la base de nos principes d’IA responsable.

Termes clés

Le contenu haineux et partial (pour le texte et les images) fait référence au langage ou aux images exprimant de la haine ou des jugements partiaux à l’égard d’individus et de groupes sociaux en fonction de facteurs tels que la race, l’origine ethnique, la nationalité, le genre, l’orientation sexuelle, la religion, le statut d’immigrant, les capacités, l’apparence et la taille d’une personne. La partialité se manifeste quand les systèmes IA traitent ou représentent les groupes sociaux de manière inéquitable, ce qui crée ou contribue à renforcer des inégalités sociétales.
Le contenu à caractère sexuel (pour le texte et les images) fait référence au langage ou aux images désignant les organes anatomiques et les parties génitales, les relations amoureuses, les actes décrits en termes érotiques, la grossesse, les actes sexuels physiques (notamment l’agression ou la violence sexuelle), la prostitution, la pornographie et les abus sexuels.
Le contenu violent (pour le texte et les images) fait référence au langage ou aux images désignant les actions physiques visant à frapper, blesser, endommager ou tuer. Il comprend également les descriptions d’armes et d’armes à feu (et des entités associées, par exemple les fabricants et les associations).
Le contenu lié à l’automutilation (pour le texte et les images) fait référence au langage ou aux images désignant les actions qui consistent à se frapper, se blesser, se mutiler ou se donner la mort.
Le contenu avec du matériel protégé (pour le texte) indique les contenus de texte connu, par exemple, paroles de chanson, articles, recettes et contenu web sélectionné qui peuvent être générés par les grands modèles de langage. La détection et la prévention de l’affichage du code protégé permet aux organisations de maintenir la conformité aux droits sur la propriété intellectuelle et de préserver l’originalité du contenu.
Le contenu avec du matériel protégé (pour les images) fait référence à certains contenus visuels protégés par des droits d’auteur tels que des logos et des marques, des illustrations ou des personnages fictifs. Le système utilise un modèle de base image-to-text afin d’identifier si ce contenu est présent.
Le jailbreaker direct, les attaques de prompts directes ou les attaques par injection de prompts utilisateur, font référence aux attaques des utilisateurs qui manipulent les prompts pour injecter des entrées malveillantes dans les LLM (grands modèles de langage) afin de déformer les actions et les sorties. L’attaque « DAN » (Do Anything Now), est un exemple de commande de jailbreak, qui peut tromper le LLM pour qu’il génère du contenu inapproprié ou ignore les restrictions imposées par le système.
Le jailbreaker indirect, les attaques de prompts indirectes ou les attaques par injection de prompts inter-domaines fait référence au moment auquel des instructions malveillantes sont masquées au sein des données qui sont soit traitées, soit générés par un système IA. Ces données peuvent inclure des e-mails, des documents, des sites web ou d’autres sources qui ne sont pas directement créées par le développeur ou l’utilisateur et qui peuvent entraîner une génération de contenu inappropriée ou ignorer les restrictions imposées par le système.
Le taux de défaut (risque lié au contenu) est défini comme le pourcentage d’instances de votre jeu de données de test qui dépassent un seuil spécifique sur l’échelle de gravité pour la taille entière du jeu de données.
Historiquement, les opérations d’une équipe rouge (« Red Team ») décrivent les attaques contradictoires systématiques visant à tester les failles de sécurité. Avec l’essor des LLM (grands modèles de langage), le terme s’est étendu au-delà de la cybersécurité classique. Il a évolué dans l’usage courant pour décrire de nombreux genres de sondages, de tests et d’attaques des systèmes IA. L’utilisation des LLM, qu’elle soit bienveillante ou malveillante, peut produire des sorties potentiellement préjudiciables. Celles-ci peuvent prendre de nombreuses formes, par exemple du contenu préjudiciable tel que les propos haineux, l’incitation à la violence ou son apologie, la référence à l’automutilation ou au contenu à caractère sexuel.

Capacités

Comportement du système

Azure AI Foundry approvisionne un modèle affiné d’Azure OpenAI GPT-4o, et orchestre des simulations d’attaques de votre application par des personnes mal intentionnées pour générer un jeu de données de test de haute qualité. Il approvisionne ensuite un autre modèle GPT-4o pour annoter votre jeu de données de test au niveau du contenu et de la sécurité. Les utilisateurs fournissent le point de terminaison d’application d’IA générative à tester. Les évaluations de sécurité génèrent en sortie un jeu de données de test statique correspondant à ce point de terminaison ainsi que l’étiquette de niveau de risque du contenu (Très faible, Faible, Moyen, Élevé) ou l’étiquette de détection de risque du contenu (Vrai ou Faux) et des explications relatives à l’étiquette générée par l’IA.

Cas d’utilisation

Utilisations prévues

Les évaluations de sécurité ne sont pas destinées à d’autres fins que l’évaluation des risques posés par le contenu et les vulnérabilités au jailbreak de votre application d’IA générative :

Évaluation du prédéploiement de votre application d’IA générative : à l’aide de l’Assistant Évaluation du portail Azure AI Foundry ou du kit SDK Python d’Azure AI, les évaluations de sécurité peuvent évaluer de manière automatisée les risques potentiels liés au contenu ou à la sécurité.
Amélioration de vos opérations « Red Team » : à l’aide du simulateur contradictoire, les évaluations de sécurité peuvent simuler des interactions contradictoires avec votre application d’IA générative pour tenter de découvrir les risques liés au contenu et à la sécurité.
Communication des risques liés au contenu et à la sécurité aux parties prenantes : à l’aide du portail Azure AI Foundry, vous pouvez partager les résultats des évaluations de sécurité de votre projet Azure AI Foundry avec des auditeurs ou des parties prenantes en charge de la conformité.

Considérations relatives au choix d’un cas d’usage

Nous encourageons les clients à tirer parti des évaluations de sécurité d’Azure AI Foundry dans leurs solutions ou applications innovantes. Toutefois, voici quelques considérations à prendre en compte lors du choix d’un cas d’usage :

Les évaluations de sécurité doivent inclure des évaluations humaines dans la boucle : l’utilisation d’évaluations automatisées, par exemple les évaluations de sécurité d’Azure AI Foundry, doit inclure des réviseurs humains tels que des experts du domaine, pour déterminer si votre application d’IA générative a été testée de manière approfondie avant son déploiement auprès des utilisateurs finaux.
Les évaluations de sécurité n’incluent pas une couverture complète : bien que les évaluations de sécurité permettent d’améliorer vos tests de détection des risques liés au contenu ou à la sécurité, elles n’ont pas été conçues pour remplacer les opérations manuelles spécialisées de « Red Teaming » (équipe rouge), qui sont adaptées au domaine, aux cas d’usage et aux types d’utilisateurs finaux de votre application.
Scénarios pris en charge :
- Pour la simulation contradictoire : réponses aux questions, conversation multitour, résumé, recherche, réécriture de texte, génération de contenu non fondé et fondé.
- Pour l’annotation automatisée : réponses aux questions et conversations multitours.
L’utilisation du service est optimale en anglais pour les générations de texte uniquement. Des fonctionnalités supplémentaires, notamment la prise en charge multimodèle, seront prises en compte dans les versions futures.
La couverture des risques liés au contenu fournie par les évaluations de sécurité est sous-échantillonnée à partir d’un nombre limité de groupes et de sujets sous-représentés :
- La métrique relative à la haine et à la partialité couvre un nombre limité de groupes sous-représentés pour le facteur démographique constitué par le genre (par exemple les hommes, les femmes, les personnes non binaires) ainsi que la race, l’ascendance, l’origine ethnique et la nationalité (par exemple Noir, Mexicain, Européen). Tous les groupes sous-représentés dans le genre, la race, l’ascendance, l’origine ethnique et la nationalité ne sont pas couverts. D’autres facteurs démographiques pertinents pour la haine et la partialité ne sont pas pris en compte pour le moment (par exemple le handicap, la sexualité, la religion).
- Les métriques relatives au contenu à caractère sexuel, à la violence et à l’automutilation reposent sur une conceptualisation préliminaire de ces sujets sensibles, et sont moins développées que les métriques relatives à la haine et à la partialité. Cela signifie que nos affirmations sont moins catégoriques concernant la couverture des mesures, et la façon dont ces mesures traduisent les différentes représentations de ces sujets sensibles. La couverture de ces types de contenus comprend un nombre limité de sujets relatifs au sexe (par exemple les agressions, les relations, les actes), à la violence (par exemple les mauvais traitements, les blessures à autrui, les enlèvements) et l’automutilation (par exemple le suicide, les lésions auto-infligées, les troubles alimentaires).
Les évaluations de sécurité d’Azure AI Foundry ne prennent pas en charge l’utilisation de plug-ins ou de fonctionnalités d’extensibilité.
Pour maintenir la qualité et optimiser la couverture, nous allons établir une certaine cadence de publication des futures versions destinées à améliorer les fonctionnalités de simulations d’attaques par des personnes mal intentionnées et d’annotation du service.

Limites techniques, facteurs opérationnels et plages

Le secteur des LLM (grands modèles de langage) continue d’évoluer à un rythme rapide, ce qui nécessite une amélioration continue des techniques d’évaluation pour garantir un déploiement sécurisé et fiable des systèmes IA. Les évaluations de sécurité d’Azure AI Foundry reflètent l’engagement de Microsoft à continuer d’innover dans le domaine de l’évaluation des LLM. Nous nous efforçons de fournir les meilleurs outils possibles pour vous aider à évaluer la sécurité de vos applications d’IA génératives, mais nous reconnaissons que l’évaluation ne peut être efficace qu’au prix d’un travail sans relâche.
La personnalisation des évaluations de sécurité d’Azure AI Foundry est limitée pour le moment. Nous attendons uniquement des utilisateurs qu’ils fournissent leur point de terminaison d’application d’IA générative d’entrée. Notre service génèrera en sortie un jeu de données statique étiqueté en fonction du risque lié au contenu.
Enfin, il convient de noter que ce système n’automatise aucune action ni aucune tâche. Il fournit uniquement une évaluation des sorties de votre application d’IA générative, qu’un décideur humain faisant partie de la boucle doit passer en revue pour permettre le déploiement du système ou de l’application d’IA générative en production auprès des utilisateurs finaux.

Performances du système

Meilleures pratiques pour améliorer les performances du système

Dans le cas de votre domaine, qui peut traiter certains contenus de manière plus sensible que d’autres, ajustez le seuil de calcul du taux de défaut.
Quand vous utilisez les évaluations de sécurité automatisées, il existe parfois des erreurs dans les étiquettes générées par l’IA en ce qui concerne la gravité d’un risque lié au contenu ou l’explication correspondante. Il existe une colonne de commentaires manuels visant à impliquer une intervention humaine pour la validation des résultats de l’évaluation de sécurité automatisée.

Passage en revue des évaluations de sécurité d’Azure AI Foundry

Méthode d’évaluation

Pour tous les types de risques liés au contenu pris en charge, nous avons vérifié la qualité en interne en comparant le taux de correspondances approximatives entre les étiqueteurs humains selon une échelle de gravité allant de 0 à 7, et l’annotateur automatisé des évaluations de sécurité selon une échelle de gravité allant de 0 à 7 sur les mêmes jeux de données. Pour chaque zone de risque, nous avions à la fois des examinateurs humains et un annotateur automatisé avec l’étiquette 500 English, des textes à réponse unique, 250 générations de text-to-image à réponse unique et 250 texte multimodaux avec des générations de text-to-image. Les étiqueteurs humains et l’annotateur automatisé n’ont pas utilisé exactement les mêmes versions des recommandations d’annotation. Même si les recommandations de l’annotateur automatisé découlaient des recommandations destinées aux humains, elles ont divergé ensuite à des degrés divers (les recommandations relatives à la haine et à la partialité ayant divergé le plus). Malgré ces différences légères ou modérées, nous pensons qu’il est toujours utile de partager les tendances générales et les insights de notre comparaison des correspondances approximatives. Dans nos comparaisons, nous avons recherché les correspondances avec une tolérance de 2 niveaux (où l’étiquette humaine correspondait exactement à l’étiquette de l’annotateur automatisé, ou bien se situait à 2 niveaux de plus ou de moins en termes de gravité), les correspondances avec une tolérance de 1 niveau ainsi que les correspondances avec une tolérance de 0 niveau.

Résultats d’évaluation

Dans l’ensemble, nous avons observé un taux élevé de correspondances approximatives pour les contenus liés à l’automutilation et les contenus à caractère sexuel sur tous les niveaux de tolérance. Pour les contenus violents, haineux et partiaux, le taux de correspondance approximatif entre les niveaux de tolérance était plus faible. Ces résultats sont dus en partie à une divergence accrue dans le contenu des recommandations d‘annotation pour les étiqueteurs humains par rapport aux annotateurs automatisés, et en partie à l’augmentation du contenu et de la complexité des recommandations spécifiques.

Bien que nos comparaisons soient effectuées entre des entités qui ont utilisé des recommandations d’annotation légèrement ou modérément différentes (et ne sont donc pas des comparaisons de concordance homme-modèle standard), elles fournissent une estimation de la qualité que nous pouvons attendre des évaluations de sécurité d’Azure AI Foundry, compte tenu des paramètres de ces comparaisons. Plus précisément, nous n’avons examiné que les échantillons en anglais. Nos résultats ne sont donc peut-être pas généralisables à d’autres langues. De plus, chaque exemple de jeu de données ne comportait qu’un seul tour. D’autres expériences sont donc nécessaires pour vérifier s’il est possible de généraliser les résultats de notre évaluation à des scénarios multitours (par exemple une conversation incluant les demandes d’un utilisateur et les réponses du système). Les types d’exemples utilisés dans ces jeux de données d’évaluation peuvent également affecter considérablement le taux de correspondance approximatif entre les étiquettes humaines et celles d’un annotateur automatisé. Si les exemples sont plus faciles à étiqueter (notamment, si aucun d’entre eux ne présente de risques liés au contenu), nous pouvons nous attendre à un taux de correspondance approximatif plus élevé. La qualité des étiquettes humaines pour une évaluation peut également affecter la généralisation de nos résultats.

Évaluation et intégration des évaluations de sécurité d’Azure AI Foundry pour votre utilisation

La mesure et l’évaluation de votre application d’IA générative font partie intégrante d’une approche holistique de la gestion des risques liés à l’IA. Les évaluations de sécurité d’Azure AI Foundry sont complémentaires, et doivent être utilisées conjointement avec d’autres pratiques de gestion des risques liés à l’IA. Les experts du domaine et les réviseurs manuels impliqués dans la boucle doivent effectuer une supervision appropriée quand ils utilisent des évaluations de sécurité assistées par l’IA au cours du cycle de conception, de développement et de déploiement d’applications d’IA générative. Vous devez comprendre les limites et les utilisations prévues des évaluations de sécurité, en veillant à ne pas vous fier aux sorties produites par les évaluations de sécurité assistées par l’IA d’Azure AI Foundry, de manière isolée.

En raison de la nature non déterministe des LLM, vous pouvez être confronté à des résultats faussement négatifs ou faussement positifs, par exemple un contenu violent ayant un niveau de gravité élevé mais dont le score est « très faible » ou « faible ». De plus, les résultats de l’évaluation peuvent avoir des significations différentes selon les audiences. Par exemple, les évaluations de sécurité peuvent générer une étiquette ayant le niveau de gravité « faible » pour un contenu violent, qui ne correspond pas forcément à la définition qu’un réviseur humain donne de la gravité de ce contenu violent spécifique. Dans Azure AI Foundry, nous fournissons une colonne de commentaires humains avec des pouces vers le haut et vers le bas quand vous visualisez les résultats d’évaluation pour faire apparaître les instances qui ont été approuvées ou marquées comme étant incorrectes par un réviseur humain. Tenez compte du contexte dans lequel vos résultats peuvent être interprétés pour la prise de décision par d’autres personnes avec lesquelles vous pouvez partager l’évaluation, puis validez les résultats d’évaluation avec le niveau d’examen approprié en fonction du niveau de risque de l’environnement dans lequel chaque application d’IA générative fonctionne.