Note de transparence pour les évaluations de sécurité d’Azure AI Studio
Important
Les éléments marqués (préversion) dans cet article sont actuellement en préversion publique. Cette préversion est fournie sans contrat de niveau de service, nous la déconseillons dans des charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.
Qu’est-ce qu’une note de transparence
Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel il est déployé. Créer un système adapté à l’objectif visé exige de bien comprendre comment la technologie fonctionne, de connaître ses capacités et ses limites et de savoir comment atteindre le meilleur niveau de performance. Les notes de transparence de Microsoft sont destinées à vous aider à comprendre le fonctionnement de notre technologie d'IA, les choix que les propriétaires de systèmes peuvent faire et qui influencent les performances et le comportement du système, et l'importance d'appréhender le système dans son ensemble, en englobant la technologie, les personnes et l'environnement. Vous pouvez utiliser les notes de transparence pendant le développement ou le déploiement de votre propre système ou les partager avec les personnes qui utiliseront votre système ou qui seront affectées par celui-ci.
Les notes de transparence de Microsoft s’inscrivent dans une optique plus large de Microsoft de mettre en pratique ses principes d’IA. Pour en savoir plus, consultez les principes de l’IA Microsoft.
Informations de base sur les évaluations de sécurité d’Azure AI Studio
Introduction
Les évaluations de sécurité d’Azure AI Studio permettent aux utilisateurs d’évaluer la sortie de leur application d’IA générative au niveau des risques liés au contenu textuel : contenu haineux et partial, contenu à caractère sexuel, contenu violent, contenu lié à l’automutilation, vulnérabilité au jailbreak. Les évaluations de sécurité permettent également de générer des jeux de données contradictoires pour accélérer et améliorer les opérations menées par une équipe rouge (« Red Team »). Les évaluations de sécurité d’Azure AI Studio reflètent les engagements de Microsoft visant à garantir une conception sécurisée et responsable des systèmes IA, sur la base de nos principes d’IA responsable.
Termes clés
- Le contenu haineux et partial fait référence au langage exprimant de la haine ou des jugements partiaux à l’égard d’individus et de groupes sociaux en fonction de facteurs tels que la race, l’origine ethnique, la nationalité, le genre, l’orientation sexuelle, la religion, le statut d’immigrant, les capacités, l’apparence et la taille d’une personne. La partialité se manifeste quand les systèmes IA traitent ou représentent les groupes sociaux de manière inéquitable, ce qui crée ou contribue à renforcer des inégalités sociétales.
- Le contenu à caractère sexuel fait référence au langage désignant les organes anatomiques et les parties génitales, les relations amoureuses, les actes décrits en termes érotiques, la grossesse, les actes sexuels physiques (notamment l’agression ou la violence sexuelle), la prostitution, la pornographie et les abus sexuels.
- Le contenu violent fait référence au langage désignant les actions physiques visant à frapper, blesser, endommager ou tuer. Il comprend également les descriptions d’armes et d’armes à feu (et des entités associées, par exemple les fabricants et les associations).
- Le contenu lié à l’automutilation fait référence au langage désignant les actions qui consistent à se frapper, se blesser, se mutiler ou se donner la mort.
- Le jailbreak, les attaques de prompts directes ou les attaques par injection de prompts utilisateur, font référence aux attaques des utilisateurs qui manipulent les prompts pour injecter des entrées malveillantes dans les LLM (grands modèles de langage) afin de déformer les actions et les sorties. L’attaque « DAN » (Do Anything Now), est un exemple de commande de jailbreak, qui peut tromper le LLM pour qu’il génère du contenu inapproprié ou ignore les restrictions imposées par le système.
- Le taux de défaut (risque lié au contenu) est défini comme le pourcentage d’instances de votre jeu de données de test qui dépassent un seuil spécifique sur l’échelle de gravité pour la taille entière du jeu de données.
- Historiquement, les opérations d’une équipe rouge (« Red Team ») décrivent les attaques contradictoires systématiques visant à tester les failles de sécurité. Avec l’essor des LLM (grands modèles de langage), le terme s’est étendu au-delà de la cybersécurité classique. Il a évolué dans l’usage courant pour décrire de nombreux genres de sondages, de tests et d’attaques des systèmes IA. L’utilisation des LLM, qu’elle soit bienveillante ou malveillante, peut produire des sorties potentiellement préjudiciables. Celles-ci peuvent prendre de nombreuses formes, par exemple du contenu préjudiciable tel que les propos haineux, l’incitation à la violence ou son apologie, la référence à l’automutilation ou au contenu à caractère sexuel.
Fonctionnalités
Comportement du système
Azure AI Studio approvisionne un modèle GPT-4 Azure OpenAI, et orchestre des attaques contradictoires contre votre application pour générer un jeu de données de test de haute qualité. Il approvisionne ensuite un autre modèle GPT-4 pour annoter votre jeu de données de test au niveau du contenu et de la sécurité. Les utilisateurs fournissent le point de terminaison d’application d’IA générative à tester. Les évaluations de sécurité génèrent en sortie un jeu de données de test statique correspondant à ce point de terminaison ainsi que l’étiquette de niveau de risque du contenu (Très faible, Faible, Moyen, Élevé) et des explications relatives à l’étiquette générée par l’IA.
Cas d’utilisation
Utilisations prévues
Les évaluations de sécurité ne sont pas destinées à d’autres fins que l’évaluation des risques posés par le contenu et les vulnérabilités au jailbreak de votre application d’IA générative :
- Évaluation du prédéploiement de votre application d’IA générative : à l’aide de l’Assistant Évaluation d’Azure AI Studio ou du kit SDK Python d’Azure AI, les évaluations de sécurité peuvent évaluer de manière automatisée les risques potentiels liés au contenu ou à la sécurité.
- Amélioration de vos opérations « Red Team » : à l’aide du simulateur contradictoire, les évaluations de sécurité peuvent simuler des interactions contradictoires avec votre application d’IA générative pour tenter de découvrir les risques liés au contenu et à la sécurité.
- Communication des risques liés au contenu et à la sécurité aux parties prenantes : à l’aide d’Azure AI Studio, vous pouvez partager les résultats des évaluations de sécurité de votre projet Azure AI Studio avec des auditeurs ou des parties prenantes de conformité.
Aspects à prendre en considération lors du choix d’un cas d’usage de l’analyse spatiale
Nous encourageons les clients à tirer profit des évaluations de sécurité d’Azure AI Studio dans leurs solutions ou applications innovantes. Toutefois, voici quelques considérations à prendre en compte lors du choix d’un cas d’usage :
- Les évaluations de sécurité doivent inclure des évaluations humaines dans la boucle : l’utilisation d’évaluations automatisées, par exemple les évaluations de sécurité d’Azure AI Studio, doit inclure des réviseurs humains tels que des experts du domaine, pour déterminer si votre application d’IA générative a été testée de manière approfondie avant son déploiement auprès des utilisateurs finaux.
- Les évaluations de sécurité n’incluent pas une couverture complète : bien que les évaluations de sécurité permettent d’améliorer vos tests de détection des risques liés au contenu ou à la sécurité, elles n’ont pas été conçues pour remplacer les opérations manuelles spécialisées d’une équipe rouge, qui sont adaptées au domaine, aux cas d’usage et aux types d’utilisateurs finaux de votre application.
- Scénarios pris en charge :
- Pour la simulation contradictoire : réponses aux questions, conversation multitour, résumé, recherche, réécriture de texte, génération de contenu non fondé et fondé.
- Pour l’annotation automatisée : réponses aux questions et conversations multitours.
- L’utilisation du service est optimale en anglais pour les générations de texte uniquement. Des fonctionnalités supplémentaires, notamment la prise en charge multimodèle, seront prises en compte dans les versions futures.
- La couverture des risques liés au contenu fournie par les évaluations de sécurité est sous-échantillonnée à partir d’un nombre limité de groupes et de sujets sous-représentés :
- La métrique relative à la haine et à la partialité couvre un nombre limité de groupes sous-représentés pour le facteur démographique constitué par le genre (par exemple les hommes, les femmes, les personnes non binaires) ainsi que la race, l’ascendance, l’origine ethnique et la nationalité (par exemple Noir, Mexicain, Européen). Tous les groupes sous-représentés dans le genre, la race, l’ascendance, l’origine ethnique et la nationalité ne sont pas couverts. D’autres facteurs démographiques pertinents pour la haine et la partialité ne sont pas pris en compte pour le moment (par exemple le handicap, la sexualité, la religion).
- Les métriques relatives au contenu à caractère sexuel, à la violence et à l’automutilation reposent sur une conceptualisation préliminaire de ces sujets sensibles, et sont moins développées que les métriques relatives à la haine et à la partialité. Cela signifie que nos affirmations sont moins catégoriques concernant la couverture des mesures, et la façon dont ces mesures traduisent les différentes représentations de ces sujets sensibles. La couverture de ces types de contenus comprend un nombre limité de sujets relatifs au sexe (par exemple les agressions, les relations, les actes), à la violence (par exemple les mauvais traitements, les blessures à autrui, les enlèvements) et l’automutilation (par exemple le suicide, les lésions auto-infligées, les troubles alimentaires).
- Les évaluations de sécurité d’Azure AI Studio ne prennent pas en charge l’utilisation de plug-ins ou de fonctionnalités d’extensibilité.
- Pour maintenir la qualité et optimiser la couverture, nous allons établir une certaine cadence de publication des futures versions destinées à améliorer les fonctionnalités de simulation contradictoire et d’annotation du service.
Limitations techniques, facteurs opérationnels et plages
- Le secteur des LLM (grands modèles de langage) continue d’évoluer à un rythme rapide, ce qui nécessite une amélioration continue des techniques d’évaluation pour garantir un déploiement sécurisé et fiable des systèmes IA. Les évaluations de sécurité d’Azure AI Studio reflètent l’engagement de Microsoft à continuer d’innover dans le domaine de l’évaluation des LLM. Nous nous efforçons de fournir les meilleurs outils possibles pour vous aider à évaluer la sécurité de vos applications d’IA génératives, mais nous reconnaissons que l’évaluation ne peut être efficace qu’au prix d’un travail sans relâche.
- La personnalisation des évaluations de sécurité d’Azure AI Studio est limitée pour le moment. Nous attendons uniquement des utilisateurs qu’ils fournissent leur point de terminaison d’application d’IA générative d’entrée. Notre service génèrera en sortie un jeu de données statique étiqueté en fonction du risque lié au contenu.
- Enfin, il convient de noter que ce système n’automatise aucune action ni aucune tâche. Il fournit uniquement une évaluation des sorties de votre application d’IA générative, qu’un décideur humain faisant partie de la boucle doit passer en revue pour permettre le déploiement du système ou de l’application d’IA générative en production auprès des utilisateurs finaux.
Performances du système
Meilleures pratiques pour améliorer les performances du système
- Dans le cas de votre domaine, qui peut traiter certains contenus de manière plus sensible que d’autres, ajustez le seuil de calcul du taux de défaut.
- Quand vous utilisez les évaluations de sécurité automatisées, il existe parfois des erreurs dans les étiquettes générées par l’IA en ce qui concerne la gravité d’un risque lié au contenu ou l’explication correspondante. Il existe une colonne de commentaires manuels visant à impliquer une intervention humaine pour la validation des résultats de l’évaluation de sécurité automatisée.
Passage en revue des évaluations de sécurité d’Azure AI Studio
Méthodes d’évaluation
Pour tous les types de risques liés au contenu pris en charge, nous avons vérifié la qualité en interne en comparant le taux de correspondances approximatives entre les étiqueteurs humains selon une échelle de gravité allant de 0 à 7, et l’annotateur automatisé des évaluations de sécurité selon une échelle de gravité allant de 0 à 7 sur les mêmes jeux de données. Pour chaque catégorie de risque, des étiqueteurs humains et un annotateur automatisé ont étiqueté 500 textes monotours, en anglais. Les étiqueteurs humains et l’annotateur automatisé n’ont pas utilisé exactement les mêmes versions des recommandations d’annotation. Même si les recommandations de l’annotateur automatisé découlaient des recommandations destinées aux humains, elles ont divergé ensuite à des degrés divers (les recommandations relatives à la haine et à la partialité ayant divergé le plus). Malgré ces différences légères ou modérées, nous pensons qu’il est toujours utile de partager les tendances générales et les insights de notre comparaison des correspondances approximatives. Dans nos comparaisons, nous avons recherché les correspondances avec une tolérance de 2 niveaux (où l’étiquette humaine correspondait exactement à l’étiquette de l’annotateur automatisé, ou bien se situait à 2 niveaux de plus ou de moins en termes de gravité), les correspondances avec une tolérance de 1 niveau ainsi que les correspondances avec une tolérance de 0 niveau.
Evaluation results
Dans l’ensemble, nous avons observé un taux élevé de correspondances approximatives pour les contenus liés à l’automutilation et les contenus à caractère sexuel sur tous les niveaux de tolérance. Pour les contenus violents, haineux et partiaux, le taux de correspondance approximatif entre les niveaux de tolérance était plus faible. Ces résultats sont dus en partie à une divergence accrue dans le contenu des recommandations d‘annotation pour les étiqueteurs humains par rapport aux annotateurs automatisés, et en partie à l’augmentation du contenu et de la complexité des recommandations spécifiques.
Bien que nos comparaisons soient effectuées entre des entités qui ont utilisé des recommandations d’annotation légèrement ou modérément différentes (et ne sont donc pas des comparaisons de concordance homme-modèle standard), elles fournissent une estimation de la qualité que nous pouvons attendre des évaluations de sécurité d’Azure AI Studio, compte tenu des paramètres de ces comparaisons. Plus précisément, nous n’avons examiné que les échantillons en anglais. Nos résultats ne sont donc peut-être pas généralisables à d’autres langues. De plus, chaque exemple de jeu de données ne comportait qu’un seul tour. D’autres expériences sont donc nécessaires pour vérifier s’il est possible de généraliser les résultats de notre évaluation à des scénarios multitours (par exemple une conversation incluant les demandes d’un utilisateur et les réponses du système). Les types d’exemples utilisés dans ces jeux de données d’évaluation peuvent également affecter considérablement le taux de correspondance approximatif entre les étiquettes humaines et celles d’un annotateur automatisé. Si les exemples sont plus faciles à étiqueter (notamment, si aucun d’entre eux ne présente de risques liés au contenu), nous pouvons nous attendre à un taux de correspondance approximatif plus élevé. La qualité des étiquettes humaines pour une évaluation peut également affecter la généralisation de nos résultats.
Évaluation et intégration des évaluations de sécurité d’Azure AI Studio pour votre utilisation
La mesure et l’évaluation de votre application d’IA générative font partie intégrante d’une approche holistique de la gestion des risques liés à l’IA. Les évaluations de sécurité d’Azure AI Studio sont complémentaires, et doivent être utilisées conjointement avec d’autres pratiques de gestion des risques liés à l’IA. Les experts du domaine et les réviseurs manuels impliqués dans la boucle doivent effectuer une supervision appropriée quand ils utilisent des évaluations de sécurité assistées par l’IA au cours du cycle de conception, de développement et de déploiement d’applications d’IA générative. Vous devez comprendre les limites et les utilisations prévues des évaluations de sécurité, en veillant à ne pas vous fier aux sorties produites par les évaluations de sécurité assistées par l’IA d’Azure AI Studio, de manière isolée.
En raison de la nature non déterministe des LLM, vous pouvez être confronté à des résultats faussement négatifs ou faussement positifs, par exemple un contenu violent ayant un niveau de gravité élevé mais dont le score est « très faible » ou « faible ». De plus, les résultats de l’évaluation peuvent avoir des significations différentes selon les audiences. Par exemple, les évaluations de sécurité peuvent générer une étiquette ayant le niveau de gravité « faible » pour un contenu violent, qui ne correspond pas forcément à la définition qu’un réviseur humain donne de la gravité de ce contenu violent spécifique. Dans Azure AI Studio, nous fournissons une colonne de commentaires humains avec des pouces vers le haut et vers le bas quand vous visualisez les résultats d’évaluation pour faire apparaître les instances qui ont été approuvées ou marquées comme étant incorrectes par un réviseur humain. Tenez compte du contexte dans lequel vos résultats peuvent être interprétés pour la prise de décision par d’autres personnes avec lesquelles vous pouvez partager l’évaluation, puis validez les résultats d’évaluation avec le niveau d’examen approprié en fonction du niveau de risque de l’environnement dans lequel chaque application d’IA générative fonctionne.
En savoir plus sur l’IA responsable
- Les principes de l’IA de Microsoft.
- Ressources d’IA responsable Microsoft
- Cours Microsoft Azure Learning sur l’IA responsable
En savoir plus sur les évaluations de sécurité d’Azure AI Studio
- Documentation conceptuelle Microsoft sur notre approche de l’évaluation des applications d’IA génératives
- Documentation conceptuelle Microsoft sur le fonctionnement des évaluations de sécurité
- Documentation pratique Microsoft sur l’utilisation des évaluations de sécurité
- Blog technique sur l’évaluation des risques liés au contenu et à la sécurité dans vos applications d’IA générative