Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Ce guide vous montre comment gérer les faux positifs et les faux négatifs des modèles Azure AI Content Safety.
Les faux positifs se produisent lorsque le système signale incorrectement le contenu non dangereux comme dangereux ; les faux négatifs se produisent lorsque le contenu dangereux n’est pas marqué comme dangereux. Résolvez ces instances pour garantir l’intégrité et la fiabilité de votre processus de modération de contenu, y compris le déploiement d’intelligence artificielle générative responsable.
Prérequis
- Un abonnement Azure - En créer un gratuitement
- Une fois que vous avez votre abonnement Azure, créez une ressource Content Safety dans le portail Azure pour obtenir votre clé et votre point de terminaison. Entrez un nom unique pour votre ressource, sélectionnez votre abonnement, puis sélectionnez un groupe de ressources, une région prise en charge (voir disponibilité région) et le niveau tarifaire pris en charge. Sélectionnez ensuite Créer.
Validation et vérification
Effectuez une évaluation initiale pour confirmer que vous avez vraiment un faux positif ou faux négatif. Cela peut impliquer :
- Vérification du contexte du contenu avec indicateur.
- Comparaison du contenu signalé par rapport aux catégories de risques de contenu et aux définitions des niveaux de gravité :
- Si vous utilisez guardrails et contrôles dans Azure OpenAI, consultez la documentation de filtrage de contenu Azure OpenAI.
- Si vous utilisez l’API autonome Azure AI Sécurité du Contenu, consultez la documentation catégories de préjudice ou la documentation Prompt Shields, en fonction de l’API que vous utilisez.
Personnaliser vos paramètres de gravité
Si votre évaluation confirme que vous avez trouvé un faux positif ou faux négatif, vous pouvez essayer de personnaliser vos paramètres de gravité pour atténuer le problème. Les paramètres dépendent de la plateforme que vous utilisez.
Si vous utilisez directement l’API autonome Azure AI Sécurité du Contenu, essayez d’expérimenter en définissant le seuil de gravité à différents niveaux pour catégories de préjudices en fonction de la sortie de l’API. Alternativement, si vous préférez l’approche sans code, vous pouvez essayer ces paramètres dans Content Safety Studio ou sur la page Content Safety d’Azure AI Foundry. Vous trouverez des instructions ici.
En plus d’ajuster les niveaux de gravité pour les faux négatifs, vous pouvez également utiliser des listes de blocs. Vous trouverez plus d’informations sur l’utilisation de listes de blocs pour la modération du texte dans Utiliser des listes de blocs pour la modération du texte.
Créer une catégorie personnalisée basée sur votre propre stratégie RAI
Parfois, vous devrez peut-être créer une catégorie personnalisée pour vous assurer que le filtrage s’aligne sur votre stratégie d’IA responsable spécifique, car les catégories prédéfinies ou le filtrage de contenu peuvent ne pas suffire.
Reportez-vous à la documentation Catégories personnalisées pour créer vos propres catégories avec l’API Azure AI Sécurité du Contenu.
Documenter les problèmes et envoyer des commentaires à Azure
Si, après avoir essayé toutes les étapes mentionnées ci-dessus, Azure AI Sécurité du Contenu ne peut toujours pas résoudre les faux positifs ou négatifs, il existe probablement une définition de stratégie ou un problème de modèle qui a besoin d’une attention supplémentaire.
Documentez les détails des faux positifs et/ou des faux négatifs en fournissant les informations suivantes à l’équipe de support technique Sécurité du contenu:
- Description du contenu avec indicateur.
- Contexte dans lequel le contenu a été publié.
- Raison donnée par Azure AI Sécurité du Contenu pour l’indicateur (si positif).
- Explication de la raison pour laquelle le contenu est un faux positif ou négatif.
- Tous les ajustements déjà tentés en ajustant les paramètres de gravité ou en utilisant des catégories personnalisées.
- Captures d’écran ou journaux des réponses système et contenu avec indicateur.
Cette documentation permet d’élever le problème aux équipes appropriées pour la résolution.