Catégories personnalisées

Article
07/23/2024

Azure AI Sécurité du Contenu vous permet de créer et de gérer vos propres catégories de modération de contenu pour améliorer la modération et le filtrage qui correspondent à vos stratégies ou cas d’utilisation spécifiques.

Types de personnalisation

Il existe plusieurs façons de définir et d’utiliser des catégories personnalisées. Nous vous les expliquons en détail et les comparons dans cette section.

API	Fonctionnalités
API (standard) Catégories personnalisées	Utilisez un modèle Machine Learning personnalisable pour créer, obtenir, interroger et supprimer une catégorie personnalisée. Vous pouvez également répertorier toutes vos catégories personnalisées pour d’autres tâches d’annotation.
API (rapide) Catégories personnalisées	Utilisez un grand modèle de langage (LLM) pour inculquer rapidement des modèles de contenu spécifiques dans le cadre de nouveaux incidents de contenu.

API (standard) Catégories personnalisées

L’API (standard) Catégories personnalisées permet aux clients de définir des catégories spécifiques à leurs besoins, de fournir des exemples de données, d’entraîner un modèle Machine Learning personnalisé et de les utiliser pour classer le nouveau contenu en fonction des catégories inculquées.

Il s’agit du flux de travail standard pour la personnalisation avec des modèles Machine Learning. Selon la qualité des données d’entraînement, le modèle peut atteindre de très bons niveaux de performances, mais plusieurs heures d’entraînement peuvent être nécessaires.

Cette implémentation se base sur le contenu du texte, et non sur le contenu de l’image.

API Catégories personnalisées (rapide)

L’API (rapide) Catégories personnalisées est conçue pour être plus rapide et plus flexible que la méthode standard. Elle est destinée à être utilisée pour identifier, analyser, contenir, éradiquer et se remettre des cyber-incidents impliquant du contenu inapproprié ou dangereux sur des plateformes en ligne.

Un incident peut impliquer un ensemble de nouveaux modèles de contenu (texte, image ou autres modalités) qui enfreignent les instructions de la communauté Microsoft ou les stratégies et attentes propres aux clients. Ces incidents doivent être atténués rapidement et avec précision pour éviter des problèmes potentiels en direct sur le site ou des préjudices aux utilisateurs et aux communautés.

Cette implémentation se base sur le contenu du texte ainsi que sur celui de l’image.

Conseil

Une façon de traiter les nouveaux incidents de contenu consiste à utiliser des listes de blocage, mais cela permet uniquement la reconnaissance de texte exact et aucune reconnaissance d’image. L’API (rapide) Catégories personnalisées offre les fonctionnalités avancées suivantes :

reconnaissance de texte sémantique à l’aide de la recherche incorporée avec un classifieur léger
reconnaissance d’image avec un modèle de suivi d’objet léger et recherche incorporée.

La fonctionnalité de catégorie personnalisée Azure AI Sécurité du Contenu utilise un processus en plusieurs étapes pour la création, l’entraînement et l’utilisation de modèles de classification de contenu personnalisé. Voici un aperçu du flux de travail :

Étape 1 : Définition et configuration

Lorsque vous définissez une catégorie personnalisée, vous devez inculquer à l’IA le type de contenu que vous souhaitez identifier. Cela implique de fournir un nom de catégorie clair et une définition détaillée qui encapsule les caractéristiques du contenu.

Ensuite, vous devez collecter un jeu de données équilibré avec des exemples positifs et (éventuellement) négatifs pour aider l’IA à apprendre les nuances de votre catégorie. Ces données doivent être représentatives de la variété de contenu que le modèle rencontrera dans un scénario concret.

Étape 2 :Entraînement du modèle

Après avoir préparé votre jeu de données et défini des catégories, le service Azure AI Sécurité du Contenu entraîne un nouveau modèle de Machine Learning. Ce modèle utilise vos définitions et le jeu de données que vous chargé pour procéder à l’augmentation des données à l’aide d’un grand modèle de langage. Par conséquent, le jeu de données d’entraînement est agrandi et de meilleure qualité. Pendant l’entraînement, le modèle IA analyse les données et apprend à différencier le contenu qui correspond ou non à la catégorie et au contenu spécifiés.

Étape 3 : Inférence du modèle

Après l’entraînement, vous devez évaluer le modèle pour vous assurer qu’il répond à vos exigences en matière de précision. Testez le modèle avec un nouveau contenu qui ne lui a pas été soumis précédemment. La phase d’évaluation vous permet d’identifier tout ajustement potentiel nécessaire au déploiement du modèle dans un environnement de production.

Étape 4 : Utilisation du modèle

Vous utilisez l’API analyzeCustomCategory pour analyser le contenu du texte et déterminer s’il correspond à la catégorie personnalisée que vous avez définie. Le service retourne une valeur booléenne indiquant si le contenu correspond à la catégorie spécifiée

Limites

Disponibilité de la langue

Les API Catégories personnalisées prennent en charge toutes les langues prises en charge par la modération de texte de la Sécurité du Contenu. Consultez Prise en charge des langues.

Limites d’entrée

API (standard) Catégories personnalisées
API (rapide) Catégories personnalisées

Consultez le tableau suivant pour connaître les limitations des entrées de l’API (standard) Catégories personnalisées :

Object	Limitation
Langues prises en charge	Anglais seulement
Nombre de catégories par utilisateur	3
Nombre de versions par catégorie	3
Nombre de générations simultanées (processus) par catégorie	1
Opérations d’inférence par seconde	5
Nombre d’exemples dans une version de catégorie	Exemples positifs (requis) : minimum 50, maximum 5 000 Total (exemples négatifs et positifs) : 10 000 Aucun doublon d’exemple n’est autorisé.
Taille de fichier de l’exemple	128 000 octets au maximum
Longueur d’un exemple de texte	maximum 125 000 caractères
Longueur d’une définition de catégorie	maximum 1 000 caractères
Longueur d’un nom de catégorie	maximum 128 caractères
Longueur d’une URL d’objet blob	maximum 500 caractères

Consultez le tableau suivant pour connaître les limitations des entrées de l’API Catégories personnalisées (rapides) :

Objet	Limitation
Longueur maximale du nom d’incident	100 caractères
Nombre maximal d’échantillons de texte/image par incident	1 000
Taille maximale de chaque échantillon	Texte : 500 caractères Image : 4 Mo
Nombre maximal d’incidents de texte ou d’image par ressource	100
Formats d’image pris en charge :	BMP, GIF, JPEG, PNG, TIF, WEBP

Disponibilité dans les régions

Pour utiliser cette API, devez créer votre ressource Azure AI Sécurité du Contenu dans une des régions prises en charge. Consultez Disponibilité dans les régions.

Étapes suivantes

Suivez un guide pratique relatif à l’utilisation des API Azure AI Sécurité du Contenu pour créer des catégories personnalisées.

Partager via