Appliquer les vérifications de sécurité du contenu sur les requêtes LLM

2025-06-01

La llm-content-safety stratégie applique des vérifications de sécurité du contenu sur les demandes de modèle de langage volumineux (invites) en les transmettant au service Azure AI Content Safety avant d’envoyer à l’API LLM back-end. Lorsque la stratégie est activée et qu’Azure AI Content Safety détecte du contenu malveillant, Gestion des API bloque la requête et retourne un code d’erreur 403 .

Utilisez la stratégie dans des scénarios tels que les suivants :

Bloquer les requêtes qui contiennent des catégories prédéfinies de contenu dangereux ou de discours haineux
Appliquer des listes de blocage personnalisées pour empêcher l’envoi d’un contenu spécifique
Protéger contre les invites qui correspondent aux modèles d’attaque

Remarque

Définissez les éléments de stratégie et les éléments enfants dans l’ordre fourni dans la déclaration de politique. En savoir plus sur comment définir ou modifier des stratégies du service Gestion des API.

Conditions préalables

Ressource Azure AI Content Safety .
Un back-end Gestion des API configuré pour acheminer les appels d’API de sécurité du contenu et s’authentifier auprès du service Azure AI Content Safety, sous la forme https://<content-safety-service-name>.cognitiveservices.azure.com. L’identité managée avec le rôle d’utilisateur Cognitive Services est recommandée pour l’authentification.

Déclaration de politique

<llm-content-safety backend-id="name of backend entity" shield-prompt="true | false" >
    <categories output-type="FourSeverityLevels | EightSeverityLevels">
        <category name="Hate | SelfHarm | Sexual | Violence" threshold="integer" />
        <!-- If there are multiple categories, add more category elements -->
        [...]
    </categories>
    <blocklists>
        <id>blocklist-identifier</id>
        <!-- If there are multiple blocklists, add more id elements -->
        [...]
    </blocklists>
</llm-content-safety>

Attributs

Caractéristique	Descriptif	Obligatoire	Par défaut
id de principal	Identificateur (nom) du back-end Azure AI Content Safety pour acheminer les appels d’API de sécurité du contenu vers. Les expressions de stratégie sont autorisées.	Oui	N/A
shield-prompt	Si la valeur est définie `true`, le contenu est vérifié pour les attaques utilisateur. Sinon, ignorez cette vérification. Les expressions de stratégie sont autorisées.	Non	`false`

Éléments

Élément	Descriptif	Obligatoire
catégories	Liste d’éléments `category` qui spécifient des paramètres pour bloquer les demandes lorsque la catégorie est détectée.	Non
blocklists	Liste des éléments de liste`id` de blocs de l’instance Azure AI Content Safety pour laquelle la détection provoque le blocage de la requête. Les expressions de stratégie sont autorisées.	Non

attributs de catégories

Caractéristique	Descriptif	Obligatoire	Par défaut
type de sortie	Spécifie la façon dont les niveaux de gravité sont retournés par Azure AI Content Safety. L’attribut doit avoir l’une des valeurs suivantes. - `FourSeverityLevels`: gravités de sortie en quatre niveaux : 0,2,4,6. - `EightSeverityLevels`: gravités de sortie dans huit niveaux : 0,1,2,3,4,5,6,7. Les expressions de stratégie sont autorisées.	Non	`FourSeverityLevels`

attributs de catégorie

Caractéristique	Descriptif	Obligatoire	Par défaut
nom	Spécifie le nom de cette catégorie. L’attribut doit avoir l’une des valeurs suivantes : `Hate`, , `SelfHarmSexual`, `Violence`. Les expressions de stratégie sont autorisées.	Oui	N/A
seuil	Spécifie la valeur de seuil de cette catégorie à laquelle la demande est bloquée. Les demandes avec des gravités de contenu inférieures au seuil ne sont pas bloquées. La valeur doit être comprise entre 0 et 7. Les expressions de stratégie sont autorisées.	Oui	N/A

Utilisation

Sections de la stratégie : inbound
Étendues de la stratégie : global, espace de travail, produit, API
Passerelles : classiques, v2, consommation, auto-hébergées, espace de travail

Notes d’utilisation

La stratégie s’exécute sur une concaténation de tout le contenu texte dans une demande de saisie semi-automatique ou de conversation.
Si la requête dépasse la limite de caractères d’Azure AI Content Safety, une 403 erreur est retournée.
Cette stratégie peut être utilisée plusieurs fois par définition de stratégie.

Exemple :

L’exemple suivant applique des contrôles de sécurité de contenu sur les requêtes LLM à l’aide du service Azure AI Content Safety. La stratégie bloque les requêtes qui contiennent la parole dans la ou Hate la Violence catégorie avec un niveau de gravité de 4 ou supérieur. L’attribut shield-prompt est défini pour true vérifier les attaques contradictoires.

<policies>
    <inbound>
        <llm-content-safety backend-id="content-safety-backend" shield-prompt="true">
            <categories output-type="EightSeverityLevels">
                <category name="Hate" threshold="4" />
                <category name="Violence" threshold="4" />
            </categories>
        </llm-content-safety>
    </inbound>
</policies>

Pour plus d’informations sur l’utilisation des stratégies, consultez :

Tutoriel : Transformer et protéger votre API
Référence de politique pour obtenir la liste complète des déclarations et des paramètres de politique
Expressions de stratégie
Définir ou modifier des stratégies
Réutiliser les configurations de stratégie
Répertoire de fragments de politiques
Dépôt de terrain de jeu de stratégie
Ensemble de stratégies de gestion des API Azure
Obtenez de l’aide de Copilot pour créer, expliquer et dépanner des politiques

Partager via