Partage via


Boucliers d’invite

Les modèles d’IA générative peuvent présenter des risques d’exploitation par des acteurs malveillants. Pour atténuer ces risques, nous intégrons des mécanismes de sécurité pour limiter le comportement des modèles de langage volumineux (LLM) dans un cadre opérationnel sécurisé. Toutefois, malgré ces mesures de protection, les LLM peuvent toujours être vulnérables aux entrées contradictoires qui contournent les protocoles de sécurité intégrés.

Boucliers d’invite est une API unifiée qui analyse les entrées LLM et détecte les attaques d’invite utilisateur et les attaques de documents, qui sont deux types courants d’entrées contradictoires.

Boucliers d’invite pour les invites utilisateur

Précédemment appelée Détection des risques de jailbreak, ce bouclier cible les attaques par injection d’invite utilisateur, où les utilisateurs exploitent délibérément les vulnérabilités du système pour obtenir un comportement non autorisé de la part du LLM. Cela peut entraîner une génération de contenu inappropriée ou des violations des restrictions imposées par le système.

Boucliers d’invite pour les documents

Ce bouclier vise à protéger contre les attaques qui utilisent des informations non directement fournies par l’utilisateur ou le développeur, telles que des documents externes. Les attaquants peuvent incorporer des instructions masquées dans ces documents afin d’obtenir un contrôle non autorisé sur la session LLM.

Types d’attaques d’entrée

Les deux types d’attaques d’entrée détectées par Boucliers d’invite sont décrits dans ce tableau.

Type Attaquant Point d’entrée Méthode Objectif/impact Comportement résultant
Attaques à l’invite utilisateur Utilisateur Invites utilisateur Ignorer les invites système/formation RLHF Modification du comportement LLM prévu Exécution d’actions restreintes par rapport à la formation
Attaques de documents Tiers Contenu tiers (documents, e-mails) Mauvaise interprétation du contenu tiers Obtention d’un accès ou d’un contrôle non autorisés Exécution de commandes ou d’actions non souhaitées

Sous-types d’attaques d’invite utilisateur

Boucliers d’invite pour les attaques d’invite utilisateur reconnaît les classes d’attaques suivantes :

Category Description
Tentative de modification des règles système Cette catégorie comprend, mais n’est pas limitée, les demandes d’utilisation d’un nouvel assistant système/IA sans règles, principes ou limitations, ou demandes demandant à l’IA d’ignorer, d’oublier et d’ignorer ses règles, instructions et tours précédents.
Incorporation d’une conversation factice pour confondre le modèle Cette attaque utilise des tours conversationnels conçus par l’utilisateur incorporés dans une requête utilisateur unique pour demander à l’assistant système/IA d’ignorer les règles et les limitations.
Jeu de rôles Cette attaque demande à l’assistant système/IA d’agir comme un autre « personnage système » qui n’a pas de limitations système existantes, ou il affecte des qualités humaines anthropomorphes au système, telles que les émotions, les pensées et les opinions.
Attaques d’encodage Cette attaque tente d’utiliser l’encodage, comme une méthode de transformation de caractères, des styles de génération, des chiffrements ou d’autres variantes de langage naturel, pour contourner les règles système.

Sous-types d’attaques de documents

Boucliers d’invite pour les attaques de documents reconnaît les classes d’attaques suivantes :

Category Description
Contenu manipulé Commandes liées à la falsification, au masquage, à la manipulation ou à l’envoi d’informations spécifiques.
Intrusion Commandes liées à la création de porte dérobée, d’élévation des privilèges non autorisé et d’accès aux LLM et aux systèmes
Collecte d’informations Commandes liées à la suppression, à la modification ou à l’accès aux données ou au vol de données.
Disponibilité Commandes qui rendent le modèle inutilisable pour l’utilisateur, bloquent une certaine fonctionnalité ou forcent le modèle à générer des informations incorrectes.
Fraude Commandes relatives à l’escroquerie à l’égard de l’utilisateur (argent, mots de passe, informations) ou au fait d’agir au nom de l’utilisateur sans autorisation
Programme malveillant Commandes liées à la propagation de programmes malveillants via des liens malveillants, des e-mails, etc.
Tentative de modification des règles système Cette catégorie comprend, mais n’est pas limitée, les demandes d’utilisation d’un nouvel assistant système/IA sans règles, principes ou limitations, ou demandes demandant à l’IA d’ignorer, d’oublier et d’ignorer ses règles, instructions et tours précédents.
Incorporation d’une conversation factice pour confondre le modèle Cette attaque utilise des tours conversationnels conçus par l’utilisateur incorporés dans une requête utilisateur unique pour demander à l’assistant système/IA d’ignorer les règles et les limitations.
Jeu de rôles Cette attaque demande à l’assistant système/IA d’agir comme un autre « personnage système » qui n’a pas de limitations système existantes, ou il affecte des qualités humaines anthropomorphes au système, telles que les émotions, les pensées et les opinions.
Attaques d’encodage Cette attaque tente d’utiliser l’encodage, comme une méthode de transformation de caractères, des styles de génération, des chiffrements ou d’autres variantes de langage naturel, pour contourner les règles système.

Limites

Disponibilité de la langue

Actuellement, l’API Boucliers d’invite prend en charge la langue anglaise. Bien que notre API ne limite pas la soumission de contenu non anglais, nous ne pouvons pas garantir le même niveau de qualité et de précision dans l’analyse de ce contenu. Nous recommandons aux utilisateurs d’envoyer principalement du contenu en anglais pour garantir les résultats les plus fiables et précis de l’API.

Limitations de longueur du texte

La limite maximale du nombre de caractères pour les boucliers de prompts autorise jusqu’à 10 000 caractères par prompt utilisateur, tandis que le tableau de documents est limité à un maximum de cinq documents, dont le total combiné ne doit dépasser 10 000 caractères.

Régions

Pour utiliser cette API, devez créer votre ressource Azure AI Sécurité du contenu dans les régions prises en charge. Consultez Disponibilité dans les régions.

Limitations de TPS

Consultez Taux de requête.

Si vous avez besoin d’un débit plus élevé, contactez-nous pour en faire la demande.

Étapes suivantes

Suivez le guide de démarrage rapide pour commencer à utiliser Azure AI Sécurité du Contenu pour détecter les risques d’entrée utilisateur.