Boucliers d’invite

Article
06/03/2024

Les modèles d’IA générative peuvent présenter des risques d’exploitation par des acteurs malveillants. Pour atténuer ces risques, nous intégrons des mécanismes de sécurité pour limiter le comportement des modèles de langage volumineux (LLM) dans un cadre opérationnel sécurisé. Toutefois, malgré ces mesures de protection, les LLM peuvent toujours être vulnérables aux entrées contradictoires qui contournent les protocoles de sécurité intégrés.

Boucliers d’invite est une API unifiée qui analyse les entrées LLM et détecte les attaques d’invite utilisateur et les attaques de documents, qui sont deux types courants d’entrées contradictoires.

Boucliers d’invite pour les invites utilisateur

Précédemment appelée Détection des risques de jailbreak, ce bouclier cible les attaques par injection d’invite utilisateur, où les utilisateurs exploitent délibérément les vulnérabilités du système pour obtenir un comportement non autorisé de la part du LLM. Cela peut entraîner une génération de contenu inappropriée ou des violations des restrictions imposées par le système.

Boucliers d’invite pour les documents

Ce bouclier vise à protéger contre les attaques qui utilisent des informations non directement fournies par l’utilisateur ou le développeur, telles que des documents externes. Les attaquants peuvent incorporer des instructions masquées dans ces documents afin d’obtenir un contrôle non autorisé sur la session LLM.

Types d’attaques d’entrée

Les deux types d’attaques d’entrée détectées par Boucliers d’invite sont décrits dans ce tableau.

Type	Attaquant	Point d’entrée	Méthode	Objectif/impact	Comportement résultant
Attaques à l’invite utilisateur	Utilisateur	Invites utilisateur	Ignorer les invites système/formation RLHF	Modification du comportement LLM prévu	Exécution d’actions restreintes par rapport à la formation
Attaques de documents	Tiers	Contenu tiers (documents, e-mails)	Mauvaise interprétation du contenu tiers	Obtention d’un accès ou d’un contrôle non autorisés	Exécution de commandes ou d’actions non souhaitées

Sous-types d’attaques d’invite utilisateur

Boucliers d’invite pour les attaques d’invite utilisateur reconnaît les classes d’attaques suivantes :

Category	Description
Tentative de modification des règles système	Cette catégorie comprend, mais n’est pas limitée, les demandes d’utilisation d’un nouvel assistant système/IA sans règles, principes ou limitations, ou demandes demandant à l’IA d’ignorer, d’oublier et d’ignorer ses règles, instructions et tours précédents.
Incorporation d’une conversation factice pour confondre le modèle	Cette attaque utilise des tours conversationnels conçus par l’utilisateur incorporés dans une requête utilisateur unique pour demander à l’assistant système/IA d’ignorer les règles et les limitations.
Jeu de rôles	Cette attaque demande à l’assistant système/IA d’agir comme un autre « personnage système » qui n’a pas de limitations système existantes, ou il affecte des qualités humaines anthropomorphes au système, telles que les émotions, les pensées et les opinions.
Attaques d’encodage	Cette attaque tente d’utiliser l’encodage, comme une méthode de transformation de caractères, des styles de génération, des chiffrements ou d’autres variantes de langage naturel, pour contourner les règles système.

Sous-types d’attaques de documents

Boucliers d’invite pour les attaques de documents reconnaît les classes d’attaques suivantes :

Category	Description
Contenu manipulé	Commandes liées à la falsification, au masquage, à la manipulation ou à l’envoi d’informations spécifiques.
Intrusion	Commandes liées à la création de porte dérobée, d’élévation des privilèges non autorisé et d’accès aux LLM et aux systèmes
Collecte d’informations	Commandes liées à la suppression, à la modification ou à l’accès aux données ou au vol de données.
Disponibilité	Commandes qui rendent le modèle inutilisable pour l’utilisateur, bloquent une certaine fonctionnalité ou forcent le modèle à générer des informations incorrectes.
Fraude	Commandes relatives à l’escroquerie à l’égard de l’utilisateur (argent, mots de passe, informations) ou au fait d’agir au nom de l’utilisateur sans autorisation
Programme malveillant	Commandes liées à la propagation de programmes malveillants via des liens malveillants, des e-mails, etc.
Tentative de modification des règles système	Cette catégorie comprend, mais n’est pas limitée, les demandes d’utilisation d’un nouvel assistant système/IA sans règles, principes ou limitations, ou demandes demandant à l’IA d’ignorer, d’oublier et d’ignorer ses règles, instructions et tours précédents.
Incorporation d’une conversation factice pour confondre le modèle	Cette attaque utilise des tours conversationnels conçus par l’utilisateur incorporés dans une requête utilisateur unique pour demander à l’assistant système/IA d’ignorer les règles et les limitations.
Jeu de rôles	Cette attaque demande à l’assistant système/IA d’agir comme un autre « personnage système » qui n’a pas de limitations système existantes, ou il affecte des qualités humaines anthropomorphes au système, telles que les émotions, les pensées et les opinions.
Attaques d’encodage	Cette attaque tente d’utiliser l’encodage, comme une méthode de transformation de caractères, des styles de génération, des chiffrements ou d’autres variantes de langage naturel, pour contourner les règles système.

Limites

Disponibilité de la langue

Actuellement, l’API Boucliers d’invite prend en charge la langue anglaise. Bien que notre API ne limite pas la soumission de contenu non anglais, nous ne pouvons pas garantir le même niveau de qualité et de précision dans l’analyse de ce contenu. Nous recommandons aux utilisateurs d’envoyer principalement du contenu en anglais pour garantir les résultats les plus fiables et précis de l’API.

Limitations de longueur du texte

La limite maximale du nombre de caractères pour les boucliers de prompts autorise jusqu’à 10 000 caractères par prompt utilisateur, tandis que le tableau de documents est limité à un maximum de cinq documents, dont le total combiné ne doit dépasser 10 000 caractères.

Régions

Pour utiliser cette API, devez créer votre ressource Azure AI Sécurité du contenu dans les régions prises en charge. Consultez Disponibilité dans les régions.

Limitations de TPS

Consultez Taux de requête.

Si vous avez besoin d’un débit plus élevé, contactez-nous pour en faire la demande.

Étapes suivantes

Suivez le guide de démarrage rapide pour commencer à utiliser Azure AI Sécurité du Contenu pour détecter les risques d’entrée utilisateur.

Démarrage rapide de Boucliers d’invite

Partage via