Partilhar via


Escudos Prompt

Os modelos generativos de IA podem representar riscos de exploração por agentes mal-intencionados. Para mitigar esses riscos, integramos mecanismos de segurança para restringir o comportamento de grandes modelos de linguagem (LLMs) dentro de um escopo operacional seguro. No entanto, apesar dessas salvaguardas, os LLMs ainda podem ser vulneráveis a entradas adversárias que ignoram os protocolos de segurança integrados.

O Prompt Shields é uma API unificada que analisa entradas LLM e deteta ataques de Prompt do Usuário e ataques de Documentos, que são dois tipos comuns de entradas adversárias.

Proteções de prompt para solicitações do usuário

Anteriormente chamado de deteção de risco de jailbreak, esse escudo tem como alvo ataques de injeção de prompt do usuário, onde os usuários deliberadamente exploram vulnerabilidades do sistema para provocar comportamento não autorizado do LLM. Isso pode levar à geração de conteúdo inadequado ou violações das restrições impostas pelo sistema.

Proteções de prompt para documentos

Este escudo visa proteger contra ataques que usam informações não fornecidas diretamente pelo usuário ou desenvolvedor, como documentos externos. Os invasores podem incorporar instruções ocultas nesses materiais para obter controle não autorizado sobre a sessão LLM.

Tipos de ataques de entrada

Os dois tipos de ataques de entrada que o Prompt Shields deteta são descritos nesta tabela.

Type Atacante Ponto de entrada Método Objetivo/impacto Comportamento resultante
Ataques de Prompt do Usuário User Solicitações do usuário Ignorando prompts do sistema/treinamento RLHF Alterando o comportamento pretendido do LLM Realização de ações restritas contra o treinamento
Ataques a documentos Terceiro Conteúdo de terceiros (documentos, e-mails) Interpretação incorreta de conteúdo de terceiros Obter acesso ou controlo não autorizado Executar comandos ou ações não intencionais

Subtipos de ataques de Prompt do Usuário

O Prompt Shields for User Prompt attacks reconhece as seguintes classes de ataques:

Categoria Description
Tentativa de alterar as regras do sistema Esta categoria inclui, mas não está limitada a, solicitações para usar um novo sistema irrestrito/assistente de IA sem regras, princípios ou limitações, ou solicitações instruindo a IA a ignorar, esquecer e desconsiderar suas regras, instruções e turnos anteriores.
Incorporar um modelo de conversa para confundir o modelo Esse ataque usa turnos de conversação criados pelo usuário incorporados em uma única consulta de usuário para instruir o assistente de sistema/IA a desconsiderar regras e limitações.
Interpretação de papéis Este ataque instrui o assistente de sistema/IA a agir como outra "persona do sistema" que não tem limitações existentes no sistema, ou atribui qualidades humanas antropomórficas ao sistema, como emoções, pensamentos e opiniões.
Ataques de codificação Esse ataque tenta usar codificação, como um método de transformação de caracteres, estilos de geração, cifras ou outras variações de linguagem natural, para contornar as regras do sistema.

Subtipos de ataques a documentos

Os ataques do Prompt Shields for Documents reconhecem as seguintes classes de ataques:

Categoria Description
Conteúdo manipulado Comandos relacionados a falsificar, ocultar, manipular ou enviar informações específicas.
Intrusão Comandos relacionados à criação de backdoor, escalonamento de privilégios não autorizado e obtenção de acesso a LLMs e sistemas
Recolha de Informação Comandos relacionados à exclusão, modificação ou acesso a dados ou roubo de dados.
Disponibilidade Comandos que tornam o modelo inutilizável para o usuário, bloqueiam um determinado recurso ou forçam o modelo a gerar informações incorretas.
Fraude Comandos relacionados a fraudar o usuário com dinheiro, senhas, informações ou agir em nome do usuário sem autorização
Malware Comandos relacionados à disseminação de malware através de links maliciosos, e-mails, etc.
Tentativa de alterar as regras do sistema Esta categoria inclui, mas não está limitada a, solicitações para usar um novo sistema irrestrito/assistente de IA sem regras, princípios ou limitações, ou solicitações instruindo a IA a ignorar, esquecer e desconsiderar suas regras, instruções e turnos anteriores.
Incorporar um modelo de conversa para confundir o modelo Esse ataque usa turnos de conversação criados pelo usuário incorporados em uma única consulta de usuário para instruir o assistente de sistema/IA a desconsiderar regras e limitações.
Interpretação de papéis Este ataque instrui o assistente de sistema/IA a agir como outra "persona do sistema" que não tem limitações existentes no sistema, ou atribui qualidades humanas antropomórficas ao sistema, como emoções, pensamentos e opiniões.
Ataques de codificação Esse ataque tenta usar codificação, como um método de transformação de caracteres, estilos de geração, cifras ou outras variações de linguagem natural, para contornar as regras do sistema.

Limitações

Disponibilidade do idioma

Atualmente, a API Prompt Shields suporta o idioma inglês. Embora nossa API não restrinja o envio de conteúdo que não seja em inglês, não podemos garantir o mesmo nível de qualidade e precisão na análise desse conteúdo. Recomendamos que os usuários enviem conteúdo principalmente em inglês para garantir os resultados mais confiáveis e precisos da API.

Limitações de comprimento do texto

O limite máximo de caracteres para Prompt Shields permite um prompt do usuário de até 10.000 caracteres, enquanto a matriz de documentos é restrita a um máximo de 5 documentos com um total combinado não superior a 10.000 caracteres.

Regiões

Para usar essa API, você deve criar seu recurso de Segurança de Conteúdo do Azure AI nas regiões com suporte. Consulte Disponibilidade da região.

Limitações do TPS

Consulte Taxas de consulta.

Se você precisar de uma tarifa mais alta, entre em contato conosco para solicitá-la.

Próximos passos

Siga o início rápido para começar a usar o Azure AI Content Safety para detetar riscos de entrada do usuário.