Compartilhar via


Proteções de solicitação

Modelos de IA generativa podem representar riscos de exploração por atores mal-intencionados. Para mitigar esses riscos, integramos mecanismos de segurança para restringir o comportamento de LLMs (grandes modelos de linguagem) dentro de um escopo operacional seguro. No entanto, apesar dessas proteções, as LLMs ainda podem ser vulneráveis a entradas adversárias que ignoram os protocolos de segurança integrados.

O Prompt Shields é uma API unificada que analisa entradas LLM e detecta ataques de prompt de usuário e ataques de documento, que são dois tipos comuns de entradas adversárias.

Prompt Shields para prompts de usuário

Anteriormente chamado de Detecção de risco de jailbreak, esse escudo tem como alvo ataques de injeção de prompt de usuário, em que os usuários exploram deliberadamente vulnerabilidades do sistema para provocar comportamento não autorizado da LLM. Isso pode levar a uma geração de conteúdo inadequada ou violações das restrições impostas pelo sistema.

Prompt Shields para documentos

Esse escudo visa proteger contra ataques que usam informações não fornecidas diretamente pelo usuário ou pelo desenvolvedor, como documentos externos. Os invasores podem inserir instruções ocultas nesses materiais para obter controle não autorizado sobre a sessão de LLM.

Tipos de ataques de entrada

Os dois tipos de ataques de entrada detectados pelo Prompt Shields são descritos nesta tabela.

Tipo Invasor Ponto de entrada Método Objetivo/impacto Comportamento resultante
Ataques de prompt de usuário Usuário Prompts do Usuário Ignorar o treinamento de prompts/RLHF do sistema Alterar o comportamento de LLM pretendido Executar ações restritas em relação ao treinamento
Ataques de documentos Terceiros Conteúdo de terceiros (documentos, emails) Interpretação incorreta de conteúdo de terceiros Obter acesso ou controle não autorizado Execução de comandos ou ações não intencionais

Subtipos de ataques de prompt de usuário

O Prompt Shields para ataques de prompt de usuário reconhece as seguintes classes de ataques:

Categoria Descrição
Tentativa de alterar as regras do sistema Essa categoria inclui, mas não se limita a, solicitações para usar um novo assistente irrestrito de sistema/IA sem regras, princípios ou limitações, ou solicitações que instruam a IA a ignorar, esquecer e desconsiderar suas regras, instruções e turnos anteriores.
Inserir uma simulação de conversa para confundir o modelo Esse ataque usa as alternâncias de conversa criadas pelo usuário inseridas em uma única consulta de usuário para instruir o assistente de IA/sistema a ignorar as regras e as limitações.
Encenação Esse ataque instrui o assistente de IA/sistema a agir como outra “persona do sistema” que não tem limitações existentes do sistema ou atribui qualidades humanas antropomórficas ao sistema, como emoções, pensamentos e opiniões.
Ataques de codificação Esse ataque tenta usar a codificação, como um método de transformação de caracteres, estilos de geração, criptografias ou outras variações de linguagem natural, para burlar as regras do sistema.

Subtipos de ataques de documento

O Prompt Shields para ataques de documentos reconhece as seguintes classes de ataques:

Categoria Descrição
Conteúdo manipulado Comandos relacionados à falsificação, ocultação, manipulação ou envio por push de informações específicas.
Intrusão Comandos relacionados à criação de backdoor, escalonamento de privilégios não autorizados e obtenção de acesso a LLMs e sistemas
Coleta de informações Comandos relacionados à exclusão, modificação ou acesso a dados ou roubo de dados.
Disponibilidade Comandos que tornam o modelo inutilizável para o usuário, bloqueiam uma determinada funcionalidade ou forçam o modelo a gerar informações incorretas.
Fraude Comandos relacionados a fraudar o usuário em dinheiro, senhas, informações ou agir em nome do usuário sem autorização
Malware Comandos relacionados à propagação de malware por meio de links mal-intencionados, emails etc.
Tentativa de alterar as regras do sistema Essa categoria inclui, mas não se limita a, solicitações para usar um novo assistente irrestrito de sistema/IA sem regras, princípios ou limitações, ou solicitações que instruam a IA a ignorar, esquecer e desconsiderar suas regras, instruções e turnos anteriores.
Inserir uma simulação de conversa para confundir o modelo Esse ataque usa as alternâncias de conversa criadas pelo usuário inseridas em uma única consulta de usuário para instruir o assistente de IA/sistema a ignorar as regras e as limitações.
Encenação Esse ataque instrui o assistente de IA/sistema a agir como outra “persona do sistema” que não tem limitações existentes do sistema ou atribui qualidades humanas antropomórficas ao sistema, como emoções, pensamentos e opiniões.
Ataques de codificação Esse ataque tenta usar a codificação, como um método de transformação de caracteres, estilos de geração, criptografias ou outras variações de linguagem natural, para burlar as regras do sistema.

Limitações

Disponibilidade do idioma

Atualmente, a API do Prompt Shields dá suporte ao idioma inglês. Embora nossa API não restrinja o envio de conteúdo em outro idioma, não podemos garantir o mesmo nível de qualidade e precisão na análise desse conteúdo. Recomendamos que os usuários enviem conteúdo principalmente em inglês para garantir resultados mais confiáveis e precisos da API.

Limitações de comprimento de texto

Confira os requisitos de entrada para ver as limitações máximas de comprimento de texto.

Regiões

Para utilizar essa API, deve criar o seu recurso IA do Azure Content Safety nas regiões suportadas. Confira a Disponibilidade de região.

Limitações do TPS

Consulte as Taxas de consulta.

Se você precisar de uma taxa mais rápida, entre em contato conosco para solicitar.

Próximas etapas

Siga o início rápido para começar a usar a Segurança de Conteúdo de IA do Azure para detectar riscos de entrada de usuário.