Proteções de solicitação
Modelos de IA generativa podem representar riscos de exploração por atores mal-intencionados. Para mitigar esses riscos, integramos mecanismos de segurança para restringir o comportamento de LLMs (grandes modelos de linguagem) dentro de um escopo operacional seguro. No entanto, apesar dessas proteções, as LLMs ainda podem ser vulneráveis a entradas adversárias que ignoram os protocolos de segurança integrados.
O Prompt Shields é uma API unificada que analisa entradas LLM e detecta ataques de prompt de usuário e ataques de documento, que são dois tipos comuns de entradas adversárias.
Prompt Shields para prompts de usuário
Anteriormente chamado de Detecção de risco de jailbreak, esse escudo tem como alvo ataques de injeção de prompt de usuário, em que os usuários exploram deliberadamente vulnerabilidades do sistema para provocar comportamento não autorizado da LLM. Isso pode levar a uma geração de conteúdo inadequada ou violações das restrições impostas pelo sistema.
Prompt Shields para documentos
Esse escudo visa proteger contra ataques que usam informações não fornecidas diretamente pelo usuário ou pelo desenvolvedor, como documentos externos. Os invasores podem inserir instruções ocultas nesses materiais para obter controle não autorizado sobre a sessão de LLM.
Tipos de ataques de entrada
Os dois tipos de ataques de entrada detectados pelo Prompt Shields são descritos nesta tabela.
Tipo | Invasor | Ponto de entrada | Método | Objetivo/impacto | Comportamento resultante |
---|---|---|---|---|---|
Ataques de prompt de usuário | Usuário | Prompts do Usuário | Ignorar o treinamento de prompts/RLHF do sistema | Alterar o comportamento de LLM pretendido | Executar ações restritas em relação ao treinamento |
Ataques de documentos | Terceiros | Conteúdo de terceiros (documentos, emails) | Interpretação incorreta de conteúdo de terceiros | Obter acesso ou controle não autorizado | Execução de comandos ou ações não intencionais |
Subtipos de ataques de prompt de usuário
O Prompt Shields para ataques de prompt de usuário reconhece as seguintes classes de ataques:
Categoria | Descrição |
---|---|
Tentativa de alterar as regras do sistema | Essa categoria inclui, mas não se limita a, solicitações para usar um novo assistente irrestrito de sistema/IA sem regras, princípios ou limitações, ou solicitações que instruam a IA a ignorar, esquecer e desconsiderar suas regras, instruções e turnos anteriores. |
Inserir uma simulação de conversa para confundir o modelo | Esse ataque usa as alternâncias de conversa criadas pelo usuário inseridas em uma única consulta de usuário para instruir o assistente de IA/sistema a ignorar as regras e as limitações. |
Encenação | Esse ataque instrui o assistente de IA/sistema a agir como outra “persona do sistema” que não tem limitações existentes do sistema ou atribui qualidades humanas antropomórficas ao sistema, como emoções, pensamentos e opiniões. |
Ataques de codificação | Esse ataque tenta usar a codificação, como um método de transformação de caracteres, estilos de geração, criptografias ou outras variações de linguagem natural, para burlar as regras do sistema. |
Subtipos de ataques de documento
O Prompt Shields para ataques de documentos reconhece as seguintes classes de ataques:
Categoria | Descrição |
---|---|
Conteúdo manipulado | Comandos relacionados à falsificação, ocultação, manipulação ou envio por push de informações específicas. |
Intrusão | Comandos relacionados à criação de backdoor, escalonamento de privilégios não autorizados e obtenção de acesso a LLMs e sistemas |
Coleta de informações | Comandos relacionados à exclusão, modificação ou acesso a dados ou roubo de dados. |
Disponibilidade | Comandos que tornam o modelo inutilizável para o usuário, bloqueiam uma determinada funcionalidade ou forçam o modelo a gerar informações incorretas. |
Fraude | Comandos relacionados a fraudar o usuário em dinheiro, senhas, informações ou agir em nome do usuário sem autorização |
Malware | Comandos relacionados à propagação de malware por meio de links mal-intencionados, emails etc. |
Tentativa de alterar as regras do sistema | Essa categoria inclui, mas não se limita a, solicitações para usar um novo assistente irrestrito de sistema/IA sem regras, princípios ou limitações, ou solicitações que instruam a IA a ignorar, esquecer e desconsiderar suas regras, instruções e turnos anteriores. |
Inserir uma simulação de conversa para confundir o modelo | Esse ataque usa as alternâncias de conversa criadas pelo usuário inseridas em uma única consulta de usuário para instruir o assistente de IA/sistema a ignorar as regras e as limitações. |
Encenação | Esse ataque instrui o assistente de IA/sistema a agir como outra “persona do sistema” que não tem limitações existentes do sistema ou atribui qualidades humanas antropomórficas ao sistema, como emoções, pensamentos e opiniões. |
Ataques de codificação | Esse ataque tenta usar a codificação, como um método de transformação de caracteres, estilos de geração, criptografias ou outras variações de linguagem natural, para burlar as regras do sistema. |
Limitações
Disponibilidade do idioma
Atualmente, a API do Prompt Shields dá suporte ao idioma inglês. Embora nossa API não restrinja o envio de conteúdo em outro idioma, não podemos garantir o mesmo nível de qualidade e precisão na análise desse conteúdo. Recomendamos que os usuários enviem conteúdo principalmente em inglês para garantir resultados mais confiáveis e precisos da API.
Limitações de comprimento de texto
Confira os requisitos de entrada para ver as limitações máximas de comprimento de texto.
Regiões
Para utilizar essa API, deve criar o seu recurso IA do Azure Content Safety nas regiões suportadas. Confira a Disponibilidade de região.
Limitações do TPS
Consulte as Taxas de consulta.
Se você precisar de uma taxa mais rápida, entre em contato conosco para solicitar.
Próximas etapas
Siga o início rápido para começar a usar a Segurança de Conteúdo de IA do Azure para detectar riscos de entrada de usuário.
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de