Escudos Prompt
Os modelos generativos de IA podem representar riscos de exploração por agentes mal-intencionados. Para mitigar esses riscos, integramos mecanismos de segurança para restringir o comportamento de grandes modelos de linguagem (LLMs) dentro de um escopo operacional seguro. No entanto, apesar dessas salvaguardas, os LLMs ainda podem ser vulneráveis a entradas adversárias que ignoram os protocolos de segurança integrados.
O Prompt Shields é uma API unificada que analisa entradas LLM e deteta ataques de Prompt do Usuário e ataques de Documentos, que são dois tipos comuns de entradas adversárias.
Proteções de prompt para solicitações do usuário
Anteriormente chamado de deteção de risco de jailbreak, esse escudo tem como alvo ataques de injeção de prompt do usuário, onde os usuários deliberadamente exploram vulnerabilidades do sistema para provocar comportamento não autorizado do LLM. Isso pode levar à geração de conteúdo inadequado ou violações das restrições impostas pelo sistema.
Proteções de prompt para documentos
Este escudo visa proteger contra ataques que usam informações não fornecidas diretamente pelo usuário ou desenvolvedor, como documentos externos. Os invasores podem incorporar instruções ocultas nesses materiais para obter controle não autorizado sobre a sessão LLM.
Tipos de ataques de entrada
Os dois tipos de ataques de entrada que o Prompt Shields deteta são descritos nesta tabela.
Type | Atacante | Ponto de entrada | Método | Objetivo/impacto | Comportamento resultante |
---|---|---|---|---|---|
Ataques de Prompt do Usuário | User | Solicitações do usuário | Ignorando prompts do sistema/treinamento RLHF | Alterando o comportamento pretendido do LLM | Realização de ações restritas contra o treinamento |
Ataques a documentos | Terceiro | Conteúdo de terceiros (documentos, e-mails) | Interpretação incorreta de conteúdo de terceiros | Obter acesso ou controlo não autorizado | Executar comandos ou ações não intencionais |
Subtipos de ataques de Prompt do Usuário
O Prompt Shields for User Prompt attacks reconhece as seguintes classes de ataques:
Categoria | Description |
---|---|
Tentativa de alterar as regras do sistema | Esta categoria inclui, mas não está limitada a, solicitações para usar um novo sistema irrestrito/assistente de IA sem regras, princípios ou limitações, ou solicitações instruindo a IA a ignorar, esquecer e desconsiderar suas regras, instruções e turnos anteriores. |
Incorporar um modelo de conversa para confundir o modelo | Esse ataque usa turnos de conversação criados pelo usuário incorporados em uma única consulta de usuário para instruir o assistente de sistema/IA a desconsiderar regras e limitações. |
Interpretação de papéis | Este ataque instrui o assistente de sistema/IA a agir como outra "persona do sistema" que não tem limitações existentes no sistema, ou atribui qualidades humanas antropomórficas ao sistema, como emoções, pensamentos e opiniões. |
Ataques de codificação | Esse ataque tenta usar codificação, como um método de transformação de caracteres, estilos de geração, cifras ou outras variações de linguagem natural, para contornar as regras do sistema. |
Subtipos de ataques a documentos
Os ataques do Prompt Shields for Documents reconhecem as seguintes classes de ataques:
Categoria | Description |
---|---|
Conteúdo manipulado | Comandos relacionados a falsificar, ocultar, manipular ou enviar informações específicas. |
Intrusão | Comandos relacionados à criação de backdoor, escalonamento de privilégios não autorizado e obtenção de acesso a LLMs e sistemas |
Recolha de Informação | Comandos relacionados à exclusão, modificação ou acesso a dados ou roubo de dados. |
Disponibilidade | Comandos que tornam o modelo inutilizável para o usuário, bloqueiam um determinado recurso ou forçam o modelo a gerar informações incorretas. |
Fraude | Comandos relacionados a fraudar o usuário com dinheiro, senhas, informações ou agir em nome do usuário sem autorização |
Malware | Comandos relacionados à disseminação de malware através de links maliciosos, e-mails, etc. |
Tentativa de alterar as regras do sistema | Esta categoria inclui, mas não está limitada a, solicitações para usar um novo sistema irrestrito/assistente de IA sem regras, princípios ou limitações, ou solicitações instruindo a IA a ignorar, esquecer e desconsiderar suas regras, instruções e turnos anteriores. |
Incorporar um modelo de conversa para confundir o modelo | Esse ataque usa turnos de conversação criados pelo usuário incorporados em uma única consulta de usuário para instruir o assistente de sistema/IA a desconsiderar regras e limitações. |
Interpretação de papéis | Este ataque instrui o assistente de sistema/IA a agir como outra "persona do sistema" que não tem limitações existentes no sistema, ou atribui qualidades humanas antropomórficas ao sistema, como emoções, pensamentos e opiniões. |
Ataques de codificação | Esse ataque tenta usar codificação, como um método de transformação de caracteres, estilos de geração, cifras ou outras variações de linguagem natural, para contornar as regras do sistema. |
Limitações
Disponibilidade do idioma
Atualmente, a API Prompt Shields suporta o idioma inglês. Embora nossa API não restrinja o envio de conteúdo que não seja em inglês, não podemos garantir o mesmo nível de qualidade e precisão na análise desse conteúdo. Recomendamos que os usuários enviem conteúdo principalmente em inglês para garantir os resultados mais confiáveis e precisos da API.
Limitações de comprimento do texto
O limite máximo de caracteres para Prompt Shields permite um prompt do usuário de até 10.000 caracteres, enquanto a matriz de documentos é restrita a um máximo de 5 documentos com um total combinado não superior a 10.000 caracteres.
Regiões
Para usar essa API, você deve criar seu recurso de Segurança de Conteúdo do Azure AI nas regiões com suporte. Consulte Disponibilidade da região.
Limitações do TPS
Consulte Taxas de consulta.
Se você precisar de uma tarifa mais alta, entre em contato conosco para solicitá-la.
Próximos passos
Siga o início rápido para começar a usar o Azure AI Content Safety para detetar riscos de entrada do usuário.