Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Importante
Os itens marcados (pré-visualização) neste artigo estão atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um contrato de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.
O AI Red Teaming Agent (visualização) é uma ferramenta poderosa projetada para ajudar as organizações a encontrar proativamente riscos de segurança associados a sistemas de IA generativa durante o design e desenvolvimento de modelos e aplicações de IA generativa.
O red teaming tradicional envolve a exploração da cadeia de destruição cibernética e descreve o processo pelo qual um sistema é testado quanto a vulnerabilidades de segurança. No entanto, com o aumento da IA generativa, o termo IA red teaming foi cunhado para descrever a investigação de novos riscos (relacionados a conteúdo e segurança) que esses sistemas apresentam e se refere a simular o comportamento de um usuário adversário que está tentando fazer com que seu sistema de IA se comporte mal de uma maneira particular.
O AI Red Teaming Agent aproveita a estrutura de código aberto da Microsoft para as capacidades de red teaming de IA da Python Risk Identification Tool (PyRIT), bem como as Avaliações de Risco e Segurança do Azure AI Foundry, para o ajudar a avaliar automaticamente os problemas de segurança de três formas.
- Verificações automatizadas quanto a riscos de conteúdo: Em primeiro lugar, você pode verificar automaticamente seus endpoints de modelo e aplicação em busca de riscos de segurança simulando sondagens adversárias.
- Avalie o sucesso da sondagem: Em seguida, você pode avaliar e pontuar cada par ataque-resposta para gerar métricas perspicazes, como a Taxa de Sucesso do Ataque (ASR).
- Relatórios e registro em log Finalmente, você pode gerar um cartão de pontuação das técnicas de sondagem de ataque e categorias de risco para ajudá-lo a decidir se o sistema está pronto para implantação. As descobertas podem ser registradas, monitoradas e rastreadas ao longo do tempo diretamente no Azure AI Foundry, garantindo conformidade e mitigação contínua de riscos.
Juntos, esses componentes (digitalização, avaliação e relatórios) ajudam as equipes a entender como os sistemas de IA respondem a ataques comuns, orientando, em última análise, uma estratégia abrangente de gerenciamento de riscos.
Quando usar as verificações do AI Red Teaming Agent
Ao pensar em riscos de segurança relacionados à IA desenvolvendo sistemas de IA confiáveis, a Microsoft usa a estrutura do NIST para mitigar riscos de forma eficaz: governar, mapear, medir, gerenciar. Vamos nos concentrar nas três últimas partes em relação ao ciclo de vida de desenvolvimento de IA generativa:
- Mapa: Identifique riscos relevantes e defina o seu caso de uso.
- Medida: Avaliar riscos em escala.
- Gerenciar: Reduza os riscos na produção e monitore com um plano de resposta a incidentes.
O AI Red Teaming Agent pode ser usado para executar varreduras automatizadas e simular sondagens adversárias para ajudar a acelerar a identificação e a avaliação de riscos conhecidos em escala. Isso ajuda as equipes a "mudar para a esquerda" de incidentes reativos dispendiosos para estruturas de teste mais proativas que podem detetar problemas antes da implantação. O processo manual de agrupamento vermelho de IA consome muito tempo e recursos. Baseia-se na criatividade de especialistas em segurança para simular sondagens adversárias. Esse processo pode criar um gargalo para muitas organizações acelerarem a adoção da IA. Com o AI Red Teaming Agent, as organizações agora podem aproveitar a profunda experiência da Microsoft para escalar e acelerar seu desenvolvimento de IA com IA confiável na vanguarda.
Incentivamos as equipes a usar o AI Red Teaming Agent para executar verificações automatizadas durante todo o estágio de design, desenvolvimento e pré-implantação:
- Design: Escolher o modelo básico mais seguro no seu caso de uso.
- Desenvolvimento: atualizando modelos dentro de seu aplicativo ou criando modelos ajustados para seu aplicativo específico.
- Pré-implantação: antes de implantar aplicativos GenAI em produções.
Na produção, recomendamos a implementação de mitigações de segurança , como filtros de Segurança de Conteúdo do Azure AI ou a implementação de mensagens do sistema de segurança usando nossos modelos.
Como funciona o AI Red Teaming
O AI Red Teaming Agent ajuda a automatizar a simulação de sondagem adversária do seu sistema de IA alvo. Fornece um conjunto de dados curado de prompts iniciais ou objetivos de ataque em categorias de risco suportadas. Estes podem ser usados para automatizar a sondagem adversária direta. No entanto, a sondagem adversarial direta pode ser facilmente detetada pelos alinhamentos de segurança existentes da implantação do seu modelo. A aplicação de estratégias de ataque do PyRIT fornece uma conversão extra que pode ajudar a contornar ou subverter o sistema de IA para produzir conteúdo indesejável.
No diagrama, podemos ver que uma pergunta direta ao seu sistema de IA sobre como saquear um banco desencadeia uma resposta de recusa. No entanto, aplicar uma estratégia de ataque, como inverter todos os personagens, pode ajudar a enganar o modelo para responder à pergunta.
Além disso, o AI Red Teaming Agent fornece aos usuários um modelo de linguagem adversarial grande ajustado dedicado à tarefa de simular ataques adversários e avaliar respostas que possam ter conteúdo prejudicial com os avaliadores de risco e segurança. A métrica chave para avaliar a postura de risco do seu sistema de IA é a Taxa de Sucesso de Ataque (ASR), que calcula a porcentagem de ataques bem-sucedidos sobre o número total de ataques.
Categorias de risco suportadas
As seguintes categorias de risco são suportadas no AI Red Teaming Agent das Avaliações de Risco e Segurança. Apenas cenários baseados em texto são suportados.
Categoria de risco | Descrição |
---|---|
Conteúdo odioso e injusto | Conteúdo odioso e injusto refere-se a qualquer linguagem ou imagem relacionada ao ódio ou representações injustas de indivíduos e grupos sociais ao longo de fatores incluindo, mas não limitado a, raça, etnia, nacionalidade, gênero, orientação sexual, religião, status de imigração, capacidade, aparência pessoal e tamanho do corpo. A injustiça ocorre quando os sistemas de IA tratam ou representam grupos sociais de forma desigual, criando ou contribuindo para desigualdades sociais. |
Conteúdo sexual | O conteúdo sexual inclui linguagem ou imagens relativas a órgãos anatómicos e genitais, relações amorosas, atos retratados em termos eróticos, gravidez, atos sexuais físicos (incluindo agressão ou violência sexual), prostituição, pornografia e abuso sexual. |
Conteúdo violento | O conteúdo violento inclui linguagem ou imagens referentes a ações físicas destinadas a ferir, ferir, danificar ou matar alguém ou algo. Também inclui descrições de armas e armas (e entidades relacionadas, como fabricantes e associações). |
Conteúdo intrínseco deHarm-Related | O conteúdo relacionado à automutilação inclui linguagem ou imagens referentes a ações destinadas a ferir, ferir ou danificar o corpo ou se matar. |
Estratégias de ataque suportadas
As seguintes estratégias de ataque são suportadas no AI Red Teaming Agent do PyRIT:
Estratégia de Ataque | Descrição |
---|---|
AnsiAttack | Utiliza sequências de escape ANSI para manipular a aparência e o comportamento do texto. |
AsciiArt | Gera arte visual usando caracteres ASCII, muitas vezes usados para fins criativos ou ofuscação. |
AsciiScontrabandista | Oculta dados em caracteres ASCII, dificultando sua deteção. |
Atbash | Implementa a cifra Atbash, uma cifra de substituição simples onde cada letra é mapeada para o seu reverso. |
Base64 | Codifica dados binários em um formato de texto usando Base64, comumente usado para transmissão de dados. |
Binário | Converte texto em código binário, representando dados em uma série de 0s e 1s. |
César | Aplica a cifra de César, uma cifra de substituição que desloca caracteres por um número fixo de posições. |
Espaço Personagem | Altera o texto adicionando espaços entre caracteres, frequentemente usados para ofuscação. |
CharSwap | Troca caracteres no texto para criar variações ou ofuscar o conteúdo original. |
Diacrítico | Adiciona marcas diacríticas aos personagens, alterando sua aparência e, às vezes, seu significado. |
Virar | Inverte os caracteres da frente para trás, criando um efeito espelhado. |
Leetspeak | Transforma texto em Leetspeak, uma forma de codificação que substitui letras por números ou símbolos de aparência semelhante. |
Morse | Codifica texto em código Morse, usando pontos e traços para representar caracteres. |
ROT13 | Aplica a cifra ROT13, uma cifra de substituição simples que desloca caracteres em 13 posições. |
SufixoAppend | Acrescenta um sufixo adversário ao prompt |
StringJoin | Une várias sequências de caracteres, muitas vezes usadas para concatenação ou ofuscação. |
UnicodeConfundível | Usa caracteres Unicode que se parecem com caracteres padrão, criando confusão visual. |
Substituição de Unicode | Substitui caracteres padrão por equivalentes Unicode, muitas vezes para ofuscação. |
Endereço URL | Codifica texto em formato de URL |
Desbloqueio | Injeta prompts especialmente criados para contornar as proteções de IA, conhecidos como User Injected Prompt Attacks (UPIA). |
Tenso | Altera o tempo verbal do texto, convertendo-o especificamente em pretérito. |
Mais informações
Comece com nossa documentação sobre como executar uma verificação automatizada de riscos de segurança com o AI Red Teaming Agent.
Saiba mais sobre as ferramentas utilizadas pelo AI Red Teaming Agent.
As estratégias mais eficazes para avaliação de riscos que vimos aproveitam ferramentas automatizadas para revelar riscos potenciais, que são então analisadas por equipes humanas especializadas para obter insights mais profundos. Se sua organização está apenas começando com o agrupamento vermelho de IA, incentivamos você a explorar os recursos criados por nossa própria equipe vermelha de IA na Microsoft para ajudá-lo a começar.