Introdução aos modelos de linguagem grande (LLMs) de agrupamento vermelho

Artigo
07/20/2023

O termo agrupamento vermelho historicamente descreveu ataques sistemáticos de adversários para testar vulnerabilidades de segurança. Com o surgimento dos LLMs, o termo se estendeu além da segurança cibernética tradicional e evoluiu em uso comum para descrever muitos tipos de investigação, teste e ataque de sistemas de IA. Com os LLMs, o uso benigno e contraditório pode produzir saídas potencialmente prejudiciais, que podem tomar muitas formas, incluindo conteúdo prejudicial, como discurso de ódio, incitação ou glorificação de violência ou conteúdo sexual.

O agrupamento vermelho é uma prática essencial no desenvolvimento responsável de sistemas e recursos usando LLMs. Embora não seja uma substituição para o trabalho sistemático de medição e mitigação, os agrupadores vermelhos ajudam a descobrir e identificar danos e, por sua vez, habilitam estratégias de medição para validar a eficácia das mitigações.

A Microsoft realizou exercícios de agrupamento vermelho e implementou sistemas de segurança (incluindo filtros de conteúdo e outras estratégias de mitigação) para seus modelos de Serviço OpenAI do Azure (confira esta Visão geral de IA responsável). No entanto, o contexto do aplicativo do LLM será exclusivo e você também deverá conduzir o agrupamento vermelho para:

Teste o modelo base do LLM e determine se há lacunas nos sistemas de segurança existentes, dado o contexto do sistema de aplicativos.
Identifique e reduza as deficiências nos filtros padrão existentes ou nas estratégias de mitigação.
Forneça comentários sobre falhas para que possamos fazer melhorias.

Veja como você pode começar seu processo de LLMs de agrupamento vermelho. O planejamento avançado é fundamental para um exercício produtivo de agrupamento vermelho.

Introdução

Gerenciando sua equipe vermelha

Monte um grupo diversificado de agrupadores vermelhos.

Os agrupadores vermelhos de LLM devem ser uma mistura de pessoas com diversas origens sociais, profissionais e demográficas que tenham experiência interdisciplinar que se ajuste ao contexto de implantação do seu sistema de IA. Por exemplo, se você estiver criando um chatbot destinado a ajudar profissionais de saúde, especialistas médicos poderão ajudar a identificar riscos nesse domínio.

Recrute agrupadores vermelhos com mentalidades benignas e de adversário.

Ter agrupadores vermelhos com mentalidade de adversário e experiência de teste de segurança é essencial para entender os riscos de segurança, mas agrupadores vermelhos que são usuários comuns do seu sistema de aplicativos e não estiveram envolvidos em seu desenvolvimento podem trazer perspectivas valiosas sobre os perigos que os usuários regulares podem encontrar.

Lembre-se de que lidar com conteúdo potencialmente prejudicial pode ser mentalmente desgastante.

Você precisará cuidar de seus agrupadores vermelhos, não apenas limitando o tempo gasto em uma tarefa, mas também informando que eles podem recusar a qualquer momento. Além disso, evite exaustão alternando as atribuições dos agrupadores vermelhos para diferentes áreas de foco.

Planejando seu agrupamento vermelho

Onde testar

Como um sistema é desenvolvido usando um modelo base de LLM, talvez seja necessário testar em várias camadas diferentes:

O modelo base de LLM com seu sistema de segurança em vigor para identificar quaisquer lacunas que possam precisar ser resolvidas no contexto do sistema de aplicativos. (O teste geralmente é por meio de um ponto de extremidade de API.)
Seu sistema de aplicativos. (O teste geralmente é por meio de uma interface do usuário.)
O modelo base de LLM e o sistema de aplicativos antes e depois das mitigações estão em vigor.

Como testar

Considere realizar o agrupamento vermelho iterativo em pelo menos duas fases:

Agrupamento vermelho aberto, onde os agrupadores vermelhos são encorajados a descobrir uma variedade de danos. Isso pode ajudá-lo a desenvolver uma taxonomia de danos para orientar mais testes. Observe que o desenvolvimento de uma taxonomia de saídas de LLM indesejadas para seu sistema de aplicativos é crucial para poder medir o sucesso de esforços de mitigação específicos.
Agrupamento vermelho guiado, onde os agrupadores vermelhos são atribuídos para se concentrar em danos específicos listados na taxonomia enquanto permanecem alertas para quaisquer novos danos que possam surgir. Os agrupadores vermelhos também podem ser instruídos a concentrar o teste em recursos específicos de um sistema para exibir possíveis danos.

Não se esqueça de:

Forneça aos seus agrupadores vermelhos instruções claras sobre quais danos ou recursos do sistema eles estarão testando.
Dê aos seus agrupadores vermelhos um lugar para registrar suas descobertas. Por exemplo, pode ser uma planilha simples especificando os tipos de dados que os agrupadores vermelhos devem fornecer, incluindo noções básicas como:
- O tipo de dano que foi exibido.
- O prompt de entrada que disparou a saída.
- Um trecho da saída problemática.
- Comentários sobre por que o agrupador vermelho considerou a saída problemática.
Maximize o esforço de agrupadores vermelhas de IA responsáveis que têm experiência para testar tipos específicos de danos ou saídas indesejadas. Por exemplo, os especialistas em assuntos de segurança se concentram em jailbreaks, extração de metaprompt e conteúdo relacionado ao auxílio a ataques cibernéticos.

Relatório de descobertas de agrupamento vermelho

Você desejará resumir e relatar as principais descobertas de agrupamento vermelho em intervalos regulares para os principais stakeholders, incluindo equipes envolvidas na medição e mitigação de falhas de LLM, para que as descobertas possam ajudar a esclarecer a tomada de decisões críticas e as priorizações.

Próximas etapas

Saiba mais sobre outras estratégias de mitigação, como engenharia de prompt