Série de treinamento de equipe vermelha de IA: protegendo sistemas de IA generativos

A série de treinamento AI Red Teaming 101 da Microsoft ajuda os profissionais a proteger sistemas de IA generativa contra ameaças emergentes. Esta série mergulha em vulnerabilidades, técnicas de ataque e estratégias de defesa, fornecendo insights acionáveis e experiência prática. Quer seja um especialista em segurança, engenheiro de aprendizagem automática ou líder de negócios, obterá conhecimento prático através de estudos de caso do mundo real, episódios modulares e ferramentas de teste automatizadas. Explore tópicos como ataques de injeção imediata, técnicas de contraditório em várias voltas e métodos de defesa escaláveis para aprimorar sua experiência em segurança de IA.

Porquê ver esta série de formação

Obtenha conselhos práticos para ajudar a identificar, explorar e defender contra vulnerabilidades críticas em sistemas de IA generativa. Aprenda práticas recomendadas, técnicas e orientações com base em lições do mundo real da Equipe Vermelha de IA da Microsoft.

Quem deve assistir a esta série de treinamentos

A série de treinamento é útil para equipes de segurança, engenheiros de ML, profissionais de IA e líderes de negócios que trabalham com IA. Centra-se principalmente em:

Profissionais de segurança: saiba mais sobre vetores de ataque específicos de IA e estratégias de defesa.
Profissionais de ML e engenheiros de IA: adicione testes de segurança aos fluxos de trabalho de desenvolvimento de IA.
Arquitetos empresariais e de segurança: crie sistemas de IA seguros e explore ameaças emergentes.

Sugestão

Os vídeos do AI Red Teaming 101 são modulares, então você pode saltar para qualquer seção de interesse ou começar no início e assistir a todos eles. Descarregue os diapositivos e siga ao seu próprio ritmo.

Qual é o conteúdo da série de formação

A série de treinamento fornece orientações sobre como entender vulnerabilidades generativas de IA, executar técnicas de ataque e implementar medidas defensivas. O workshop inclui demonstrações práticas, estudos de caso do mundo real e ferramentas de teste automatizadas baseadas nas práticas de segurança de IA de produção da Microsoft.

Sugestão

Todos os episódios incluem demonstrações práticas e acesso aos laboratórios de red team da Microsoft para adquirir experiência prática.

Introdução e Fundamentos

Episódio 1: O que é AI red teaming? - Introdução aos fundamentos do red teaming de IA, principais riscos da IA generativa e a missão do red team de IA da Microsoft

Episódio 2: Como funcionam os modelos generativos de IA - Entendendo a arquitetura do modelo, os estágios de treinamento e por que esses modelos criam riscos de segurança exclusivos

Parte A - Técnicas de Ataque Principais

Episódio 3: Injeção direta de prompt explicada - Como os invasores manipulam o comportamento do modelo injetando instruções maliciosas, incluindo estudos de caso do mundo real, como o ataque de chatbot SUV de US$ 1

Episódio 4: Injeção Imediata Indireta Explicada - Ataques furtivos onde instruções maliciosas estão ocultas em fontes de dados externas, como e-mails, sites ou bancos de dados

Episódio 5: Single-Turn Attacks - Técnicas avançadas de engenharia rápida, incluindo hacking de persona, manipulação emocional e evasão de filtros com truques de codificação

Episódio 6: Multi-Turn Attacks - técnicas como Skeleton Key e Crescendo que gradualmente orientam os modelos a ultrapassar as proteções de segurança.

Parte B - Defesa e Mitigação

Episódio 7: Defesa contra ataques - Estratégias de mitigação e técnicas de guardrail, incluindo os métodos de defesa de destaque da Microsoft (delimitação, marcação de dados e codificação)

Parte C - Automação e Escala

Episódio 8: Automatizando o red teaming de IA com o PyRIT - Introdução à ferramenta de código aberto da Microsoft para automatizar e dimensionar testes adversariais de sistemas de IA generativos, a Python Risk Identification Tool (PyRIT)

Episódio 9: Automatizando ataques de Single-Turn - Demonstração prática da configuração de conjuntos de dados, alvos e lógica de pontuação para enviar muitos prompts de uma só vez usando o PyRIT

Episódio 10: Automatizando ataques multiturnos - Técnicas avançadas de automação para conversas multiturno, incluindo conversas de modelo adversarial e teste de sistemas de geração de texto e imagem

O que você aprende

Depois de concluir esta série de treinamento, você entenderá:

Fundamentos das estratégias de red teaming de IA versus metodologias tradicionais de red teaming
Principais vulnerabilidades em sistemas de IA generativa, como injeção imediata e desalinhamento de modelos
Técnicas de ataque, desde simples manipulação rápida até sofisticadas estratégias adversárias multi-turno
Estratégias de defesa, incluindo técnicas de mitigação comprovadas, como os métodos Spotlighting da Microsoft
Ferramentas de automação para expandir os esforços de Red Teaming usando PyRIT e outras soluções de código aberto.
Aplicações do mundo real com laboratórios práticos e estudos de caso do trabalho em segurança de IA na produção da Microsoft

Last updated on 2025-07-09

Partilhar via