Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Nome do pilar: Monitorar e detetar ameaças
Nome do padrão: Sistemas seguros de IA agente
Contexto e problema
Os sistemas autónomos de IA agente podem planear, invocar ferramentas, aceder a dados e executar ações com intervenção humana limitada. À medida que a autonomia aumenta, também aumenta o potencial impacto do desalinhamento, uso indevido e comprometimento.
O artigo companheiro Padrões e Práticas Reduzir o risco para sistemas de IA autónoma e agente destaca os riscos de design, segurança e governação introduzidos pelo comportamento de agência. Este padrão passa da identificação de riscos para a redução de riscos, focando-se nos controlos e decisões de design que mitigam esses riscos na prática.
Solução
Garantir sistemas agentivos requer uma estratégia de defesa em profundidade que assuma falhas em camadas individuais e projete sistemas para que nenhuma falha resulte em danos inaceitáveis.
Controlos dentro das camadas de mitigação
Controlos da camada do modelo
O modelo atua como motor de raciocínio do agente e influencia a forma como este interpreta instruções, planeia ações e responde a entradas adversariais. Diferentes modelos oferecem capacidades e características de segurança variadas que influenciam as saídas e ações do agente. Selecionar um modelo adequado ajuda a evitar desalinhamentos, erros e resultados inseguros.
Controlos recomendados:
- Seleção intencional do modelo: Escolha modelos cuja profundidade de raciocínio, comportamento de recusa e características de uso da ferramenta correspondam à autonomia e ao perfil de risco do agente. Mitiga o desalinhamento das tarefas e ações inseguras.
- Modelo de governação da cadeia de abastecimento: Trate os modelos como dependências de segurança, acompanhando versões, revisando atualizações e validando alterações antes da implementação. Mitiga o comprometimento da cadeia de abastecimento.
- Avaliação e red-teaming: Testar continuamente modelos para ameaças agenciais, como injeção cruzada de comandos, interrupção de intenções e escolha insegura de ferramentas. Mitiga o sequestro de agentes e ações não intencionais.
- Alinhamento de capacidades: Evite modelos sobrecarregados quando modelos mais simples ou mais restritos satisfazem as necessidades do sistema. Mitiga autonomia excessiva e o aumento do raio de explosão.
Controlos da camada do sistema de segurança
A camada do sistema de segurança intercepta falhas em tempo de execução, quando os agentes interagem com conteúdos, ferramentas, APIs e utilizadores não confiáveis. Estas salvaguardas constituem uma defesa essencial contra riscos operacionais, incluindo sequestro de agentes, saídas prejudiciais, fuga de dados sensíveis e uso indevido em tempo de execução.
Controlos recomendados:
- Filtragem de entrada e saída: Detetar e bloquear entradas e saídas maliciosas, manipuladoras ou inseguras, incluindo injeção indireta por prompt. Mitiga o sequestro de agentes e a fuga de dados sensíveis.
- Guardas dos agentes: Impor a adesão às tarefas e prevenir invocações de ferramentas fora do âmbito ou inseguras durante a execução. Mitiga ações não intencionais e o uso indevido de alto impacto.
- Registo e observabilidade: Registar planos de agentes, chamadas de ferramentas, decisões e resultados para apoiar a auditoria, a resposta a incidentes e a melhoria. Mitiga falhas de inteligibilidade e uso indevido não detetado.
- Deteção de abuso e anomalias: Monitorize tentativas repetidas de bypass ou padrões de comportamento anómalos. Mitiga sondagens persistentes e exfiltrações furtivas.
Controlos da camada de aplicação
A camada de aplicação define como o agente é arquitetado, que ações pode tomar e como os controlos são aplicados. É aqui que os princípios de segurança se tornam comportamentos do sistema aplicável.
Controlos recomendados:
- Agentes como microsserviços: Desenvolva agentes como microsserviços com permissões isoladas e acesso a ferramentas com âmbito restrito. Mitiga desalinhamentos, raio de explosão e fugas de dados sensíveis.
- Esquemas de ação explícitos: Defina ações permitidas, entradas obrigatórias, níveis de risco, restrições de execução e requisitos de registo. Mitiga ações não intencionais e invocações inseguras de ferramentas.
- Humano determinístico no ciclo (HITL): Impor a revisão humana para ações de alto risco ou irreversíveis através da lógica orquestradora em vez do raciocínio por modelo. Mitiga as lacunas na supervisão de controlo e o desalinhamento.
- Design de menor privilégio e menor ação: Comece sem ações permitidas por defeito e ative capacidades incrementalmente consoante o papel e o risco. Atribuir a cada agente uma identidade única e verificável para fazer cumprir o RBAC. Mitiga fugas de dados sensíveis, dispersão de agentes e excesso de permissões.
- Mensagens do sistema como reforço: Use instruções estruturadas do sistema para reforçar papéis e limites, sempre apoiados por controlos determinísticos. Mitiga o sequestro e o desalinhamento de agentes.
Controlos da camada de posicionamento
A camada de posicionamento molda a forma como as pessoas compreendem, confiam e dependem de um sistema agente. Um posicionamento deficiente pode introduzir riscos mesmo quando os controlos técnicos são fortes.
Controlos recomendados:
- Divulgação clara: Torna explícito quando os utilizadores interagem com um agente de IA autónomo. Mitiga falhas de transparência e divulgação.
- Transparência das capacidades: Comunique o que o agente pode e não pode fazer, incluindo limitações e incertezas. Evite posicionar os agentes como autoritativos ou infalíveis. Mitiga a dependência inadequada.
- Limites visíveis pelo utilizador: Divulgue ações, aprovações e resultados planeados para que os utilizadores possam detetar comportamentos anormais. Mitiga falhas de inteligibilidade.
- Padrões UX seguros: Garantir que os mecanismos de revisão, aprovação e encerramento estejam acessíveis e protegidos. Mitiga o uso indevido e a dependência excessiva.
Soluções da Microsoft
Os controlos acima descrevem o que implementar. As seguintes soluções Microsoft ajudam a operacionalizar estas mitigações em identidade, governação, aplicação em tempo de execução e deteção.
Plano de controlo primário
-
Microsoft Agent 365:
- Proporciona inventário centralizado, governação, limites de acesso e visibilidade entre agentes.
- Apoia: prevenção de proliferação de agentes, privilégio mínimo e governação. Apoia: prevenção da proliferação de agentes, princípio de menor privilégio, gestão.
Seleção do modelo e avaliação
- Catálogo de Modelos da Microsoft Foundry para avaliar e selecionar modelos adequados ao caso de uso, incluindo bases de segurança e proteção.
- Agente de IA Red Teaming da Microsoft Foundry e Ferramenta de Identificação de Risco Python (PyRIT) para a equipa vermelha e avaliação contínua.
Sistema de segurança e mitigações de tempo de funcionamento
-
Microsoft Foundry (Guardas, Filtros de Conteúdo, Monitorização de Abusos)
- Impõe a adesão às tarefas, filtra entradas e saídas não confiáveis e deteta padrões de uso indevido.
- Apoios: Mitigação rápida da injeção, prevenção de fugas.
Identidade e proteção de dados
Microsoft Entra:
- Providencia controlo de identidade, acesso condicional e controlo de acesso baseado em funções para agentes.
- Suportes: menor privilégio, controlo de acesso.
Microsoft Purview:
- Fornece classificação de dados, governação e aplicação de políticas.
- Suporta: proteção de dados sensíveis.
UX Design
- Kit de Ferramentas de Interação com IA Humana (HAX) para divulgação e padrões de UX centrados no ser humano.
- Secure by Design UX Toolkit para padrões UX seguros
Deteção e resposta (suporte)
- Microsoft Defender e Microsoft Sentinel para gestão de postura de segurança, correlação de sinais e resposta a incidentes entre cargas de trabalho de agentes.
- Azure Monitor e Application Insights para telemetria e observabilidade para comportamento e desempenho dos agentes.
Orientações
As organizações que procuram adotar este padrão podem aplicar as seguintes práticas acionáveis:
| Categoria de Prática | Ações Recomendadas | Recurso |
|---|---|---|
| Governação para ferramentas, agentes e modelos | Integrar agentes no Foundry usando frameworks suportados ou registar agentes personalizados | Plano de Controlo Microsoft Foundry |
| Segurança de conteúdos e resiliência à injeção rápida | Filtre entradas e saídas; trate o conteúdo recuperado como não confiável; bloqueie a injeção indireta de prompt | Filtragem de Conteúdo Foundry e Proteção de Prompt |
| Adesão às tarefas e segurança das ferramentas | Impor listas de permissões de ferramentas e validação determinística | Barreiras de Agente de Fundição |
| Equipa vermelha da IA | Teste continuamente para injeção rápida, quebra de intenção, seleção insegura de ferramentas e fuga | Agente de Red Teaming por IA Foundry / PyRIT |
| Identidade e acesso para agentes | Aplicar privilégio mínimo, acesso condicional e governação ao longo do ciclo de vida | Microsoft Entra |
| Governação e conformidade de dados | Classificar e proteger dados sensíveis | Microsoft Purview |
| Gestão da postura | Avaliar a configuração e vulnerabilidades | Microsoft Defender para a Nuvem |
| Deteção de uso indevido | Correlacionar registos e traces | Sentinela da Microsoft |
resultados
Benefícios
- Os agentes operam dentro de intenções, permissões e limites definidos.
- Ações de alto risco requerem aprovação humana determinista.
- O comportamento do agente é observável, auditável e governável em larga escala.
- A exposição a dados sensíveis é reduzida através do mínimo privilégio e da aplicação das políticas.
- As organizações mantêm visibilidade e controlo à medida que a utilização de agentes cresce.
- A confiança constrói-se através da transparência, responsabilidade e comportamentos previsíveis.
Compensações
- É necessário um esforço adicional de engenharia para implementar controlos em camadas.
- Os sistemas autónomos introduzem complexidade arquitetónica e operacional.
- A supervisão humana acrescenta atrito a fluxos de trabalho de alto risco.
- A governação e a observabilidade exigem um investimento operacional sustentado.
Principais fatores de sucesso
- Adesão à tarefa
- Envolvimento humano
- Salvaguardas determinísticas
- Transparência e divulgação
- Resistência ao sequestro
- Privilégio mínimo e gestão
- Consciência da cadeia de abastecimento
Resumo
Desbloquear o potencial humano começa com a confiança. A capacidade dos sistemas agentivos de planear, decidir e agir de forma autónoma significa que pequenos desalinhamentos, descuidos ou lacunas de segurança podem levar a consequências significativas e perda de confiança.
À medida que estes sistemas se integram mais profundamente com ferramentas, APIs e outros agentes, o seu comportamento torna-se cada vez mais complexo — tal como os caminhos através dos quais o dano pode ocorrer. Os riscos associados ao comportamento agente são sistémicos e exigem estratégias de mitigação que abrangem toda a pilha do sistema.
Ao aplicar defesa em profundidade através das camadas de modelo, sistema de segurança, aplicação e posicionamento, e ao aproveitar o ecossistema integrado de segurança e gestão de agentes da Microsoft, as organizações podem implementar sistemas agentivos que são autónomos, observáveis e resilientes por design.