Sistemas de IA agente autónoma seguros

Nome do pilar: Monitorar e detetar ameaças
Nome do padrão: Sistemas seguros de IA agente

Contexto e problema

Os sistemas autónomos de IA agente podem planear, invocar ferramentas, aceder a dados e executar ações com intervenção humana limitada. À medida que a autonomia aumenta, também aumenta o potencial impacto do desalinhamento, uso indevido e comprometimento.

O artigo companheiro Padrões e Práticas Reduzir o risco para sistemas de IA autónoma e agente destaca os riscos de design, segurança e governação introduzidos pelo comportamento de agência. Este padrão passa da identificação de riscos para a redução de riscos, focando-se nos controlos e decisões de design que mitigam esses riscos na prática.

Solução

Garantir sistemas agentivos requer uma estratégia de defesa em profundidade que assuma falhas em camadas individuais e projete sistemas para que nenhuma falha resulte em danos inaceitáveis.

Controlos dentro das camadas de mitigação

Controlos da camada do modelo

O modelo atua como motor de raciocínio do agente e influencia a forma como este interpreta instruções, planeia ações e responde a entradas adversariais. Diferentes modelos oferecem capacidades e características de segurança variadas que influenciam as saídas e ações do agente. Selecionar um modelo adequado ajuda a evitar desalinhamentos, erros e resultados inseguros.

Controlos recomendados:

Seleção intencional do modelo: Escolha modelos cuja profundidade de raciocínio, comportamento de recusa e características de uso da ferramenta correspondam à autonomia e ao perfil de risco do agente. Mitiga o desalinhamento das tarefas e ações inseguras.
Modelo de governação da cadeia de abastecimento: Trate os modelos como dependências de segurança, acompanhando versões, revisando atualizações e validando alterações antes da implementação. Mitiga o comprometimento da cadeia de abastecimento.
Avaliação e red-teaming: Testar continuamente modelos para ameaças agenciais, como injeção cruzada de comandos, interrupção de intenções e escolha insegura de ferramentas. Mitiga o sequestro de agentes e ações não intencionais.
Alinhamento de capacidades: Evite modelos sobrecarregados quando modelos mais simples ou mais restritos satisfazem as necessidades do sistema. Mitiga autonomia excessiva e o aumento do raio de explosão.

Controlos da camada do sistema de segurança

A camada do sistema de segurança intercepta falhas em tempo de execução, quando os agentes interagem com conteúdos, ferramentas, APIs e utilizadores não confiáveis. Estas salvaguardas constituem uma defesa essencial contra riscos operacionais, incluindo sequestro de agentes, saídas prejudiciais, fuga de dados sensíveis e uso indevido em tempo de execução.

Controlos recomendados:

Filtragem de entrada e saída: Detetar e bloquear entradas e saídas maliciosas, manipuladoras ou inseguras, incluindo injeção indireta por prompt. Mitiga o sequestro de agentes e a fuga de dados sensíveis.
Guardas dos agentes: Impor a adesão às tarefas e prevenir invocações de ferramentas fora do âmbito ou inseguras durante a execução. Mitiga ações não intencionais e o uso indevido de alto impacto.
Registo e observabilidade: Registar planos de agentes, chamadas de ferramentas, decisões e resultados para apoiar a auditoria, a resposta a incidentes e a melhoria. Mitiga falhas de inteligibilidade e uso indevido não detetado.
Deteção de abuso e anomalias: Monitorize tentativas repetidas de bypass ou padrões de comportamento anómalos. Mitiga sondagens persistentes e exfiltrações furtivas.

Controlos da camada de aplicação

A camada de aplicação define como o agente é arquitetado, que ações pode tomar e como os controlos são aplicados. É aqui que os princípios de segurança se tornam comportamentos do sistema aplicável.

Controlos recomendados:

Agentes como microsserviços: Desenvolva agentes como microsserviços com permissões isoladas e acesso a ferramentas com âmbito restrito. Mitiga desalinhamentos, raio de explosão e fugas de dados sensíveis.
Esquemas de ação explícitos: Defina ações permitidas, entradas obrigatórias, níveis de risco, restrições de execução e requisitos de registo. Mitiga ações não intencionais e invocações inseguras de ferramentas.
Humano determinístico no ciclo (HITL): Impor a revisão humana para ações de alto risco ou irreversíveis através da lógica orquestradora em vez do raciocínio por modelo. Mitiga as lacunas na supervisão de controlo e o desalinhamento.
Design de menor privilégio e menor ação: Comece sem ações permitidas por defeito e ative capacidades incrementalmente consoante o papel e o risco. Atribuir a cada agente uma identidade única e verificável para fazer cumprir o RBAC. Mitiga fugas de dados sensíveis, dispersão de agentes e excesso de permissões.
Mensagens do sistema como reforço: Use instruções estruturadas do sistema para reforçar papéis e limites, sempre apoiados por controlos determinísticos. Mitiga o sequestro e o desalinhamento de agentes.

Controlos da camada de posicionamento

A camada de posicionamento molda a forma como as pessoas compreendem, confiam e dependem de um sistema agente. Um posicionamento deficiente pode introduzir riscos mesmo quando os controlos técnicos são fortes.

Controlos recomendados:

Divulgação clara: Torna explícito quando os utilizadores interagem com um agente de IA autónomo. Mitiga falhas de transparência e divulgação.
Transparência das capacidades: Comunique o que o agente pode e não pode fazer, incluindo limitações e incertezas. Evite posicionar os agentes como autoritativos ou infalíveis. Mitiga a dependência inadequada.
Limites visíveis pelo utilizador: Divulgue ações, aprovações e resultados planeados para que os utilizadores possam detetar comportamentos anormais. Mitiga falhas de inteligibilidade.
Padrões UX seguros: Garantir que os mecanismos de revisão, aprovação e encerramento estejam acessíveis e protegidos. Mitiga o uso indevido e a dependência excessiva.

Soluções da Microsoft

Os controlos acima descrevem o que implementar. As seguintes soluções Microsoft ajudam a operacionalizar estas mitigações em identidade, governação, aplicação em tempo de execução e deteção.

Plano de controlo primário

Microsoft Agent 365:
- Proporciona inventário centralizado, governação, limites de acesso e visibilidade entre agentes.
- Apoia: prevenção de proliferação de agentes, privilégio mínimo e governação. Apoia: prevenção da proliferação de agentes, princípio de menor privilégio, gestão.

Seleção do modelo e avaliação

Catálogo de Modelos da Microsoft Foundry para avaliar e selecionar modelos adequados ao caso de uso, incluindo bases de segurança e proteção.
Agente de IA Red Teaming da Microsoft Foundry e Ferramenta de Identificação de Risco Python (PyRIT) para a equipa vermelha e avaliação contínua.

Sistema de segurança e mitigações de tempo de funcionamento

Microsoft Foundry (Guardas, Filtros de Conteúdo, Monitorização de Abusos)
- Impõe a adesão às tarefas, filtra entradas e saídas não confiáveis e deteta padrões de uso indevido.
- Apoios: Mitigação rápida da injeção, prevenção de fugas.

Identidade e proteção de dados

Microsoft Entra:
- Providencia controlo de identidade, acesso condicional e controlo de acesso baseado em funções para agentes.
- Suportes: menor privilégio, controlo de acesso.
Microsoft Purview:
- Fornece classificação de dados, governação e aplicação de políticas.
- Suporta: proteção de dados sensíveis.

UX Design

Kit de Ferramentas de Interação com IA Humana (HAX) para divulgação e padrões de UX centrados no ser humano.
Secure by Design UX Toolkit para padrões UX seguros

Deteção e resposta (suporte)

Microsoft Defender e Microsoft Sentinel para gestão de postura de segurança, correlação de sinais e resposta a incidentes entre cargas de trabalho de agentes.
Azure Monitor e Application Insights para telemetria e observabilidade para comportamento e desempenho dos agentes.

Orientações

As organizações que procuram adotar este padrão podem aplicar as seguintes práticas acionáveis:

Categoria de Prática	Ações Recomendadas	Recurso
Governação para ferramentas, agentes e modelos	Integrar agentes no Foundry usando frameworks suportados ou registar agentes personalizados	Plano de Controlo Microsoft Foundry
Segurança de conteúdos e resiliência à injeção rápida	Filtre entradas e saídas; trate o conteúdo recuperado como não confiável; bloqueie a injeção indireta de prompt	Filtragem de Conteúdo Foundry e Proteção de Prompt
Adesão às tarefas e segurança das ferramentas	Impor listas de permissões de ferramentas e validação determinística	Barreiras de Agente de Fundição
Equipa vermelha da IA	Teste continuamente para injeção rápida, quebra de intenção, seleção insegura de ferramentas e fuga	Agente de Red Teaming por IA Foundry / PyRIT
Identidade e acesso para agentes	Aplicar privilégio mínimo, acesso condicional e governação ao longo do ciclo de vida	Microsoft Entra
Governação e conformidade de dados	Classificar e proteger dados sensíveis	Microsoft Purview
Gestão da postura	Avaliar a configuração e vulnerabilidades	Microsoft Defender para a Nuvem
Deteção de uso indevido	Correlacionar registos e traces	Sentinela da Microsoft

resultados

Benefícios

Os agentes operam dentro de intenções, permissões e limites definidos.
Ações de alto risco requerem aprovação humana determinista.
O comportamento do agente é observável, auditável e governável em larga escala.
A exposição a dados sensíveis é reduzida através do mínimo privilégio e da aplicação das políticas.
As organizações mantêm visibilidade e controlo à medida que a utilização de agentes cresce.
A confiança constrói-se através da transparência, responsabilidade e comportamentos previsíveis.

Compensações

É necessário um esforço adicional de engenharia para implementar controlos em camadas.
Os sistemas autónomos introduzem complexidade arquitetónica e operacional.
A supervisão humana acrescenta atrito a fluxos de trabalho de alto risco.
A governação e a observabilidade exigem um investimento operacional sustentado.

Principais fatores de sucesso

Adesão à tarefa
Envolvimento humano
Salvaguardas determinísticas
Transparência e divulgação
Resistência ao sequestro
Privilégio mínimo e gestão
Consciência da cadeia de abastecimento

Resumo

Desbloquear o potencial humano começa com a confiança. A capacidade dos sistemas agentivos de planear, decidir e agir de forma autónoma significa que pequenos desalinhamentos, descuidos ou lacunas de segurança podem levar a consequências significativas e perda de confiança.

À medida que estes sistemas se integram mais profundamente com ferramentas, APIs e outros agentes, o seu comportamento torna-se cada vez mais complexo — tal como os caminhos através dos quais o dano pode ocorrer. Os riscos associados ao comportamento agente são sistémicos e exigem estratégias de mitigação que abrangem toda a pilha do sistema.

Ao aplicar defesa em profundidade através das camadas de modelo, sistema de segurança, aplicação e posicionamento, e ao aproveitar o ecossistema integrado de segurança e gestão de agentes da Microsoft, as organizações podem implementar sistemas agentivos que são autónomos, observáveis e resilientes por design.

Comentários

Esta página foi útil?

Last updated on 2026-03-19

Sistemas de IA agente autónoma seguros

Contexto e problema

Solução

Controlos dentro das camadas de mitigação

Controlos da camada do modelo

Controlos da camada do sistema de segurança

Controlos da camada de aplicação

Controlos da camada de posicionamento

Soluções da Microsoft

Plano de controlo primário

Seleção do modelo e avaliação

Sistema de segurança e mitigações de tempo de funcionamento

Identidade e proteção de dados

UX Design

Deteção e resposta (suporte)

Orientações

resultados

Benefícios

Compensações

Principais fatores de sucesso

Resumo

Comentários

Recursos adicionais