Sistemas de IA agente autónoma seguros

Nome do pilar: Monitorar e detetar ameaças
Nome do padrão: Sistemas seguros de IA agente


Contexto e problema

Os sistemas autónomos de IA agente podem planear, invocar ferramentas, aceder a dados e executar ações com intervenção humana limitada. À medida que a autonomia aumenta, também aumenta o potencial impacto do desalinhamento, uso indevido e comprometimento.

O artigo companheiro Padrões e Práticas Reduzir o risco para sistemas de IA autónoma e agente destaca os riscos de design, segurança e governação introduzidos pelo comportamento de agência. Este padrão passa da identificação de riscos para a redução de riscos, focando-se nos controlos e decisões de design que mitigam esses riscos na prática.

Solução

Garantir sistemas agentivos requer uma estratégia de defesa em profundidade que assuma falhas em camadas individuais e projete sistemas para que nenhuma falha resulte em danos inaceitáveis.

Controlos dentro das camadas de mitigação

Controlos da camada do modelo

O modelo atua como motor de raciocínio do agente e influencia a forma como este interpreta instruções, planeia ações e responde a entradas adversariais. Diferentes modelos oferecem capacidades e características de segurança variadas que influenciam as saídas e ações do agente. Selecionar um modelo adequado ajuda a evitar desalinhamentos, erros e resultados inseguros.

Controlos recomendados:

  • Seleção intencional do modelo: Escolha modelos cuja profundidade de raciocínio, comportamento de recusa e características de uso da ferramenta correspondam à autonomia e ao perfil de risco do agente. Mitiga o desalinhamento das tarefas e ações inseguras.
  • Modelo de governação da cadeia de abastecimento: Trate os modelos como dependências de segurança, acompanhando versões, revisando atualizações e validando alterações antes da implementação. Mitiga o comprometimento da cadeia de abastecimento.
  • Avaliação e red-teaming: Testar continuamente modelos para ameaças agenciais, como injeção cruzada de comandos, interrupção de intenções e escolha insegura de ferramentas. Mitiga o sequestro de agentes e ações não intencionais.
  • Alinhamento de capacidades: Evite modelos sobrecarregados quando modelos mais simples ou mais restritos satisfazem as necessidades do sistema. Mitiga autonomia excessiva e o aumento do raio de explosão.

Controlos da camada do sistema de segurança

A camada do sistema de segurança intercepta falhas em tempo de execução, quando os agentes interagem com conteúdos, ferramentas, APIs e utilizadores não confiáveis. Estas salvaguardas constituem uma defesa essencial contra riscos operacionais, incluindo sequestro de agentes, saídas prejudiciais, fuga de dados sensíveis e uso indevido em tempo de execução.

Controlos recomendados:

  • Filtragem de entrada e saída: Detetar e bloquear entradas e saídas maliciosas, manipuladoras ou inseguras, incluindo injeção indireta por prompt. Mitiga o sequestro de agentes e a fuga de dados sensíveis.
  • Guardas dos agentes: Impor a adesão às tarefas e prevenir invocações de ferramentas fora do âmbito ou inseguras durante a execução. Mitiga ações não intencionais e o uso indevido de alto impacto.
  • Registo e observabilidade: Registar planos de agentes, chamadas de ferramentas, decisões e resultados para apoiar a auditoria, a resposta a incidentes e a melhoria. Mitiga falhas de inteligibilidade e uso indevido não detetado.
  • Deteção de abuso e anomalias: Monitorize tentativas repetidas de bypass ou padrões de comportamento anómalos. Mitiga sondagens persistentes e exfiltrações furtivas.

Controlos da camada de aplicação

A camada de aplicação define como o agente é arquitetado, que ações pode tomar e como os controlos são aplicados. É aqui que os princípios de segurança se tornam comportamentos do sistema aplicável.

Controlos recomendados:

  • Agentes como microsserviços: Desenvolva agentes como microsserviços com permissões isoladas e acesso a ferramentas com âmbito restrito. Mitiga desalinhamentos, raio de explosão e fugas de dados sensíveis.
  • Esquemas de ação explícitos: Defina ações permitidas, entradas obrigatórias, níveis de risco, restrições de execução e requisitos de registo. Mitiga ações não intencionais e invocações inseguras de ferramentas.
  • Humano determinístico no ciclo (HITL): Impor a revisão humana para ações de alto risco ou irreversíveis através da lógica orquestradora em vez do raciocínio por modelo. Mitiga as lacunas na supervisão de controlo e o desalinhamento.
  • Design de menor privilégio e menor ação: Comece sem ações permitidas por defeito e ative capacidades incrementalmente consoante o papel e o risco. Atribuir a cada agente uma identidade única e verificável para fazer cumprir o RBAC. Mitiga fugas de dados sensíveis, dispersão de agentes e excesso de permissões.
  • Mensagens do sistema como reforço: Use instruções estruturadas do sistema para reforçar papéis e limites, sempre apoiados por controlos determinísticos. Mitiga o sequestro e o desalinhamento de agentes.

Controlos da camada de posicionamento

A camada de posicionamento molda a forma como as pessoas compreendem, confiam e dependem de um sistema agente. Um posicionamento deficiente pode introduzir riscos mesmo quando os controlos técnicos são fortes.

Controlos recomendados:

  • Divulgação clara: Torna explícito quando os utilizadores interagem com um agente de IA autónomo. Mitiga falhas de transparência e divulgação.
  • Transparência das capacidades: Comunique o que o agente pode e não pode fazer, incluindo limitações e incertezas. Evite posicionar os agentes como autoritativos ou infalíveis. Mitiga a dependência inadequada.
  • Limites visíveis pelo utilizador: Divulgue ações, aprovações e resultados planeados para que os utilizadores possam detetar comportamentos anormais. Mitiga falhas de inteligibilidade.
  • Padrões UX seguros: Garantir que os mecanismos de revisão, aprovação e encerramento estejam acessíveis e protegidos. Mitiga o uso indevido e a dependência excessiva.

Soluções da Microsoft

Os controlos acima descrevem o que implementar. As seguintes soluções Microsoft ajudam a operacionalizar estas mitigações em identidade, governação, aplicação em tempo de execução e deteção.

Plano de controlo primário

  • Microsoft Agent 365:
    • Proporciona inventário centralizado, governação, limites de acesso e visibilidade entre agentes.
    • Apoia: prevenção de proliferação de agentes, privilégio mínimo e governação. Apoia: prevenção da proliferação de agentes, princípio de menor privilégio, gestão.

Seleção do modelo e avaliação

Sistema de segurança e mitigações de tempo de funcionamento

  • Microsoft Foundry (Guardas, Filtros de Conteúdo, Monitorização de Abusos)
    • Impõe a adesão às tarefas, filtra entradas e saídas não confiáveis e deteta padrões de uso indevido.
    • Apoios: Mitigação rápida da injeção, prevenção de fugas.

Identidade e proteção de dados

  • Microsoft Entra:

    • Providencia controlo de identidade, acesso condicional e controlo de acesso baseado em funções para agentes.
    • Suportes: menor privilégio, controlo de acesso.
  • Microsoft Purview:

    • Fornece classificação de dados, governação e aplicação de políticas.
    • Suporta: proteção de dados sensíveis.

UX Design

Deteção e resposta (suporte)

  • Microsoft Defender e Microsoft Sentinel para gestão de postura de segurança, correlação de sinais e resposta a incidentes entre cargas de trabalho de agentes.
  • Azure Monitor e Application Insights para telemetria e observabilidade para comportamento e desempenho dos agentes.

Orientações

As organizações que procuram adotar este padrão podem aplicar as seguintes práticas acionáveis:

Categoria de Prática Ações Recomendadas Recurso
Governação para ferramentas, agentes e modelos Integrar agentes no Foundry usando frameworks suportados ou registar agentes personalizados Plano de Controlo Microsoft Foundry
Segurança de conteúdos e resiliência à injeção rápida Filtre entradas e saídas; trate o conteúdo recuperado como não confiável; bloqueie a injeção indireta de prompt Filtragem de Conteúdo Foundry e Proteção de Prompt
Adesão às tarefas e segurança das ferramentas Impor listas de permissões de ferramentas e validação determinística Barreiras de Agente de Fundição
Equipa vermelha da IA Teste continuamente para injeção rápida, quebra de intenção, seleção insegura de ferramentas e fuga Agente de Red Teaming por IA Foundry / PyRIT
Identidade e acesso para agentes Aplicar privilégio mínimo, acesso condicional e governação ao longo do ciclo de vida Microsoft Entra
Governação e conformidade de dados Classificar e proteger dados sensíveis Microsoft Purview
Gestão da postura Avaliar a configuração e vulnerabilidades Microsoft Defender para a Nuvem
Deteção de uso indevido Correlacionar registos e traces Sentinela da Microsoft

resultados

Benefícios

  • Os agentes operam dentro de intenções, permissões e limites definidos.
  • Ações de alto risco requerem aprovação humana determinista.
  • O comportamento do agente é observável, auditável e governável em larga escala.
  • A exposição a dados sensíveis é reduzida através do mínimo privilégio e da aplicação das políticas.
  • As organizações mantêm visibilidade e controlo à medida que a utilização de agentes cresce.
  • A confiança constrói-se através da transparência, responsabilidade e comportamentos previsíveis.

Compensações

  • É necessário um esforço adicional de engenharia para implementar controlos em camadas.
  • Os sistemas autónomos introduzem complexidade arquitetónica e operacional.
  • A supervisão humana acrescenta atrito a fluxos de trabalho de alto risco.
  • A governação e a observabilidade exigem um investimento operacional sustentado.

Principais fatores de sucesso

  • Adesão à tarefa
  • Envolvimento humano
  • Salvaguardas determinísticas
  • Transparência e divulgação
  • Resistência ao sequestro
  • Privilégio mínimo e gestão
  • Consciência da cadeia de abastecimento

Resumo

Desbloquear o potencial humano começa com a confiança. A capacidade dos sistemas agentivos de planear, decidir e agir de forma autónoma significa que pequenos desalinhamentos, descuidos ou lacunas de segurança podem levar a consequências significativas e perda de confiança.

À medida que estes sistemas se integram mais profundamente com ferramentas, APIs e outros agentes, o seu comportamento torna-se cada vez mais complexo — tal como os caminhos através dos quais o dano pode ocorrer. Os riscos associados ao comportamento agente são sistémicos e exigem estratégias de mitigação que abrangem toda a pilha do sistema.

Ao aplicar defesa em profundidade através das camadas de modelo, sistema de segurança, aplicação e posicionamento, e ao aproveitar o ecossistema integrado de segurança e gestão de agentes da Microsoft, as organizações podem implementar sistemas agentivos que são autónomos, observáveis e resilientes por design.