Compartir a través de


Protección de sistemas de inteligencia artificial agente autónomos

Nombre del pilar: Supervisión y detección de amenazas
Nombre del patrón: Sistemas seguros de IA agente


Contexto y problema

Los sistemas de inteligencia artificial agente autónomos pueden planear, invocar herramientas, acceder a datos y ejecutar acciones con una intervención humana limitada. A medida que aumenta la autonomía, también aumenta el impacto potencial de la desalineación, el uso indebido y la infracción.

En el artículo Patrones y prácticas complementarios Se reduce el riesgo de los sistemas de inteligencia artificial agente autónomos , se describen los riesgos de diseño, seguridad y gobernanza introducidos por el comportamiento agente. Este patrón cambia de la identificación de riesgos a la reducción de riesgos, centrándose en los controles y decisiones de diseño que mitigan esos riesgos en la práctica.

Solución

La protección de sistemas agenticos requiere una estrategia de defensa en profundidad que supone un error en capas individuales y diseña sistemas para que ningún único error produzca daños inaceptables.

Controles dentro de las capas de mitigación

Controles de capa de modelo

El modelo actúa como motor de razonamiento del agente e influye en cómo el agente interpreta instrucciones, planea acciones y responde a entradas adversas. Los diferentes modelos ofrecen distintas funcionalidades y características de seguridad que influyen en las salidas y acciones del agente. La selección de un modelo adecuado ayuda a evitar la desalineación, los errores y los resultados no seguros.

Controles recomendados:

  • Selección intencionada del modelo: Elija modelos cuya profundidad de razonamiento, comportamiento de denegación y características de uso de herramientas coincidan con la autonomía y el perfil de riesgo del agente. Mitiga la desalineación de tareas y las acciones no seguras.
  • Gobernanza de la cadena de suministro del modelo: Trate los modelos como dependencias de seguridad mediante el seguimiento de versiones, la revisión de las actualizaciones y la validación de los cambios antes de la implementación. Mitiga el riesgo de la cadena de suministro.
  • Evaluación y formación de equipos rojos: Pruebe continuamente los modelos para amenazas agente, como la inserción entre mensajes, la interrupción de intenciones y la selección de herramientas no segura. Mitiga el secuestro de agentes y acciones no deseadas.
  • Alineación de la funcionalidad: Evite modelos con capacidad excesiva cuando los modelos más sencillos o más restringidos satisfagan las necesidades del sistema. Mitiga la autonomía excesiva y aumenta el radio de explosión.

Controles de capa del sistema de seguridad

La capa del sistema de seguridad intercepta errores en tiempo de ejecución, cuando los agentes interactúan con contenido, herramientas, API y usuarios que no son de confianza. Estas medidas de seguridad constituyen una defensa esencial contra los riesgos operativos, como secuestro de agentes, salidas perjudiciales, pérdida de datos confidenciales y uso indebido del tiempo de ejecución.

Controles recomendados:

  • Filtrado de entrada y salida: Detecte y bloquee entradas y salidas malintencionadas, manipulativas o no seguras, incluida la inserción indirecta de mensajes. Mitiga el secuestro de agentes y la pérdida de datos confidenciales.
  • Límites de protección del agente: Aplique el cumplimiento de tareas y evite invocaciones de herramientas no seguras o fuera del ámbito durante la ejecución. Mitiga las acciones no deseadas y el uso indebido de alto impacto.
  • Registro y observabilidad: Capturar planes del agente, llamadas de herramientas, decisiones y resultados para apoyar la auditoría, respuesta ante incidentes y mejora. Mitiga los errores de inteligibilidad y el uso incorrecto no detectado.
  • Detección de anomalías y abusos: Supervise si hay intentos de omisión repetidos o patrones de comportamiento anómalos. Mitiga el sondeo persistente y la filtración sigilosa.

Controles de capa de aplicación

La capa de aplicación define cómo se diseña el agente, qué acciones puede realizar y cómo se aplican los controles. Aquí es donde los principios de seguridad se convierten en un comportamiento del sistema ejecutable.

Controles recomendados:

  • Agentes como microservicios: Diseñe agentes como microservicios con permisos aislados y acceso a herramientas de ámbito restringido. Mitiga la desalineación, el radio de explosión y la pérdida de datos confidenciales.
  • Esquemas de acción explícitos: Defina las acciones permitidas, las entradas necesarias, los niveles de riesgo, las restricciones de ejecución y los requisitos de registro. Mitiga las acciones no deseadas y la invocación de herramientas no seguras.
  • Determinístico humano en el circuito (HITL): Imponga revisión humana para acciones de alto riesgo o irreversibles mediante lógica de orquestador en lugar de razonamiento del modelo. Mitiga las brechas de control de supervisión y la desalineación.
  • Diseño de privilegios mínimos y acción mínima: Comience sin acciones permitidas de forma predeterminada y habilite las funcionalidades incrementalmente en función del rol y el riesgo. Asigne a cada agente una identidad única y verificable para aplicar RBAC. Mitiga la pérdida de datos confidenciales, la proliferación de agentes y el exceso de permisos.
  • Mensajes del sistema como refuerzo: Use instrucciones del sistema estructurado para reforzar los roles y los límites, siempre respaldados por controles deterministas. Mitiga el secuestro de agentes y la desalineación.

Controles de capa de posicionamiento

La capa de posicionamiento influye en cómo las personas comprenden, confían y dependen de un sistema agéntico. Un posicionamiento deficiente puede suponer un riesgo incluso cuando los controles técnicos son fuertes.

Controles recomendados:

  • Divulgación clara: Haga que sea explícito cuando los usuarios interactúen con un agente de IA autónomo. Mitiga los errores de transparencia y divulgación.
  • Transparencia de funcionalidad: Comunique lo que el agente puede y no puede hacer, incluidas las limitaciones y la incertidumbre. Evite colocar agentes como autoritativos o infalibles. Mitiga la dependencia inapropiada.
  • Límites visibles para el usuario: Mostrar acciones planificadas, aprobaciones y resultados para que los usuarios puedan detectar un comportamiento anormal. Mitiga los errores de inteligibilidad.
  • Patrones de experiencia de usuario seguros: Asegúrese de que los mecanismos de revisión, aprobación y apagado son accesibles y protegidos. Mitiga el uso indebido y la dependencia excesiva.

Soluciones de Microsoft

Los controles anteriores describen qué implementar. Las siguientes soluciones de Microsoft ayudan a poner en funcionamiento estas mitigaciones en la identidad, gobernanza, aplicación en tiempo de ejecución y detección.

Plano de control principal

  • Microsoft Agent 365:
    • Proporciona inventario centralizado, gobernanza, límites de acceso y visibilidad entre agentes.
    • Soporta: prevención de la proliferación de agentes, principio de privilegio mínimo y gobernanza. Admite: prevención de proliferación de agentes, principio de privilegios mínimos, gobernanza.

Selección y valoración de modelos

Mitigaciones del sistema de seguridad y del entorno de ejecución

  • Microsoft Foundry (barreras de protección, filtros de contenido, supervisión de abusos)
    • Aplica el cumplimiento de tareas, filtra las entradas y salidas que no son de confianza y detecta patrones de uso incorrecto.
    • Admite: Mitigación de inserción de comandos, prevención de fugas de información.

Protección de identidades y datos

  • Microsoft Entra:

    • Proporciona identidad, acceso condicional y control de acceso basado en roles para agentes.
    • Admite: principio de menor privilegio, control de acceso.
  • Microsoft Purview:

    • Proporciona clasificación de datos, gobernanza y aplicación de directivas.
    • Compatible con: protección de datos confidenciales.

Diseño de experiencia de usuario

Detección y respuesta (de apoyo)

  • Microsoft Defender y Microsoft Sentinel para la administración de la posición de seguridad, la correlación de señales y la respuesta a incidentes en las cargas de trabajo del agente.
  • Azure Monitor y Application Insights para telemetría y observabilidad para el comportamiento y el rendimiento del agente.

Instrucciones

Las organizaciones que buscan adoptar este patrón pueden aplicar las siguientes prácticas accionables:

Categoría de práctica Acciones recomendadas Recurso
Gobernanza de herramientas, agentes y modelos Incorporación de agentes a Foundry mediante marcos admitidos o registro de agentes personalizados Plano de control de Microsoft Foundry
Resistencia de inyección de mensajes y seguridad de contenido Filtrar entradas y salidas; tratar el contenido recuperado como no confiable; bloquear la inyección indirecta de instrucciones Filtrado de contenido de Foundry y barreras de avisos
Cumplimiento de tareas y seguridad de herramientas Aplicar listas de aceptación de herramientas y validación determinística Directrices del agente de Foundry
Formación de equipos rojos de IA Pruebe continuamente la inyección de indicaciones, la ruptura de intención, la selección de herramientas inseguras y la filtración. Foundry AI Red Teaming Agent / PyRIT
Identidad y acceso para agentes Aplicación de privilegios mínimos, acceso condicional y gobernanza del ciclo de vida Microsoft Entra
Gobernanza y cumplimiento de datos Clasificación y protección de datos confidenciales Microsoft Purview
Administración de la posición Evaluación de la configuración y las vulnerabilidades Microsoft Defender for Cloud
Detección de un uso incorrecto Correlacionar registros y seguimientos Microsoft Sentinel

Resultados

Beneficios

  • Los agentes operan dentro de la intención, los permisos y los límites definidos.
  • Las acciones de alto riesgo requieren aprobación humana determinista.
  • El comportamiento del agente es observable, auditable y controlable a escala.
  • La exposición a datos confidenciales se reduce a través de privilegios mínimos y aplicación de directivas.
  • Las organizaciones conservan la visibilidad y el control a medida que crece el uso del agente.
  • La confianza se crea a través de la transparencia, la responsabilidad y el comportamiento predecible.

Compensaciones

  • Se requiere un esfuerzo de ingeniería adicional para implementar controles en capas.
  • Los sistemas autónomos presentan complejidad arquitectónica y operativa.
  • La supervisión humana agrega fricción a los flujos de trabajo de alto riesgo.
  • La gobernanza y la observabilidad requieren una inversión operativa sostenida.

Factores clave de éxito

  • Cumplimiento de tareas
  • Implicación humana
  • Medidas de seguridad deterministas
  • Transparencia y divulgación
  • Resistencia al secuestro de datos
  • Privilegios mínimos y gobernanza
  • Reconocimiento de la cadena de suministro

Resumen

Desbloquear el potencial humano comienza con confianza. La capacidad de los sistemas agente para planear, decidir y actuar de forma autónoma significa que pequeñas desalineaciones, descuidos o brechas de seguridad pueden provocar consecuencias significativas y pérdida de confianza.

A medida que estos sistemas se integran más profundamente con herramientas, API y otros agentes, su comportamiento se vuelve cada vez más complejo y, por tanto, las vías a través de las cuales puede producirse daño. Los riesgos asociados al comportamiento agente son sistémicos y requieren estrategias de mitigación que abarquen toda la pila del sistema.

Al aplicar la defensa en profundidad en el modelo, el sistema de seguridad, la aplicación y las capas de posicionamiento, y aprovechando el ecosistema integrado de administración de seguridad y agentes de Microsoft, las organizaciones pueden implementar sistemas agente que son autónomos, observables y resistentes por diseño.