Identificación del riesgo de los sistemas de inteligencia artificial agente autónomos

Nombre del pilar: Supervisión y detección de amenazas
Nombre del patrón: reducir el riesgo del sistema de IA agente autónomo

Contexto y problema

Los sistemas de inteligencia artificial agente autónomos pueden planear, ejecutar y adaptar acciones hacia objetivos en lugar de responder a una sola petición. Dado que podrían invocar herramientas, llamar a las API, acceder a los datos y coordinar entre servicios, pueden producir efectos reales con una intervención humana limitada. Esta autonomía aumenta tanto el impacto de los errores como el atractivo del sistema a los adversarios. Cada interacción entre agentes, agente a servicio y agente a agente amplía la superficie expuesta a ataques y puede introducir riesgos como ataques indirectos por inyección de mensajes, acciones no deseadas o filtración de datos.

Los siguientes riesgos (aunque no exhaustivos) suelen surgir en sistemas de inteligencia artificial agente autónomos.

Riesgos de diseño

Cumplimiento de tareas: El agente realiza acciones que no se alinean con la tarea, el plan o el objetivo previstos del usuario.
Supervisión y control humanos: El sistema carece de puntos significativos para la revisión, aprobación, corrección o interrupción del comportamiento autónomo del usuario.
Inteligibilidad del sistema: Los usuarios no tienen visibilidad de lo que hace el agente, planean hacerlo o ya lo han hecho.
Transparencia y divulgación: Los usuarios o destinatarios de nivel inferior no saben que interactúan con un sistema de inteligencia artificial o encuentran acciones o salidas generadas por ia.

Riesgos de seguridad

Secuestro del agente: Entradas malintencionadas o no confiables secuestran las llamadas a las herramientas debido a la difuminación de los límites entre los datos y las instrucciones.
Pérdida de datos confidenciales: Los datos confidenciales, propietarios o personales se exponen a través de salidas, registros, memoria o acciones de bajada.
Compromiso de la cadena de suministro: Las vulnerabilidades se presentan a través de modelos, herramientas, complementos, datos de puesta a tierra u otras dependencias del agente.
Expansión del agente: Los agentes no administrados o con permisos excesivos proliferan, aumentan el riesgo de seguridad y reducen la supervisión de TI.

Abordar estos riesgos requiere tanto principios de diseño fundamentales como mitigaciones específicas del riesgo, aplicadas de forma coherente en el ciclo de vida del agente.

Solución

Reduzca el riesgo en sistemas de inteligencia artificial agente autónomos mediante la combinación de pilares de diseño fundamentales (cómo se comporta el agente y cómo los usuarios permanecen en el control) con mitigaciones de seguridad y gobernanza dirigidas (cómo el sistema resiste los ataques y escala de forma segura). Los pilares siguientes forman la base para el diseño responsable del sistema agente para abordar estas amenazas. Se aplican en todos los casos de uso agente y ayudan a mitigar varios riesgos simultáneamente.

Fundamentos de los pilares de diseño

Cumplimiento de tareas

El cumplimiento inadecuado de tareas se produce cuando un agente realiza acciones que no se alinean completamente con la tarea, el plan o el objetivo previstos del usuario. Un agente puede malinterpretar la intención, omitir los pasos necesarios o perseguir un objetivo inferido que el usuario no autorizó.

Para administrar este riesgo:

Defina los límites y el propósito del sistema claros para que el agente interprete la intención y ejecute solo las acciones deseadas.
Use controles deterministas para bloquear acciones prohibidas independientemente de la salida del modelo.
Aplique privilegios mínimos y acción mínima. Permita solo las herramientas, los datos y las operaciones mínimas necesarias. Deniegue todo lo demás de forma predeterminada.
Comunicarse sobre las tareas que implican un riesgo elevado y sobre cómo el sistema controla ese riesgo, para evitar la dependencia excesiva.

Supervisión y control humanos

La supervisión humana significa proporcionar a los usuarios un control significativo para guiar, corregir e interrumpir el comportamiento autónomo, especialmente cuando la entrada es ambigua, las acciones son de alto impacto o la manipulación adversario es posible.

Para administrar este riesgo:

Permitir que los usuarios establezcan límites para qué agentes pueden acceder, hacer y recordar.
Requerir aprobación para acciones de alto riesgo o irreversibles.
Proporcione mecanismos confiables de nivel de sistema para pausar o detener agentes de forma segura e inmediata.
Aplique las directivas organizativas y las preferencias de usuario de forma coherente en todas las ejecuciones.

Inteligibilidad del sistema de inteligencia artificial

La inteligibilidad significa que el sistema muestra lo que planea hacer, proporciona comentarios durante la ejecución y resume lo que ha ocurrido, incluidas las herramientas y los datos que se usaron. Sin visibilidad, los usuarios no pueden deshacer errores, responder a incidentes ni mejorar los resultados.

Para diseñar la inteligibilidad del sistema:

Mostrar acciones planeadas antes de la ejecución, especialmente para pasos de alto riesgo o irreversibles.
Proporcione el estado y el progreso en tiempo real para que los usuarios puedan realizar un seguimiento del comportamiento a medida que se desarrolla.
Resumir resultados: lo que ha ocurrido, las decisiones clave y lo que el agente usó para llegar allí.
Mantenga los registros posteriores a la ejecución accesibles que registren acciones, herramientas y resultados para la respuesta a incidentes y auditorías.

Transparencia y divulgación

Los sistemas agentes autónomos podrían actuar en segundo plano y afectar a las personas que no iniciaron la interacción. La divulgación clara establece expectativas, reduce la confusión y admite un uso más seguro.

Para que las interacciones sean transparentes y comprensibles:

Indique claramente cuándo los usuarios interactúan con un sistema de inteligencia artificial, especialmente en dominios de alto riesgo o contextos de bajada.
Explicar el propósito del sistema, los límites y lo que puede y no puede hacer.
Limitaciones de superficie e incertidumbre para que los usuarios puedan calibrar la confianza adecuadamente.
Asegúrese de que los destinatarios posteriores puedan reconocer resultados o acciones generadas por IA y comprender su procedencia.

Riesgos de seguridad y gobernanza sistémicas

Secuestro del agente

El secuestro del agente se produce cuando las entradas malintencionadas o que no son de confianza manipulan el razonamiento del agente o la ejecución de herramientas. En los sistemas agénticos, la separación ambigua entre datos e instrucciones puede abrir la puerta a ataques de inyección cruzada de mensajes para redirigir llamadas a herramientas o flujos de trabajo.

Para gestionar el riesgo de secuestro de agentes:

Trate todas las entradas externas (incluidas las salidas de herramientas y contenido recuperados) como que no son de confianza de forma predeterminada.
Aplique una separación estricta entre instrucciones, datos, memoria y parámetros de herramienta.
Filtre las entradas para detectar y bloquear patrones malintencionados antes de llegar al razonamiento del agente o a las rutas de ejecución de herramientas.
Implemente las herramientas allowlist y valide los parámetros de forma determinista antes de la ejecución.
Minimice el seguimiento de instrucciones implícitas basando la acción del agente en normas explícitas establecidas por el sistema en lugar de la intención inferida.

Pérdida de datos confidenciales

La fuga de datos confidenciales se produce cuando se expone información confidencial, propietaria o personal a través de salidas, registros, memoria o acciones ulteriores. El riesgo aumenta cuando los agentes se agregan entre varios orígenes o conservan el contexto de larga duración.

Para administrar el riesgo de pérdida de datos confidenciales:

Aplique privilegios mínimos a las identidades de agente y a los orígenes de datos, conceda acceso solo a la tarea actual.
Clasifique y controle los datos confidenciales y aplique reglas deterministas para su uso, retención y salida.
Limite la memoria de larga duración y conserve solo lo necesario y regido explícitamente.
Supervise y filtre las salidas y los registros para detectar y evitar la divulgación no autorizada.

Comprometimiento de la cadena de suministro

La vulneración de la cadena de suministro ocurre cuando se introducen vulnerabilidades a través de modelos, herramientas, complementos, datos fundamentales u otras dependencias. La debilidad en cualquier componente puede propagarse a la toma de decisiones y la ejecución autónomas.

Para mitigar el riesgo de la cadena de suministro:

Realice un inventario de todos los modelos, herramientas, complementos y orígenes de datos que usan los agentes y los revise como parte del límite de seguridad.
Aplique el control de versiones y el control de cambios para que las actualizaciones sean deliberadas y revisables.
Aísle los componentes para reducir el radio de explosión y evitar errores en cascada.
Supervise si hay anomalías que podrían indicar el riesgo de dependencia o la intoxicación de datos.
Supongamos que los componentes individuales pueden producir errores y diseñar controles de compensación en consecuencia.

Proliferación de agentes

La expansión del agente es la proliferación no controlada de agentes no administrados o con permisos excesivos. La expansión expande la superficie expuesta a ataques, debilita los privilegios mínimos y reduce la responsabilidad y la supervisión de TI.

Para mitigar la expansión del agente:

Realice un inventario de todos los modelos, herramientas, complementos y orígenes de datos que usan los agentes y los revise como parte del límite de seguridad.
Establezca una clara propiedad y responsabilidad para cada agente, incluido un equipo responsable o individuo.
Aplique la gobernanza del ciclo de vida del agente, incluido el registro, la aprobación, la expiración y la retirada.
Aplique el privilegio mínimo de forma predeterminada, concediéndole a cada agente solo los permisos mínimos, las herramientas y el acceso a los datos necesarios para su rol.
Asigne identidades únicas y auditables a los agentes para habilitar la autorización, el cumplimiento de directivas y la rastreabilidad.

Instrucciones

Las organizaciones que buscan adoptar este patrón pueden aplicar las siguientes prácticas accionables.

Categoría de práctica	Acciones recomendadas	Recurso
Responsabilidad compartida	La supervisión humana permite a las organizaciones seguir siendo responsables del comportamiento de los agentes.	Modelo de responsabilidad compartida de inteligencia artificial (IA)
Opciones de modelo	La selección de modelos es un control de línea base y una decisión clave de cadena de suministro en sistemas agente. Las opciones de modelo intencionadas desbloquean agentes más seguros e inteligentes	Catálogo de modelos de Microsoft Foundry
Seguridad del contenido y cumplimiento de las tareas	Detectar y bloquear entradas malintencionadas o manipulativas, incluidos ataques de inyección de solicitudes indirectas	Evaluadores de riesgos y seguridad de Microsoft Foundry
Supervisión de abusos	Supervisión de patrones de uso incorrecto, intentos de omisión repetidos o comportamiento anómalo del agente	Supervisión del abuso de Azure OpenAI de Microsoft Foundry
Identidad del agente	Exigir privilegios mínimos, aislamiento, administración del ciclo de vida y auditabilidad para evitar la expansión del agente	ID de Microsoft Entra Agent
Gobernanza de dependencias	Inventario, validación, versión y supervisión de modelos, herramientas, complementos y orígenes de datos usados por los agentes	Catálogo de modelos de Microsoft Foundry
Diseño centrado en el ser humano	Permitir la comprensión del usuario sobre las capacidades y limitaciones del agente, la supervisión humana y la reducción de uso indebido y sobredependencia.	Seguridad desde el diseño: Kit de herramientas UX

Resultados

Beneficios

Los agentes solo se ejecutan dentro de la intención, los permisos y los límites definidos.
Los usuarios pueden revisar, aprobar e interrumpir acciones de alto riesgo.
El comportamiento del sistema es observable y auditable a través de planes claros, comentarios y registros.
La exposición a datos confidenciales se reduce a través de privilegios mínimos, gobernanza y supervisión.
Las organizaciones mantienen la visibilidad y el control a medida que el uso del agente se escala en equipos y herramientas.
Los usuarios crean y mantienen la confianza en el comportamiento del sistema.

Compensaciones

Se requiere un esfuerzo adicional de diseño e ingeniería para crear medidas de seguridad deterministas, supervisión y registro.
Los sistemas multiagente aumentan la complejidad y multiplican las oportunidades de interacciones y resultados inesperados.
La divulgación clara y la inteligibilidad requieren planeación intencionada de la experiencia de usuario y pueden agregar fricción a los flujos de trabajo.

Factores clave de éxito

Cumplimiento de tareas: El agente ejecuta las acciones según lo previsto.
Participación humana: Los seres humanos siguen siendo responsables de acciones de agente ambiguas o de alto impacto.
Medidas de seguridad deterministas: Las acciones prohibidas se bloquean de forma confiable, independientemente del comportamiento del modelo.
Transparencia y divulgación: Los usuarios y los destinatarios de nivel inferior comprenden cuándo actúan los agentes y lo que usaron.
Secuestro del agente: Los agentes tienen defensas superpuestas para mitigar la inyección indirecta de instrucciones, están siendo monitorizados para detectar incidentes, y están configurados para un apagado seguro.
Privilegios mínimos y gobernanza: Las identidades, los permisos y los ciclos de vida del agente se administran para evitar la expansión.
Reconocimiento de la cadena de suministro: Los modelos, las herramientas y los orígenes de datos se tratan como dependencias de seguridad.

Resumen

Los agentes autónomos de inteligencia artificial amplían lo que puede hacer el software habilitado por IA, pero su autonomía aumenta el riesgo. Pilares fundamentales de diseño – cumplimiento de tareas, supervisión humana, inteligibilidad del sistema y divulgación– ayudan a mantener a los agentes alineados con la intención y los usuarios en el control. Los riesgos sistémicos, como el secuestro de agentes, la filtración de datos confidenciales, el riesgo de la cadena de suministro y la expansión del agente requieren mitigaciones dirigidas con privilegios mínimos, barreras de protección deterministas, gobernanza y supervisión. Con defensas superpuestas y responsabilidad clara, las organizaciones pueden escalar sistemas agente que son autónomos, observables y resistentes por diseño.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-03-19