Observabilidad para sistemas de inteligencia artificial generativa y inteligencia artificial agente

Nombre del pilar: Supervisión y detección de amenazas
Nombre del patrón: Observabilidad para sistemas de IA generativa y inteligencia artificial agente, incluidas plataformas, aplicaciones y modelos

Contexto y problema

A medida que las empresas adoptan, desarrollan y usan sistemas de inteligencia artificial (específicamente IA generativa (GenAI) e IA agente), las prácticas tradicionales de observabilidad ya no son suficientes. El software convencional es en gran medida determinista, con rutas de ejecución predecibles que la telemetría operativa puede explicar de forma confiable. Sin embargo, los sistemas de inteligencia artificial actuales no funcionan de esta manera, son probabilísticos por diseño. Los resultados de los sistemas GenAI varían entre ejecuciones, y la "ejecución" es una distribución de posibles comportamientos en lugar de seguir una única trayectoria reproducible.

Si queremos la capacidad de supervisar, comprender y solucionar problemas de lo que hace un sistema de inteligencia artificial, necesitamos evolucionar los registros, las métricas y los seguimientos de la observabilidad tradicional para incorporar señales nativas de IA. Además, debemos ampliar nuestras prácticas de observabilidad para abarcar la evaluación y la gobernanza, de modo que tengamos el kit de herramientas adecuado para la visibilidad del sistema, y poder construir sistemas de inteligencia artificial de alto rendimiento y confianza a escala.

Entre los principales desafíos se incluyen:

  • Los sistemas de inteligencia artificial son no deterministas y los comportamientos pueden cambiar en función de las entradas, el contexto de recuperación, las salidas de herramientas y las decisiones de directivas y barreras de protección: la visibilidad del sistema se vuelve mucho más compleja. La observabilidad tradicional no es suficiente para los sistemas de inteligencia artificial GenAI o agentic; se centra de manera demasiado estrecha en la latencia, los errores y el rendimiento.
  • El tiempo de actividad y las tasas de error no son buenos indicadores de calidad y confiabilidad en los sistemas de inteligencia artificial.
  • Los sistemas de inteligencia artificial se están volviendo cada vez más autónomos con más privilegios y acceso. Algunos sistemas pueden interactuar con datos confidenciales, llamar a API externas, iniciar flujos de trabajo y actuar en entornos empresariales. Cuando estos sistemas están dirigidos por actores de amenazas o mal utilizados, la observabilidad se convierte en una necesidad crítica.
  • A medida que se implementan más agentes, las empresas quieren responder a preguntas como ¿Cuántos agentes de inteligencia artificial existen en mi patrimonio? ¿Cómo se comportan los agentes? ¿Los picos de uso u otras señales indican el uso incorrecto de los agentes?
  • Aunque las empresas se apresuran para adoptar e integrar sistemas de inteligencia artificial, su adopción de la observabilidad de los sistemas de inteligencia artificial se retrasa.

Estos desafíos subrayan la necesidad de que las empresas evolucionen sus herramientas y prácticas de observabilidad y de adoptarlas a escala, de acuerdo con su adopción de sistemas de inteligencia artificial.

Solución

Evolucione los registros, las métricas y los seguimientos para ser nativos de IA.

  1. Contexto de identidad de solicitud de registro, marca de tiempo e identificadores de conversación/ejecución, junto con detalles de ejecución, como entradas de usuario y respuestas del sistema, origen de recuperación y invocaciones de agente/herramienta (nombre de la herramienta, argumentos, permisos y salidas) y representan seguimientos y métricas con convenciones semánticas de OpenTelemetry GenAI. Lo que se debe capturar y conservar debe regir mediante contratos de datos claros que equilibren las necesidades forenses frente a la privacidad, la residencia de datos, la minimización de datos, los requisitos de retención y el cumplimiento de las obligaciones legales y normativas, con controles de acceso y cifrado alineados con las evaluaciones de riesgos y directivas empresariales.
  2. Supervise el sistema mediante el uso de tokens, la latencia, la tasa de errores, el volumen de llamadas o solicitudes de herramientas y otras métricas.
    • Capture el recorrido de un extremo a otro de una solicitud (seguimientos), vinculando cada paso en la ejecución de un agente.
    • Estandarizar con OpenTelemetry (OTel). Recuerde que el registro y la telemetría deben ser suficientes para la reconstrucción de incidentes.
  3. Incorpore la evaluación para realizar un seguimiento continuo de la calidad y seguridad y capture las decisiones de política.
  4. Establecer líneas base de comportamiento y alertar sobre las desviaciones. Determine el aspecto "normal" de los sistemas de inteligencia artificial.
  5. Piense más allá de la observabilidad para tener en cuenta los controles, la seguridad, la gobernanza y los primitivos fundamentales.
  6. Use mecanismos escalados, como el ciclo de vida de desarrollo seguro (SDL) de Microsoft o la iniciativa de futuro seguro (SFI) para aplicar el registro estandarizado y la observabilidad en todos los productos de genAI y agente de IA en toda la empresa.

Instrucciones

Las organizaciones pueden adoptar prácticas similares mediante los pasos siguientes:

Caso de uso Acción recomendada Recurso
Registro de auditoría nativo de inteligencia artificial Registrar eventos de interacción de copilot y agente, incluidos los metadatos contextuales Microsoft Purview
Estandarizar datos Alinee con las convenciones semánticas de OpenTelemetry (OTel) GenAI, por lo que los intervalos y seguimientos son coherentes. Mantente atento: las familias de atributos de OTel pueden expandirse potencialmente con propuestas para dar soporte a la orquestación multiagente (incluidas las tareas y la memoria). Convenciones semánticas de OTel GenAI
Descripción y depuración del comportamiento del agente Invocaciones de la herramienta de seguimiento, decisiones del agente y dependencias entre servicios Seguimiento del agente de Microsoft Foundry (versión preliminar)
Medición de la calidad, la seguridad y la confiabilidad Puntuar los resultados del modelo o agente en aspectos como la fundamentación, la seguridad/riesgo y la corrección en el uso de herramientas, para las pruebas de regresión o la evaluación de calidad antes de lanzamientos. Evaluadores de Microsoft Foundry
Gobernanza de herramientas, agentes y modelos Incorpore los agentes a Foundry mediante marcos compatibles con Microsoft o registre sus propios agentes personalizados. Plano de control de Microsoft Foundry
Supervisión de producción Crear un recurso de Application Insights y usar experiencias y cuadernos integrados para publicar paneles Azure Monitor Application Insights
Detección de un uso incorrecto Ingesta de registros (Purview) y seguimientos (Foundry + Application Insights) para la correlación de señales Microsoft Sentinel

Para empresas que usan Microsoft Agent 365:

Caso de uso Acción recomendada Recurso
Integración de la gobernanza y observabilidad empresarial Use el SDK de observabilidad de Microsoft Agent 365 (parte del SDK del Agente 365) para emitir telemetría alineada con OTel para la gobernanza del Agente 365, incluida la visibilidad del administrador y la integración de Defender/Purview. SDK de observabilidad de Microsoft Agent 365 (versión preliminar de Frontier)
Gobernanza para todo el inquilino Use Microsoft Agent 365 en el Centro de administración de Microsoft 365 para controlar todos los agentes del inquilino. Microsoft Agent 365 (versión preliminar de Frontier)

Resultados

Beneficios

  • Mejora de la visibilidad, la supervisión y el control del sistema de IA.
  • Posición de seguridad mejorada.
  • Reconstrucción más sencilla de la actividad de amenazas y menor tiempo medio para detectar y responder (MTTD/MTTR).
  • Mayor calidad, confiabilidad y seguridad a través de evaluaciones que se pueden usar para las pruebas de validación o regresión de versiones.

Ventajas y desventajas

  • Las herramientas y convenciones de observabilidad evolucionan a medida que evolucionan los sistemas de inteligencia artificial. Las empresas deben mantenerse al día de los nuevos desarrollos en observabilidad y mantenerse al día, para garantizar la seguridad, la integridad y la seguridad continuas de sus sistemas de inteligencia artificial.
  • La estandarización del registro y el seguimiento de los sistemas de inteligencia artificial puede requerir iniciativas de toda la empresa y soporte técnico de liderazgo.
  • La observabilidad de la inteligencia artificial rara vez es "establecerla y olvidarla". Es un proceso continuo que incurre en sobrecarga operativa.

Factores clave de éxito

Realice un seguimiento de estos KPI para medir el progreso:

  • Cobertura de observabilidad del sistema de inteligencia artificial: la proporción de sistemas de inteligencia artificial totales que son observables (emitir registros y seguimientos en back-end de supervisión).
  • La proporción de las versiones que han pasado por un conjunto de evaluación estándar con el fin de cumplir con los umbrales de calidad y fiabilidad en la producción.
  • La proporción de escenarios de seguridad y abuso de inteligencia artificial cubiertos por la telemetría. Identifique los principales escenarios de abuso y seguridad (como la inyección de mensajes o la filtración de datos) y asegúrese de que tiene la telemetría necesaria para detectar y responder.

Resumen

La observabilidad de los sistemas de inteligencia artificial generativa y de inteligencia artificial con agencia es una práctica fundamental en seguridad y gobernanza. La observabilidad de los sistemas de inteligencia artificial requiere que evolucionemos los tipos de señales y telemetría que recopilamos; crear nuevos primitivos; y rediseña el plano de control, de modo que podamos determinar y controlar con precisión lo que sucede en nuestros sistemas. En el caso de las organizaciones que adoptan la observabilidad de IA y la aplican en toda la empresa, los sistemas de inteligencia artificial se pueden investigar cuando se producen incidentes, mejorar a medida que evoluciona el comportamiento y operar con responsabilidad en producción.