Compartir a través de


Memoria y conocimientos en el agente de SRE de Azure

El agente se vuelve más eficaz a lo largo del tiempo al recordar lo que funcionó en incidentes anteriores y hacer referencia a la documentación.

Diagrama que muestra la consulta de SearchMemory tres orígenes: incidentes anteriores, memorias de usuario y documentos para proporcionar respuestas fundamentadas con citas.

Funcionamiento de la memoria

Al hacer una pregunta, el agente busca en todos los orígenes de conocimiento simultáneamente.

Fuente Lo que encuentra Más adecuado para
Incidentes pasados Pasos que resolvieron problemas similares "¿Cómo arreglamos esto antes?"
Memorias del usuario Hechos que guarda explícitamente "Recuerde que mi entorno usa..."
Knowledge Base Tus runbooks y documentos cargados "Siga nuestro procedimiento estándar"

El agente devuelve una respuesta fundamentada con citas en las que se pueden hacer clic que muestran exactamente de dónde procede la información.

Aprendizaje automático

El agente aprende de cada conversación. No se requiere ningún entrenamiento manual.

Diagrama que muestra el agente que extrae automáticamente los aprendizajes después de cada sesión: síntomas, pasos de resolución, causa principal y problemas para evitar.

Una vez completado cada subproceso, el agente captura la siguiente información.

Qué Descripción
Síntomas observados Mensajes de error, comportamientos, patrones
Pasos que han funcionado Ruta de resolución que tuvo éxito
Causa principal ¿Qué causó el problema?
Problemas para evitar ¿Qué no funcionó, callejones sin salida?

Este proceso se produce automáticamente. Treinta minutos después de que un hilo se quede en silencio, el agente evalúa la conversación e indexa los aprendizajes.

Prioridad del mismo recurso

Al investigar un problema de recursos, el agente prioriza las sesiones anteriores en el mismo recurso exactamente.

"App Service app-prod-01 is returning 503 errors"

El agente primero comprueba si ha visto problemas en app-prod-01 antes. Si es así, esos aprendizajes aparecen primero porque tienen la mayor relevancia.

Persistencia proactiva del conocimiento

Más allá del aprendizaje de las interacciones completadas, el agente guarda activamente lo que aprende y descubre durante las conversaciones. Cuando tu agente encuentra algo importante (una configuración complicada, una dependencia no obvia o una sorpresa de depuración), registra la información en archivos de conocimiento persistentes que se mantienen a través de diferentes sesiones.

Cómo funciona

El agente mantiene un directorio de conocimiento en memories/synthesizedKnowledge/. El agente carga automáticamente un archivo especial, overview.md, en la consola de comandos al principio de cada conversación. Este enfoque proporciona al agente acceso inmediato al contexto más importante sobre su entorno.

Componente Qué hace
overview.md Resumen del servicio e índice. Siempre cargado en contexto (límite de ~2000 caracteres).
Archivos de temas Notas detalladas sobre temas específicos (por ejemplo, aks-networking-gotchas.md).
Vínculos de información general overview.md vínculos a archivos de temas para que el agente sepa qué conocimiento detallado existe.

Lo que guarda el agente

El agente registra de forma proactiva información durante las conversaciones.

Categoría Ejemplos
Condiciones del problema Este servicio no puede escalar más allá de 10 réplicas debido a los límites de cuota.
Estrategias que funcionaban Reiniciar el pod con --grace-period=0 resolvió la implementación bloqueada.
Estrategias erróneas "El aumento del límite de memoria no ayudó. El problema era la limitación de CPU"
Dependencias no obvias "app-frontend depende de un sidecar proxy que se debe iniciar primero"
Detalles de configuración "Producción usa certificados TLS personalizados almacenados en Key Vault"

Organización del conocimiento

El agente organiza el conocimiento semánticamente por tema, no cronológicamente. Cada archivo es una referencia independiente.

Archivo Lo que captura
overview.md Resumen del servicio, vínculos clave, índice de archivos de tema (~2000 caracteres)
team.md Miembros del equipo, roles, experiencia (~500 caracteres)
architecture.md Componentes, conexiones, entornos (~1500 caracteres)
logs.md Orígenes de registro, tablas, campos clave, consultas útiles (~1500 caracteres)
deployment.md Detalles de la canalización, búsqueda de versiones, procedimientos de reversión (~1000 caracteres)
auth.md Mecanismos de autenticación, flujos de identidad (~800 caracteres)
debugging.md Problemas comunes, guías de solución de problemas, vínculos de runbook (~1000 caracteres)
queries/*.md Consultas extraídas organizadas por tema (~1000 caracteres cada una)

Al actualizar los conocimientos existentes, el agente lee el archivo actual, combina información nueva y quita todo lo que quede obsoleto o incorrecto.

Sugerencia

También puede solicitar a su agente que guarde la información.

Más allá de la persistencia automática, puede pedir explícitamente al agente que guarde información en sus archivos de conocimiento:

Save this to your knowledge: our Redis cache uses Premium tier with 6GB,
and failover takes about 90 seconds.

El agente crea o actualiza el archivo de conocimiento adecuado y lo vincula desde overview.md.

Este enfoque es diferente de los comandos #remember (descritos en la sección siguiente), que guardan hechos discretos en un almacén de memoria independiente. Los archivos de conocimiento son referencias persistentes y estructuradas que el agente consulta al principio de cada conversación. Los recuerdos de usuario son hechos individuales que se pueden buscar a través de #retrieve.

Memorias del usuario

Más allá de lo que tu agente aprende y persiste automáticamente, puedes guardar explícitamente hechos discretos para que tu agente los recuerde. Los recuerdos de usuario son ideales para detalles específicos del entorno que podrían no aparecer en incidentes, pero son importantes para el contexto.

En la tabla siguiente se describen candidatos idóneos para las memorias de usuario.

Categoría Ejemplos
Hechos sobre el entorno Producción utiliza tres clústeres de AKS en el Oeste de EE. UU. 2
Preferencias del equipo Preferimos la CLI en lugar del portal para las implementaciones.
Detalles de la arquitectura "app-service-01 depende de sql-prod"
Rutas de escalación "PagerDuty, luego canal de Teams y teléfono"

Comandos de memoria

Administrar memorias de usuario mediante estos comandos de chat.

Comando Qué hace Ejemplo
#remember Guardar un hecho para una referencia futura #remember our Redis cache uses Premium tier
#retrieve Buscar en los recuerdos guardados #retrieve what's our caching setup?
#forget Quitar una memoria guardada #forget the outdated Redis info

En el ejemplo siguiente se muestra un flujo de trabajo de memoria típico.

Guardar contexto importante:

#remember Production uses 3 AKS clusters in West US 2
#remember Our escalation path: PagerDuty, then Teams channel, then phone
#remember Database failover takes approximately 15 minutes

Recuperar más adelante:

#retrieve how long does database failover take?

El agente responde basándose en la memoria guardada: "La conmutación por error de la base de datos tarda aproximadamente 15 minutos".

Base de conocimiento

Cargue la documentación y conecte orígenes externos para proporcionar al agente una biblioteca de referencia más amplia.

Diagrama en el que se muestran los conocimientos procedentes de documentos cargados y conectores MCP, todos los que se pueden buscar juntos.

Cargar documentos

Vaya a Knowledge Base de Builder > para cargar la documentación.

Tipo de documento Bueno para
Guías de operación Procedimientos de incidentes paso a paso
Guías de arquitectura Descripción del entorno
Cuadernos de estrategias de llamadas Procedimientos de escalación y respuesta
Documentación de la API Conocimientos específicos del servicio
Procedimientos de equipo Documentos de flujo de trabajo y procesos

Formatos admitidos: Markdown (.md), texto sin formato (.txt). El tamaño máximo de archivo es de 16 MB.

Conectar fuentes externas

Acceda a los conocimientos directamente desde sistemas externos mediante conectores.

Conector Qué proporciona
Azure DevOps Consulta de las páginas wiki de ADO
GitHub Repositorios de búsqueda, wikis, problemas
Microsoft Learn Documentación oficial de Microsoft
MCP personalizado Cualquier origen de conocimiento que configure

Configura conectores en Configuración Conectores>. Para obtener más información, consulte Conectores.

Uso de conocimientos en conversaciones

El agente busca automáticamente el conocimiento cuando es relevante para la pregunta.

How should I handle a database failover?

Si carga un runbook, el agente responde con una respuesta fundamentada.

En función de tu Guía de procedimientos para la base de datos(vínculo de cita), a continuación, se presentan los pasos de conmutación por error:

  1. Compruebe el estado de la réplica secundaria...

Seleccione los vínculos de cita para ver el documento de origen completo.

Análisis de la sesión

Después de cada subproceso (una conversación de chat sincrónica o una tarea asincrónica activada automáticamente), el agente genera una perspectiva de sesión. La información de sesión es cómo el agente se vuelve más inteligente a lo largo del tiempo.

¿Qué se captura?

Las perspectivas de cada sesión extraen los aprendizajes estructurados que se convierten en memoria buscable.

Componente Lo que captura Ejemplo
Síntomas observados Patrones de error, comportamientos "Errores HTTP 503, memoria en 95%"
Pasos de resolución Qué ha funcionado "SKU de App Service escalado vertical"
Causa principal ¿Por qué sucedió? "Pérdida de memoria en la implementación v2.3"
Problemas para evitar ¿Qué no funcionó? "Reiniciar no ayudó"

Cuándo se generan conclusiones

En la siguiente tabla se describe cuándo se generan los informes de sesión.

Tipo de subproceso Cuando Automático o manual
Sincronizar chat 30 minutos después del último mensaje Automático
Tareas asincrónicas 30 minutos después de la finalización Automático
Comentarios del usuario Al evaluar una respuesta Tú lo desencadenas

Visualización de conclusiones de sesión

Vaya a Detalles de la sesión de supervisión para ver:

  • Escala de tiempo de las acciones del agente
  • Puntuaciones de evaluación
  • Aprendizajes clave extraídos
  • Vínculos de subprocesos de origen: cada tarjeta de información vuelve a vincular a los subprocesos que los generaron, por lo que puede realizar un seguimiento de cualquier información hasta su conversación original.

Para obtener métricas y administración detalladas, consulte Supervisión del uso del agente.

procedimientos recomendados

Siga estas recomendaciones para obtener el máximo valor de las funcionalidades de memoria y conocimiento del agente.

Elija qué cargar frente a conectarse.

Upload Conexión a través del conector
Procedimientos de incidentes Páginas wiki activas (ADO, GitHub)
Diagramas de arquitectura Repositorios de código fuente
Procedimientos de escalación Datos de supervisión en tiempo real
Documentación de la API estática Documentos actualizados con frecuencia

Mantener el conocimiento actualizado

Los documentos obsoletos provocan respuestas incorrectas. Revise trimestralmente la base de conocimiento. Para ver qué documentos tiene el agente actualmente, pregunte:

What knowledge documents do you have?

Quitar documentos obsoletos en La base de conocimiento de Builder>.

** Nombre los documentos claramente

Use nombres de archivo descriptivos para ayudar al agente y al equipo a encontrar rápidamente la documentación correcta.

No lo use Use en su lugar
doc1.txt production-database-failover.md
runbook.md aks-cluster-scaling-runbook.md
notes.txt escalation-procedures-2026.txt

Paso siguiente

  • Conectores: Conecta fuentes de conocimiento externas a tu agente.
  • Subagentes: cree agentes especializados con funcionalidades centradas.