Compartir por


Memoria y conocimientos en el agente de SRE de Azure

El agente se vuelve más eficaz a lo largo del tiempo al recordar lo que funcionó en incidentes anteriores y hacer referencia a la documentación.

Diagrama que muestra la consulta de SearchMemory tres orígenes: incidentes anteriores, memorias de usuario y documentos para proporcionar respuestas fundamentadas con citas.

Funcionamiento de la memoria

Al hacer una pregunta, el agente busca en todos los orígenes de conocimiento simultáneamente.

Fuente Lo que encuentra Más adecuado para
Incidentes pasados Pasos que resolvieron problemas similares "¿Cómo arreglamos esto antes?"
Memorias del usuario Hechos que guarda explícitamente "Recuerde que mi entorno usa..."
Knowledge Base Los runbooks y documentos cargados "Siga nuestro procedimiento estándar"

El agente devuelve una respuesta fundamentada con citas en las que se pueden hacer clic que muestran exactamente de dónde procede la información.

Aprendizaje automático

El agente aprende de cada conversación. No necesita ningún entrenamiento manual.

Diagrama que muestra el agente que extrae automáticamente los aprendizajes después de cada sesión: síntomas, pasos de resolución, causa principal y problemas para evitar.

Una vez finalizado cada subproceso, el agente captura la siguiente información.

Qué Descripción
Síntomas observados Mensajes de error, comportamientos, patrones
Pasos que han funcionado Ruta de resolución que tuvo éxito
Causa principal ¿Qué causó el problema?
Problemas para evitar ¿Qué no funcionó, callejones sin salida?

Este proceso se produce automáticamente. Treinta minutos después de que un hilo se quede en silencio, el agente evalúa la conversación e indexa los aprendizajes.

Prioridad del mismo recurso

Al investigar un problema de recursos, el agente prioriza las sesiones anteriores en el mismo recurso exactamente.

"App Service app-prod-01 is returning 503 errors"

El agente comprueba en primer lugar si ha detectado algún problema en app-prod-01. Si es así, esos aprendizajes aparecen primero porque son los más relevantes.

Persistencia proactiva del conocimiento

Además de aprender de los subprocesos completados, el agente guarda de forma activa lo que aprende y descubre durante las conversaciones. Cuando el agente detecta algo importante (una configuración complicada, una dependencia poco evidente o un problema de depuración), registra la información en archivos de conocimiento persistentes que se conservan entre sesiones.

Cómo funciona

El agente mantiene un directorio de conocimiento en memories/synthesizedKnowledge/. El agente carga automáticamente un archivo especial, overview.md, en la consola de comandos al principio de cada conversación. Este enfoque proporciona al agente acceso inmediato al contexto más importante sobre su entorno.

Componente Qué hace
overview.md Resumen del servicio e índice. Siempre cargado en contexto (límite de ~2000 caracteres).
Archivos de temas Notas detalladas sobre temas específicos (por ejemplo, aks-networking-gotchas.md).
Vínculos de información general overview.md vínculos a archivos de temas para que el agente sepa qué conocimiento detallado existe.

Lo que guarda el agente

El agente registra de forma proactiva información durante las conversaciones.

Categoría Ejemplos
Condiciones del problema "Este servicio no puede escalar más de 10 réplicas debido a los límites de cuota".
Estrategias que funcionaban Reiniciar el pod con --grace-period=0 resolvió la implementación atascada.
Estrategias erróneas "El aumento del límite de memoria no ayudó. El problema estaba siendo la aceleración de la CPU.
Dependencias no obvias "app-frontend depende de un proxy sidecar que debe iniciarse primero".
Detalles de configuración "Producción usa certificados TLS personalizados almacenados en Key Vault".

Organización del conocimiento

El agente organiza el conocimiento semánticamente por tema, no cronológicamente. Cada archivo es una referencia independiente.

Archivo Lo que captura
overview.md Resumen del servicio, vínculos clave, índice de archivos de tema (~2000 caracteres)
team.md Miembros del equipo, roles, experiencia (~500 caracteres)
architecture.md Componentes, conexiones, entornos (~1500 caracteres)
logs.md Orígenes de registro, tablas, campos clave, consultas útiles (~1500 caracteres)
deployment.md Detalles de la canalización, búsqueda de versiones, procedimientos de reversión (~1000 caracteres)
auth.md Mecanismos de autenticación, flujos de identidad (~800 caracteres)
debugging.md Problemas comunes, guías de solución de problemas, vínculos de manuales de ejecución (~1000 caracteres)
queries/*.md Consultas extraídas organizadas por tema (~1000 caracteres cada una)

Al actualizar los conocimientos existentes, el agente lee el archivo actual, combina información nueva y quita todo lo que quede obsoleto o incorrecto.

Sugerencia

También puede solicitar a su agente que guarde la información.

Más allá de la persistencia automática, puede pedir explícitamente al agente que guarde información en sus archivos de conocimiento:

Save this to your knowledge: our Redis cache uses Premium tier with 6GB,
and failover takes about 90 seconds.

El agente crea o actualiza el archivo de conocimiento adecuado y lo vincula desde overview.md.

Este enfoque es diferente de los comandos #remember (descritos en la sección siguiente), que guardan hechos discretos en un almacén de memoria independiente. Los archivos de conocimiento son referencias persistentes y estructuradas que el agente consulta al principio de cada conversación. Los recuerdos de usuario son hechos individuales que se pueden buscar a través de #retrieve.

Memorias del usuario

Más allá de lo que tu agente aprende y persiste automáticamente, puedes guardar explícitamente hechos discretos para que tu agente los recuerde. Los recuerdos de usuario son ideales para detalles específicos del entorno que podrían no aparecer en incidentes, pero son importantes para el contexto.

En la tabla siguiente se describen candidatos idóneos para las memorias de usuario.

Categoría Ejemplos
Hechos sobre el entorno Producción utiliza tres clústeres de AKS en el Oeste de EE. UU. 2
Preferencias del equipo Preferimos la CLI en lugar del portal para las implementaciones.
Detalles de la arquitectura "app-service-01 depende de sql-prod"
Rutas de escalación "PagerDuty, luego canal de Teams y teléfono"

Comandos de memoria

Administrar memorias de usuario mediante estos comandos de chat.

Comando Qué hace Ejemplo
#remember Guardar un hecho para una referencia futura #remember our Redis cache uses Premium tier
#retrieve Buscar en los recuerdos guardados #retrieve what's our caching setup?
#forget Quitar una memoria guardada #forget the outdated Redis info

En el ejemplo siguiente se muestra un flujo de trabajo de memoria típico.

Guardar contexto importante:

#remember Production uses 3 AKS clusters in West US 2
#remember Our escalation path: PagerDuty, then Teams channel, then phone
#remember Database failover takes approximately 15 minutes

Recuperar más adelante:

#retrieve how long does database failover take?

El agente responde basándose en la memoria guardada: "La conmutación por error de la base de datos tarda aproximadamente 15 minutos".

Base de conocimiento

Cargue la documentación y conecte orígenes externos para proporcionar al agente una biblioteca de referencia más amplia.

Diagrama en el que se muestran los conocimientos procedentes de documentos cargados y conectores MCP, todos los que se pueden buscar juntos.

Cargar documentos

Vaya a Builder>Knowledge base para cargar la documentación. Para obtener información completa sobre los formatos, los límites y la forma en que el agente crea el conocimiento automáticamente, consulte Carga de documentos de conocimiento.

Tipo de documento Bueno para
Runbooks Procedimientos de incidentes paso a paso
Guías de arquitectura Descripción del entorno
Cuadernos de estrategias de llamadas Procedimientos de escalación y respuesta
Documentación de la API Conocimientos específicos del servicio
Procedimientos de equipo Documentos de flujo de trabajo y procesos

Formatos admitidos: Markdown, texto sin formato, PDF, Word, PowerPoint, Excel, imágenes, etc. El tamaño máximo es de 16 MB por archivo. Para obtener la lista completa, consulte Carga de documentos de conocimiento.

Conectar fuentes externas

Acceda a los conocimientos directamente desde sistemas externos mediante conectores. Para obtener la lista completa de orígenes admitidos, consulte Conectores.

Conector Qué proporciona
Azure DevOps Consulta de las páginas wiki de ADO
GitHub Repositorios de búsqueda, wikis, problemas
MCP personalizado Cualquier origen de conocimiento que configure

Configurar conectores en Builder>Conectores. Para obtener más información, consulte Conectores.

Uso de conocimientos en conversaciones

El agente busca automáticamente el conocimiento cuando es relevante para la pregunta.

How should I handle a database failover?

Si carga un runbook, el agente responde con una respuesta fundamentada.

En función del Runbook de base de datos(enlace de cita), los pasos de conmutación por error son los siguientes:

  1. Compruebe el estado de la réplica secundaria...

Seleccione los vínculos de cita para ver el documento de origen completo.

Análisis de la sesión

Después de cada subproceso (una conversación de chat sincrónica o una tarea asincrónica activada automáticamente), el agente genera una perspectiva de sesión. La información de la sesión es lo que permite al agente volverse más inteligente con el tiempo.

¿Qué se captura?

La información de cada sesión extrae el aprendizaje estructurado, que se convierte a su vez en memoria con posibilidades de búsqueda.

Componente Lo que captura Ejemplo
Síntomas observados Patrones de error, comportamientos "Errores HTTP 503, memoria en 95%"
Pasos de resolución Qué ha funcionado "SKU de App Service de escala vertical"
Causa principal ¿Por qué sucedió? "Pérdida de memoria en la implementación v2.3"
Problemas para evitar ¿Qué no funcionó? "Reiniciar no ayudó"

Cuando el sistema genera información

En la tabla siguiente se describe cuándo el sistema genera información de sesión.

Tipo de subproceso Cuando Automático o manual
Sincronizar chat 30 minutos después del último mensaje Automático
Tareas asincrónicas 30 minutos después de la finalización Automático
Comentarios del usuario Al evaluar una respuesta Tú lo desencadenas

Visualización de conclusiones de sesión

Vaya a Supervisión>Información de la sesión para ver:

  • Escala de tiempo de las acciones del agente
  • Puntuaciones de evaluación
  • Aprendizajes clave extraídos
  • Enlaces de subprocesos de origen: cada tarjeta de información incluye un enlace a los subprocesos en los que se generó, por lo que se puede realizar un seguimiento de cualquier información hasta la conversación original.

Para obtener métricas y administración detalladas, consulte Supervisión del uso del agente.

procedimientos recomendados

Siga estas recomendaciones para obtener el máximo valor de las funcionalidades de memoria y conocimiento del agente.

Elija qué cargar frente a conectarse.

Upload Conexión a través del conector
Runbooks de incidentes Páginas wiki activas (ADO, GitHub)
Diagramas de arquitectura Repositorios de código fuente
Procedimientos de escalación Datos de supervisión en tiempo real
Documentación de la API estática Documentos actualizados con frecuencia

Mantener el conocimiento actualizado

Los documentos obsoletos provocan respuestas incorrectas. Revise trimestralmente la base de conocimiento. Para ver qué documentos tiene el agente actualmente, pregunte:

What knowledge documents do you have?

Quitar documentos obsoletos en La base de conocimiento de Builder>.

** Nombre los documentos claramente

Use nombres de archivo descriptivos para ayudar al agente y al equipo a encontrar rápidamente la documentación correcta.

No use Use en su lugar
doc1.txt production-database-failover.md
runbook.md aks-cluster-scaling-runbook.md
notes.txt escalation-procedures-2026.txt
Recurso ¿Por qué es importante?
Carga de documentos de conocimiento Compatibilidad detallada del formato de archivo, límites y conocimientos generados por el agente.
Conectores Cómo los conectores aportan datos externos al agente
Agentes personalizados Cómo los agentes personalizados utilizan el conocimiento en los flujos de trabajo