Memoria y conocimientos en el agente de SRE de Azure

El agente se vuelve más eficaz a lo largo del tiempo al recordar lo que funcionó en incidentes anteriores y hacer referencia a la documentación.

Funcionamiento de la memoria

Al hacer una pregunta, el agente busca en todos los orígenes de conocimiento simultáneamente.

Fuente	Lo que encuentra	Más adecuado para
Incidentes pasados	Pasos que resolvieron problemas similares	"¿Cómo arreglamos esto antes?"
Memorias del usuario	Hechos que guarda explícitamente	"Recuerde que mi entorno usa..."
Knowledge Base	Los runbooks y documentos cargados	"Siga nuestro procedimiento estándar"

El agente devuelve una respuesta fundamentada con citas en las que se pueden hacer clic que muestran exactamente de dónde procede la información.

Aprendizaje automático

El agente aprende de cada conversación. No necesita ningún entrenamiento manual.

Una vez finalizado cada subproceso, el agente captura la siguiente información.

Qué	Descripción
Síntomas observados	Mensajes de error, comportamientos, patrones
Pasos que han funcionado	Ruta de resolución que tuvo éxito
Causa principal	¿Qué causó el problema?
Problemas para evitar	¿Qué no funcionó, callejones sin salida?

Este proceso se produce automáticamente. Treinta minutos después de que un hilo se quede en silencio, el agente evalúa la conversación e indexa los aprendizajes.

Prioridad del mismo recurso

Al investigar un problema de recursos, el agente prioriza las sesiones anteriores en el mismo recurso exactamente.

"App Service app-prod-01 is returning 503 errors"

El agente comprueba en primer lugar si ha detectado algún problema en app-prod-01. Si es así, esos aprendizajes aparecen primero porque son los más relevantes.

Persistencia proactiva del conocimiento

Además de aprender de los subprocesos completados, el agente guarda de forma activa lo que aprende y descubre durante las conversaciones. Cuando el agente detecta algo importante (una configuración complicada, una dependencia poco evidente o un problema de depuración), registra la información en archivos de conocimiento persistentes que se conservan entre sesiones.

Cómo funciona

El agente mantiene un directorio de conocimiento en memories/synthesizedKnowledge/. El agente carga automáticamente un archivo especial, overview.md, en la consola de comandos al principio de cada conversación. Este enfoque proporciona al agente acceso inmediato al contexto más importante sobre su entorno.

Componente	Qué hace
`overview.md`	Resumen del servicio e índice. Siempre cargado en contexto (límite de ~2000 caracteres).
Archivos de temas	Notas detalladas sobre temas específicos (por ejemplo, `aks-networking-gotchas.md`).
Vínculos de información general	`overview.md` vínculos a archivos de temas para que el agente sepa qué conocimiento detallado existe.

Lo que guarda el agente

El agente registra de forma proactiva información durante las conversaciones.

Categoría	Ejemplos
Condiciones del problema	"Este servicio no puede escalar más de 10 réplicas debido a los límites de cuota".
Estrategias que funcionaban	Reiniciar el pod con `--grace-period=0` resolvió la implementación atascada.
Estrategias erróneas	"El aumento del límite de memoria no ayudó. El problema estaba siendo la aceleración de la CPU.
Dependencias no obvias	"app-frontend depende de un proxy sidecar que debe iniciarse primero".
Detalles de configuración	"Producción usa certificados TLS personalizados almacenados en Key Vault".

Organización del conocimiento

El agente organiza el conocimiento semánticamente por tema, no cronológicamente. Cada archivo es una referencia independiente.

Archivo	Lo que captura
`overview.md`	Resumen del servicio, vínculos clave, índice de archivos de tema (~2000 caracteres)
`team.md`	Miembros del equipo, roles, experiencia (~500 caracteres)
`architecture.md`	Componentes, conexiones, entornos (~1500 caracteres)
`logs.md`	Orígenes de registro, tablas, campos clave, consultas útiles (~1500 caracteres)
`deployment.md`	Detalles de la canalización, búsqueda de versiones, procedimientos de reversión (~1000 caracteres)
`auth.md`	Mecanismos de autenticación, flujos de identidad (~800 caracteres)
`debugging.md`	Problemas comunes, guías de solución de problemas, vínculos de manuales de ejecución (~1000 caracteres)
`queries/*.md`	Consultas extraídas organizadas por tema (~1000 caracteres cada una)

Al actualizar los conocimientos existentes, el agente lee el archivo actual, combina información nueva y quita todo lo que quede obsoleto o incorrecto.

Sugerencia

También puede solicitar a su agente que guarde la información.

Más allá de la persistencia automática, puede pedir explícitamente al agente que guarde información en sus archivos de conocimiento:

Save this to your knowledge: our Redis cache uses Premium tier with 6GB,
and failover takes about 90 seconds.

El agente crea o actualiza el archivo de conocimiento adecuado y lo vincula desde overview.md.

Este enfoque es diferente de los comandos #remember (descritos en la sección siguiente), que guardan hechos discretos en un almacén de memoria independiente. Los archivos de conocimiento son referencias persistentes y estructuradas que el agente consulta al principio de cada conversación. Los recuerdos de usuario son hechos individuales que se pueden buscar a través de #retrieve.

Memorias del usuario

Más allá de lo que tu agente aprende y persiste automáticamente, puedes guardar explícitamente hechos discretos para que tu agente los recuerde. Los recuerdos de usuario son ideales para detalles específicos del entorno que podrían no aparecer en incidentes, pero son importantes para el contexto.

En la tabla siguiente se describen candidatos idóneos para las memorias de usuario.

Categoría	Ejemplos
Hechos sobre el entorno	Producción utiliza tres clústeres de AKS en el Oeste de EE. UU. 2
Preferencias del equipo	Preferimos la CLI en lugar del portal para las implementaciones.
Detalles de la arquitectura	"app-service-01 depende de sql-prod"
Rutas de escalación	"PagerDuty, luego canal de Teams y teléfono"

Comandos de memoria

Administrar memorias de usuario mediante estos comandos de chat.

Comando	Qué hace	Ejemplo
`#remember`	Guardar un hecho para una referencia futura	`#remember our Redis cache uses Premium tier`
`#retrieve`	Buscar en los recuerdos guardados	`#retrieve what's our caching setup?`
`#forget`	Quitar una memoria guardada	`#forget the outdated Redis info`

En el ejemplo siguiente se muestra un flujo de trabajo de memoria típico.

Guardar contexto importante:

#remember Production uses 3 AKS clusters in West US 2
#remember Our escalation path: PagerDuty, then Teams channel, then phone
#remember Database failover takes approximately 15 minutes

Recuperar más adelante:

#retrieve how long does database failover take?

El agente responde basándose en la memoria guardada: "La conmutación por error de la base de datos tarda aproximadamente 15 minutos".

Base de conocimiento

Cargue la documentación y conecte orígenes externos para proporcionar al agente una biblioteca de referencia más amplia.

Cargar documentos

Vaya a Builder>Knowledge base para cargar la documentación. Para obtener información completa sobre los formatos, los límites y la forma en que el agente crea el conocimiento automáticamente, consulte Carga de documentos de conocimiento.

Tipo de documento	Bueno para
Runbooks	Procedimientos de incidentes paso a paso
Guías de arquitectura	Descripción del entorno
Cuadernos de estrategias de llamadas	Procedimientos de escalación y respuesta
Documentación de la API	Conocimientos específicos del servicio
Procedimientos de equipo	Documentos de flujo de trabajo y procesos

Formatos admitidos: Markdown, texto sin formato, PDF, Word, PowerPoint, Excel, imágenes, etc. El tamaño máximo es de 16 MB por archivo. Para obtener la lista completa, consulte Carga de documentos de conocimiento.

Conectar fuentes externas

Acceda a los conocimientos directamente desde sistemas externos mediante conectores. Para obtener la lista completa de orígenes admitidos, consulte Conectores.

Conector	Qué proporciona
Azure DevOps	Consulta de las páginas wiki de ADO
GitHub	Repositorios de búsqueda, wikis, problemas
MCP personalizado	Cualquier origen de conocimiento que configure

Configurar conectores en Builder>Conectores. Para obtener más información, consulte Conectores.

Uso de conocimientos en conversaciones

El agente busca automáticamente el conocimiento cuando es relevante para la pregunta.

How should I handle a database failover?

Si carga un runbook, el agente responde con una respuesta fundamentada.

En función del Runbook de base de datos(enlace de cita), los pasos de conmutación por error son los siguientes:

Compruebe el estado de la réplica secundaria...

Seleccione los vínculos de cita para ver el documento de origen completo.

Análisis de la sesión

Después de cada subproceso (una conversación de chat sincrónica o una tarea asincrónica activada automáticamente), el agente genera una perspectiva de sesión. La información de la sesión es lo que permite al agente volverse más inteligente con el tiempo.

¿Qué se captura?

La información de cada sesión extrae el aprendizaje estructurado, que se convierte a su vez en memoria con posibilidades de búsqueda.

Componente	Lo que captura	Ejemplo
Síntomas observados	Patrones de error, comportamientos	"Errores HTTP 503, memoria en 95%"
Pasos de resolución	Qué ha funcionado	"SKU de App Service de escala vertical"
Causa principal	¿Por qué sucedió?	"Pérdida de memoria en la implementación v2.3"
Problemas para evitar	¿Qué no funcionó?	"Reiniciar no ayudó"

Cuando el sistema genera información

En la tabla siguiente se describe cuándo el sistema genera información de sesión.

Tipo de subproceso	Cuando	Automático o manual
Sincronizar chat	30 minutos después del último mensaje	Automático
Tareas asincrónicas	30 minutos después de la finalización	Automático
Comentarios del usuario	Al evaluar una respuesta	Tú lo desencadenas

Visualización de conclusiones de sesión

Vaya a Supervisión>Información de la sesión para ver:

Escala de tiempo de las acciones del agente
Puntuaciones de evaluación
Aprendizajes clave extraídos
Enlaces de subprocesos de origen: cada tarjeta de información incluye un enlace a los subprocesos en los que se generó, por lo que se puede realizar un seguimiento de cualquier información hasta la conversación original.

Para obtener métricas y administración detalladas, consulte Supervisión del uso del agente.

procedimientos recomendados

Siga estas recomendaciones para obtener el máximo valor de las funcionalidades de memoria y conocimiento del agente.

Elija qué cargar frente a conectarse.

Upload	Conexión a través del conector
Runbooks de incidentes	Páginas wiki activas (ADO, GitHub)
Diagramas de arquitectura	Repositorios de código fuente
Procedimientos de escalación	Datos de supervisión en tiempo real
Documentación de la API estática	Documentos actualizados con frecuencia

Mantener el conocimiento actualizado

Los documentos obsoletos provocan respuestas incorrectas. Revise trimestralmente la base de conocimiento. Para ver qué documentos tiene el agente actualmente, pregunte:

What knowledge documents do you have?

Quitar documentos obsoletos en La base de conocimiento de Builder>.

** Nombre los documentos claramente

Use nombres de archivo descriptivos para ayudar al agente y al equipo a encontrar rápidamente la documentación correcta.

No use	Use en su lugar
doc1.txt	production-database-failover.md
runbook.md	aks-cluster-scaling-runbook.md
notes.txt	escalation-procedures-2026.txt

Recurso	¿Por qué es importante?
Carga de documentos de conocimiento	Compatibilidad detallada del formato de archivo, límites y conocimientos generados por el agente.
Conectores	Cómo los conectores aportan datos externos al agente
Agentes personalizados	Cómo los agentes personalizados utilizan el conocimiento en los flujos de trabajo

Comentarios

Resultoulle útil esta páxina?

Last updated on 2026-04-02