Condividi tramite


Memoria e conoscenze nell'agente SRE di Azure

L'agente diventa più efficace nel tempo memorizzando ciò che ha funzionato negli eventi imprevisti precedenti e facendo riferimento alla documentazione.

Diagramma che mostra la query di SearchMemory su tre origini: incidenti passati, ricordi degli utenti e documenti per fornire risposte fondate con citazioni.

Funzionamento della memoria

Quando si pone una domanda, l'agente esegue la ricerca simultanea in tutte le origini delle informazioni.

origine Cosa trova Ideale per
Eventi imprevisti precedenti Passaggi che hanno risolto problemi simili "Come abbiamo risolto questo problema prima?"
Ricordi utente Fatti salvati in modo esplicito Ricorda che il mio ambiente utilizza...
Knowledge Base Runbook e documentazione caricati "Seguire la procedura standard"

L'agente restituisce una risposta ben fondata con citazioni cliccabili che mostrano esattamente da dove provengono le informazioni.

Apprendimento automatico

L'agente apprende da ogni conversazione. Non è necessario alcun addestramento manuale.

Diagramma che mostra l'agente che estrae automaticamente le informazioni dopo ogni sessione: sintomi, passaggi di risoluzione, causa radice e insidie da evitare.

Al termine di ogni thread, l'agente acquisisce le informazioni seguenti.

Cosa Descrizione
Sintomi osservati Messaggi di errore, comportamenti, modelli
Passaggi che hanno avuto successo Percorso di risoluzione completato
Causa radice Cosa ha causato il problema
Insidie da evitare Cosa non funzionava, fine morta

Questo processo viene eseguito automaticamente. Trenta minuti dopo che un thread diventa silenzioso, l'agente valuta la conversazione e indicizza le informazioni.

Priorità della stessa risorsa

Quando si analizza un problema di risorsa, l'agente assegna la priorità alle sessioni precedenti nella stessa risorsa.

"App Service app-prod-01 is returning 503 errors"

Il tuo agente controlla per prima cosa se ha visto problemi su app-prod-01 in precedenza. In caso affermativo, tali apprendimento vengono visualizzati per primi perché hanno la più alta rilevanza.

Persistenza proattiva delle conoscenze

Oltre all'apprendimento dai thread completati, l'agente salva attivamente ciò che individua durante le conversazioni. Quando l'agente rileva qualcosa di importante (una configurazione complessa, una dipendenza non ovvia o un gotcha di debug), registra le informazioni dettagliate nei file di conoscenza permanenti che si trovano tra le sessioni.

Come funziona

L'agente mantiene un repertorio di conoscenze in memories/synthesizedKnowledge/. L'agente carica automaticamente un file speciale, overview.md, nella richiesta di sistema all'inizio di ogni conversazione. Questo approccio consente all'agente di accedere immediatamente al contesto più importante dell'ambiente.

Componente Funzionamento
overview.md Riepilogo del servizio e indice. Sempre caricato nel contesto (~2.000 caratteri budget).
File dei temi Note dettagliate su argomenti specifici (ad esempio, aks-networking-gotchas.md).
Collegamenti dalla panoramica overview.md collegamenti ai file di argomento in modo che l'agente conosca le informazioni dettagliate esistenti.

Cosa salva il tuo agente

L'agente registra in modo proattivo informazioni dettagliate durante le conversazioni.

Categoria Examples
Vincoli del problema "Questo servizio non può scalare oltre 10 repliche a causa dei limiti di quota"
Strategie che hanno funzionato "Il riavvio del pod con --grace-period=0 ha risolto il problema della distribuzione bloccata"
Strategie non riuscite "L'aumento del limite di memoria non è stato utile. Il problema era il throttling della CPU
Dipendenze non ovvie "app-frontend dipende da un proxy sidecar che deve essere avviato per primo"
Dettagli di configurazione "La produzione usa certificati TLS personalizzati archiviati in Key Vault"

Organizzazione delle conoscenze

L'agente organizza le informazioni semanticamente in base all'argomento, non in ordine cronologico. Ogni file è un riferimento autonomo.

File Cosa acquisisce
overview.md Riepilogo dei servizi, collegamenti chiave, indice dei file di argomento (~2.000 caratteri)
team.md Membri del team, ruoli, competenze (circa 500 caratteri)
architecture.md Componenti, connessioni, ambienti (~1.500 caratteri)
logs.md Origini di log, tabelle, campi chiave, query utili (~1.500 caratteri)
deployment.md Dettagli della pipeline, ricerca della versione, procedure di rollback (~1.000 caratteri)
auth.md Meccanismi di autenticazione, flussi di identità (~800 chars)
debugging.md Problemi comuni, guide per la risoluzione dei guasti, link ai runbook (~1.000 caratteri)
queries/*.md Query estratte organizzate per argomento (circa 1.000 caratteri ciascuno)

Quando si aggiornano le conoscenze esistenti, l'agente legge il file corrente, unisce nuove informazioni e rimuove tutto ciò che diventa obsoleto o errato.

Suggerimento

È possibile chiedere all'agente di salvare anche le informazioni

Oltre alla persistenza automatica, è possibile chiedere esplicitamente all'agente di salvare le informazioni nei relativi file di conoscenza:

Save this to your knowledge: our Redis cache uses Premium tier with 6GB,
and failover takes about 90 seconds.

L'agente crea o aggiorna il file di conoscenza appropriato e lo collega da overview.md.

Questo approccio è diverso dai #remember comandi (descritti nella sezione successiva), che salvano fatti discreti in un archivio di memoria separato. I file di conoscenza sono riferimenti strutturati e persistenti consultati dall'agente all'inizio di ogni conversazione. I ricordi utente sono singoli fatti ricercabili tramite #retrieve.

Ricordi utente

Oltre a ciò che l'agente apprende e mantiene automaticamente, è possibile salvare in modo esplicito fatti discreti per ricordare l'agente. I ricordi utente sono ideali per dettagli specifici dell'ambiente che potrebbero non venire presenti in eventi imprevisti, ma sono importanti per il contesto.

La tabella seguente descrive i candidati validi per i ricordi utente.

Categoria Examples
Fatti dell'ambiente Produzione utilizza tre cluster del servizio Azure Kubernetes Service nella Regione Stati Uniti occidentali 2
Preferenze del team "Preferiamo l'interfaccia della riga di comando rispetto al portale per le distribuzioni"
Dettagli dell'architettura "app-service-01 dipende da sql-prod"
Percorsi di escalation PagerDuty, quindi canale Teams, poi telefono

Comandi di memoria

Gestire i ricordi degli utenti usando questi comandi di chat.

Comando Funzionamento Esempio
#remember Salvare un fatto per riferimento futuro #remember our Redis cache uses Premium tier
#retrieve Cerca i tuoi ricordi salvati #retrieve what's our caching setup?
#forget Rimuovere una memoria salvata #forget the outdated Redis info

Nell'esempio seguente viene illustrato un flusso di lavoro di memoria tipico.

Salva contesto importante:

#remember Production uses 3 AKS clusters in West US 2
#remember Our escalation path: PagerDuty, then Teams channel, then phone
#remember Database failover takes approximately 15 minutes

Recuperare in un secondo momento:

#retrieve how long does database failover take?

L'agente risponde in base alla memoria salvata: "Il failover del database richiede circa 15 minuti".

Base di Conoscenza

Caricare la documentazione e connettere origini esterne per offrire all'agente una libreria di riferimento più ampia.

Diagramma che mostra le conoscenze provenienti da documenti caricati e connettori MCP, tutti ricercabili insieme.

Carica documenti

Accedi a Builder Knowledge Base per caricare la documentazione.

Tipo di documento Buono per
Runbooks Procedure dettagliate per gli eventi imprevisti
Guide all'architettura Informazioni sull'ambiente
Playbook di reperibilità Procedure di escalation e risposta
Documentazione dell'API Conoscenza specifica del servizio
Procedure operative del gruppo di lavoro Documentazione sul flusso di lavoro e sul processo

Formati supportati: Markdown (.md), Testo normale (.txt). La dimensione massima del file è 16 MB.

Collegare fonti esterne

Accedere alle informazioni direttamente dai sistemi esterni usando i connettori.

Connettore Elementi forniti
Azure DevOps Effettuare una query sulle pagine wiki di ADO
GitHub Cerca repository, wiki, problemi
Microsoft Learn Documentazione ufficiale di Microsoft
McP personalizzato Qualsiasi fonte di conoscenza configurata

Configurare i connettori in Impostazioni > Connettori. Per altre informazioni, vedere Connettori.

Usare le conoscenze nelle conversazioni

L'agente cerca automaticamente le informazioni quando è rilevante per la domanda.

How should I handle a database failover?

Se si carica un runbook, l'agente risponde con una risposta fondata.

In base al runbook del database(collegamento di citazione), ecco i passaggi di failover:

  1. Verificare l'integrità della replica secondaria...

Selezionare i collegamenti di citazione per visualizzare il documento di origine completo.

Informazioni dettagliate sulla sessione

Dopo ogni thread (una conversazione di chat sincrona o un'attività asincrona attivata automaticamente), l'agente genera un approfondimento sulla sessione. Le informazioni dettagliate sulle sessioni sono il modo in cui l'agente diventa più intelligente nel tempo.

Cosa viene acquisito

Ogni analisi della sessione estrae apprendimenti strutturati che diventano memoria ricercabile.

Componente Cosa acquisisce Esempio
Sintomi osservati Modelli di errore, comportamenti "Errori HTTP 503, memoria a 95%"
Procedura per la risoluzione Cosa ha funzionato "SKU del servizio app con scalabilità orizzontale"
Causa radice Perché è successo "Perdita di memoria nella distribuzione v2.3"
Insidie da evitare Cosa non funzionava "Il riavvio non è stato d'aiuto"

Quando vengono generate informazioni dettagliate

Nella tabella seguente viene descritto quando vengono generate informazioni dettagliate sulla sessione.

Tipo di thread Quando Auto o manuale
Sincronizzare la chat 30 minuti dopo l'ultimo messaggio Automatico
Attività asincrone 30 minuti dopo il completamento Automatico
commenti e suggerimenti degli utenti Quando si valuta una risposta Lo attivi

Visualizzare le informazioni dettagliate sulla sessione

Passare a Monitorare > le informazioni dettagliate sulle sessioni per visualizzare:

  • Sequenza temporale delle azioni dell'agente
  • Punteggi di valutazione
  • Apprendimento chiave estratto
  • Collegamenti al thread di origine: ogni scheda di informazioni dettagliate si collega nuovamente ai thread che l'hanno generata, in modo da poter tracciare tutte le informazioni dettagliate sulla conversazione originale

Per metriche e gestione dettagliate, vedere Monitorare l'utilizzo dell'agente.

Procedure consigliate

Seguire questi consigli per ottenere il massimo valore dalle funzionalità di memoria e conoscenza dell'agente.

Scegliere cosa caricare e connettere

Upload Connettersi tramite connettore
Runbook degli incidenti Pagine wiki in tempo reale (ADO, GitHub)
Diagrammi dell'architettura Repository di codice sorgente
Procedure di escalation Dati di monitoraggio in tempo reale
Documentazione dell'API statica Documentazione aggiornata di frequente

Mantenere aggiornate le conoscenze

I documenti obsoleti causano risposte non corrette. Esamina la base di conoscenza trimestralmente. Per vedere quali documenti possiede attualmente l'agente, puoi chiedere:

What knowledge documents do you have?

Rimuovere i documenti obsoleti nella Knowledge Base di Builder>.

Denominare chiaramente i documenti

Usare nomi di file descrittivi per aiutare l'agente e il team a trovare rapidamente la documentazione corretta.

Non usare Usare invece
doc1.txt production-database-failover.md
runbook.md aks-cluster-scaling-runbook.md
notes.txt escalation-procedures-2026.txt

Passo successivo

  • Connettori: collega fonti di conoscenza esterne al tuo agente.
  • Subagenti: creare agenti specializzati con funzionalità incentrate.