Condividi tramite


Automatizzare la risposta agli eventi imprevisti nell'agente SRE di Azure

L'agente monitora, analizza e risolve gli incidenti mentre dormi. Impara da ogni correzione per diventare più intelligente nel tempo. Smetti di cambiare contesto alle 3.

[! VIDEO <VIDEO_URL>/Automated_Incident_Response.mp4]

Suggerimento

  • L'agente riconosce gli eventi imprevisti e inizia l'analisi entro pochi secondi.
  • Correla automaticamente log, metriche, distribuzioni e eventi imprevisti precedenti.
  • Propone correzioni o soluzioni in modo autonomo in base alla modalità di esecuzione.
  • Le informazioni acquisite in memoria migliorano la gestione futura degli eventi imprevisti.
  • Condivide i thread di indagine con i compagni di squadra tramite collegamenti diretti.

Il problema: 3:00, cinque schede, un ingegnere esaurito

Quando un avviso viene attivato alle 3:00, non ti limiti a svegliarti - cambi contesto. Si apre PagerDuty per vedere cosa c'è di sbagliato, quindi Grafana per le metriche, Quindi Log Analytics per gli errori, Quindi Slack per verificare se qualcun altro conosce qualcosa, quindi un runbook aggiornato sei mesi fa.

Nel frattempo, l'orologio ticchetta sul tempo medio di risoluzione (MTTR). La conoscenza di come risolvere questo problema esiste in un evento imprevisto passato, nella testa di un compagno di squadra o in un runbook che nessuno legge. Ma alle 3:00 non riesci a trovarlo.

Come l'agente risolve questo problema

L'agente inizia a funzionare entro pochi secondi quando si verifica un evento imprevisto.

Diagramma che mostra il flusso di risposta agli eventi imprevisti: si attiva un allarme, l'agente riconosce, raccoglie il contesto, formula ipotesi, convalida e risolve o esegue l'escalation.

L'agente segue questa procedura:

  1. Riconosce l'avviso nella piattaforma degli eventi imprevisti (PagerDuty, ServiceNow o Monitoraggio di Azure).
  2. Interroga i tuoi strumenti di osservabilità, Azure Monitor, Application Insights, oltre a qualsiasi origine connessa come Kusto o strumenti non Microsoft tramite MCP.
  3. Correla con la cronologia di distribuzione : se è stato connesso il controllo del codice sorgente o si è creato un agente personalizzato compatibile con la distribuzione.
  4. Verifica la presenza di problemi simili nella memoria : "È stato rilevato questo errore esatto tre settimane fa. Ecco cosa l'ha risolto.
  5. Forma ipotesi su ciò che è andato storto e convalida ognuno con prove.
  6. Propone una correzione o risolve in modo autonomo in base alla modalità di esecuzione.

Quando ti svegli, l'incidente è già stato risolto con un resoconto dettagliato delle motivazioni, oppure hai una chiara raccomandazione in attesa della tua approvazione.

Cosa rende questo approccio diverso

L'agente migliora gli approcci tradizionali in diversi modi chiave.

A differenza dei runbook, l'agente apprende da ogni evento imprevisto. Quando una correzione funziona, la ricorda. Quando si aggiunge un runbook alla knowledge base, l'agente vi fa riferimento automaticamente. I runbook diventano obsoleti; la memoria dell'agente diventa più intelligente.

A differenza degli script, l'agente si adatta. Uno script esegue gli stessi passaggi indipendentemente dal contesto. Il tuo agente ragiona sulla situazione specifica e lavora per correlare le prove attraverso tutte le fonti connesse per capire cosa c'è di sbagliato.

A differenza dei dashboard, l'agente agisce. I dashboard visualizzano i dati da interpretare. L'agente interpreta i dati, forma ipotesi e propone soluzioni. Al termine di questo lavoro, verranno esaminate le conclusioni e non le metriche non elaborate.

Prima e dopo

La tabella seguente confronta la risposta manuale agli eventi imprevisti con la risposta agli eventi imprevisti assistita dall'agente.

Area Prima Dopo
Riconoscimento Aspetta che l'uomo si svegli L'agente riconosce immediatamente
Strumenti aperti 5+ schede 0 (agente lo gestisce)
Analisi Correlazione manuale tra gli strumenti Agent interroga automaticamente tutte le fonti
Conoscenza acquisita Nella testa del tecnico Salvata in memoria
Sospensione interrotta No
Condivisione dei risultati Screenshot o descrizione del percorso di spostamento Copia il link della discussione, incolla in Teams

Condividere thread di investigazione

Durante un incidente attivo, è necessario che il team sia allineato a ciò che ha trovato l'agente. Ogni thread di indagine ha un'opzione Copia collegamento nel thread che genera un collegamento profondo condivisibile. Incollarlo in Teams o Slack.

Per copiare un collegamento di thread:

  1. Aprire qualsiasi thread di indagine sugli eventi imprevisti.
  2. Selezionare il pulsante (altre opzioni) accanto al titolo del thread.
  3. Selezionare Copia collegamento al thread.

L'URL copiato funziona tra i metodi di accesso. I destinatari con accesso all'agente selezionano il collegamento e arrivano direttamente nel thread di indagine.

Quando condividere i collegamenti di thread:

  • Durante la gestione dell'incidente, condividere l'analisi della causa radice dell'agente con il team.
  • Nelle revisioni post-incidente, collegarsi direttamente al thread di indagine come prova.
  • Inviare una ricerca specifica a un compagno di squadra per una seconda opinione.

Inizia subito

risorsa Cosa imparerai
Automatizzare la risposta agli eventi imprevisti Connettere la piattaforma degli eventi imprevisti, creare piani di risposta e controllare che l'agente gestisca un evento imprevisto reale

Passo successivo