Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
L'agente monitora, analizza e risolve gli incidenti mentre dormi. Impara da ogni correzione per diventare più intelligente nel tempo. Smetti di cambiare contesto alle 3.
[! VIDEO <VIDEO_URL>/Automated_Incident_Response.mp4]
Suggerimento
- L'agente riconosce gli eventi imprevisti e inizia l'analisi entro pochi secondi.
- Correla automaticamente log, metriche, distribuzioni e eventi imprevisti precedenti.
- Propone correzioni o soluzioni in modo autonomo in base alla modalità di esecuzione.
- Le informazioni acquisite in memoria migliorano la gestione futura degli eventi imprevisti.
Il problema: 3:00, cinque schede, un ingegnere esaurito
Quando scatta un avviso alle 3:00, non ti limiti a svegliarti: sei costretto a cambiare contesto. Si apre PagerDuty per vedere cosa c'è di sbagliato, quindi Grafana per le metriche, Quindi Log Analytics per gli errori, Quindi Slack per verificare se qualcun altro conosce qualcosa, quindi un runbook aggiornato sei mesi fa.
Nel frattempo, l'orologio sta passando sul tempo medio di risoluzione (MTTR). La conoscenza di come risolvere questo problema esiste in un evento imprevisto passato, nella testa di un compagno di squadra o in un runbook che nessuno legge. Ma alle 3:00 non riesci a trovarlo.
Come l'agente risolve questo problema
L'agente inizia a funzionare entro pochi secondi quando si verifica un evento imprevisto.
L'agente segue questa procedura:
- Riconosce l'avviso nella piattaforma degli eventi imprevisti (PagerDuty, ServiceNow o Monitoraggio di Azure).
- Esegue query sugli strumenti di osservabilità - Azure Monitor, Application Insights e tutte le origini connesse come Kusto o strumenti di terze parti via MCP.
- Correla con la cronologia di distribuzione : se è stato connesso il controllo del codice sorgente o si è compilato un subagent compatibile con la distribuzione.
- Verifica la presenza di problemi simili nella memoria : "È stato rilevato questo errore esatto tre settimane fa. Ecco cosa l'ha risolto.
- Forma ipotesi su ciò che è andato storto e convalida ognuno con prove.
- Propone una correzione o risolve in modo autonomo in base alla modalità di esecuzione.
Quando ti svegli, l'incidente è già stato risolto con un resoconto dettagliato delle motivazioni, oppure hai una chiara raccomandazione in attesa della tua approvazione.
Cosa rende questo diverso
L'agente migliora gli approcci tradizionali in diversi modi chiave.
A differenza dei runbook, l'agente apprende da ogni evento imprevisto. Quando funziona una correzione, ricorda. Quando si aggiunge un runbook alla knowledge base, l'agente vi fa riferimento automaticamente. I runbook diventano obsoleti; la memoria dell'agente diventa più intelligente.
A differenza degli script, l'agente si adatta. Uno script esegue gli stessi passaggi indipendentemente dal contesto. Il tuo agente ragiona sulla situazione specifica e funziona per correlare le prove in tutte le origini connesse per capire cosa è effettivamente sbagliato.
A differenza dei dashboard, l'agente agisce. I dashboard visualizzano i dati da interpretare. L'agente interpreta i dati, forma ipotesi e propone soluzioni. Al termine di questo lavoro, verranno esaminate le conclusioni e non le metriche non elaborate.
| Capability | Cosa contribuisce |
|---|---|
| Memory | Richiama le correzioni passate ed evita insidie che non funzionano |
| Knowledge Base | Risposte a motivi nei runbook e nelle procedure |
| Connettori | Estrae i dati da PagerDuty, GitHub, Kusto ed altro |
| Modalità di esecuzione | Controlla quanto autonomia ha l'agente |
Prima e dopo
La tabella seguente confronta la risposta manuale agli eventi imprevisti con la risposta agli eventi imprevisti assistita dall'agente.
| Area | Prima | Dopo |
|---|---|---|
| Riconoscimento | Aspetta che l'uomo si svegli | L'agente riconosce immediatamente |
| Strumenti aperti | 5+ schede | 0 (agente lo gestisce) |
| Analisi | Correlazione manuale tra gli strumenti | Agent interroga automaticamente tutte le fonti |
| Conoscenza acquisita | Nella testa del tecnico | Salvata in memoria |
| Sospensione interrotta | Sì | No |
Inizia subito
Per configurare la risposta agli eventi imprevisti, seguire il passaggio 4: Configurare la risposta agli eventi imprevisti nella guida introduttiva. Tu:
- Connettere la piattaforma degli eventi imprevisti (PagerDuty, ServiceNow o Monitoraggio di Azure).
- Creare il primo piano di risposta.
- Osserva il tuo agente gestire un vero incidente.
Passo successivo
Contenuti correlati
- Piani di risposta agli incidenti: controllare quali incidenti gestisce l'agente utilizzando filtri, instradamento in base alla gravità e infrastructure as code.
- Analisi approfondita - Analisi estesa basata su ipotesi per eventi imprevisti complessi.
- Analisi della causa radice - Indagine basata su ipotesi.
- Diagnosticare con gli strumenti di osservabilità di Azure - Strumenti di diagnostica integrati di Azure.
- Modalità di esecuzione - Controllare il livello di autonomia dell'agente.