Eseguire mitigazioni nell'agente SRE di Azure

L'agente diagnostica i problemi e li risolve. Riavvia i servizi, ridimensiona le risorse, rafforza le impostazioni di sicurezza e raccoglie la diagnostica, tutto con il livello di controllo scelto.

[! VIDEO <VIDEO_URL>/Azure_SRE_Agent__Verified_Fix.mp4]

Suggerimento

Chiedere all'agente di risolvere un problema. Propone una soluzione, la si approva ed esegue la correzione.
Audit trail completo: chi l'ha attivata, cosa è cambiato e se ha funzionato.
Scegliere il livello di attendibilità: modalità di revisione (approvare ogni azione) o modalità autonoma (l'agente lo gestisce).

Il problema: la diagnosi senza un'azione perde tempo

È stato identificato il problema. Cosa devo fare adesso? Vai al portale di Azure, trova il pannello corretto, conferma la risorsa, fai clic sulle finestre di dialogo per confermare, attendi il completamento dell'operazione e quindi verifica che abbia funzionato. L'indagine ha richiesto cinque minuti. La correzione richiede altri dieci minuti.

Questo attrito esiste nei flussi di lavoro operativi:

Operazioni giornaliere: ridimensionare le risorse per il carico previsto, riavviare i servizi durante le finestre di manutenzione.
Controlli di conformità: rafforzare le impostazioni di sicurezza tra decine di account di archiviazione.
Risposta su chiamata: eseguire rapidamente correzioni note in modo che i tecnici possano tornare a dormire.
Ottimizzazione proattiva: modificare gli SKU in base ai modelli di utilizzo prima che si verifichino problemi.

Come l'agente chiude il ciclo

Quando l'agente identifica un problema, non si ferma a indicare cosa c'è di sbagliato. Propone un'azione di correzione specifica e, a seconda della modalità di esecuzione, attende l'approvazione o esegue immediatamente l'azione.

L'agente segue un modello coerente: diagnosticare → identificare l'azione → controllare le autorizzazioni → eseguire (o proporre) → verificare il corretto funzionamento della correzione. Ogni azione viene registrata con chi l'ha attivata, cosa è cambiato, perché e se ha avuto esito positivo.

Diagramma che mostra i percorsi di risposta dell'agente: eseguire correzione, creare un elemento di lavoro o inviare una notifica.

Dopo l'analisi, l'agente può intervenire direttamente, creare elementi di rilevamento o inviare una notifica al team, ognuno con contesto completo.

Ciò che rende questo aspetto diverso dagli script

Gli script sono rigidi. Eseguono la stessa azione indipendentemente dal contesto. L'agente analizza la situazione per primo. Considera ciò che ha trovato durante l'indagine, ciò che ricorda dagli incidenti passati e ciò che le tue competenze e la tua base di conoscenze raccomandano. Lo stesso sintomo può causare un riavvio in un caso e un aumento delle prestazioni in un altro, perché l'agente si adatta in base alle prove.

Le modalità di esecuzione offrono attendibilità graduale. Iniziare in modalità Revisione, dove l'agente propone e tu approvi. Passare a Autonomo quando si è certi del modello. Usare ReadOnly per gli agenti di solo monitoraggio che non eseguono mai azioni.

Operazioni che l'agente può eseguire

L'agente può eseguire qualsiasi azione di Azure tramite i comandi dell'interfaccia della riga di comando di Azure. Se puoi eseguirlo in az, anche il tuo agente può eseguirlo. Questa funzionalità include la gestione di qualsiasi tipo di risorsa, la modifica delle configurazioni, la creazione di risorse e l'esecuzione di qualsiasi operazione di Azure.

Tipo di comando	Cosa permette
Lettura dei comandi	Eseguire query su qualsiasi risorsa di Azure - `az webapp list`, `az containerapp show`, `az vm list`, `az network vnet show`. Viene eseguito immediatamente, non è necessaria alcuna approvazione.
Scrivere comandi	Modificare qualsiasi risorsa di Azure: `az webapp restart`, `az containerapp update`, `az vm resize`, `az role assignment create`. Richiede l'approvazione in modalità di revisione.

Le azioni dell'agente sono vincolate solo dalle autorizzazioni assegnate all'identità gestita. Se si concede il ruolo di Contributor a un gruppo di risorse, l'agente può gestire tutti gli elementi in tale gruppo. Se si concede un ruolo personalizzato con azioni specifiche, l'agente è limitato a tali azioni.

Guardiere di sicurezza

L'agente applica vincoli di sicurezza a livello di comando.

Operazioni di eliminazione bloccate — l'agente non esegue mai i comandi delete e remove. Restituisce un errore che indirizza gli utenti al portale di Azure per effettuare eliminazioni.
Comandi di Key Vault bloccati : l'agente blocca tutti i az keyvault comandi per impedire l'esposizione delle credenziali.
Blocchi di gestione rispettati : prima di modificare qualsiasi risorsa, l'agente verifica la presenza di blocchi di gestione di Azure. Non è possibile modificare le risorse con blocchi ReadOnly.
Convalida della sottoscrizione : l'agente convalida gli ID sottoscrizione nei comandi per il formato GUID corretto prima dell'esecuzione.

Prima e dopo

La tabella seguente confronta il processo di mitigazione manuale con l'approccio assistito dall'agente.

	Prima	Dopo
Riparazione dell'esecuzione	Passare al portale di Azure, trovare la risorsa, fare clic nei pannelli	Chiedi all'agente, approva, fatto
Verifica	Controllare manualmente se la correzione ha funzionato	L'agente verifica e segnala il risultato
Revisione	Spero che qualcuno abbia documentato ciò che hanno fatto	Audit trail completo in Application Insights
Conoscenza	Un tecnico conosce la correzione	Agent applica i modelli appresi in modo coerente

Requisiti relativi alle autorizzazioni

Per impostazione predefinita, gli agenti hanno accesso Lettore e non possono eseguire azioni. Si concedono in modo esplicito le autorizzazioni di scrittura assegnando ruoli all'identità gestita dell'agente.

Ambito	Su cosa può agire l'agente	Consigliati per
risorsa	Una singola risorsa	Restrizione massima, iniziare da qui
Gruppo di risorse	Tutte le risorse in un unico gruppo	Carichi di lavoro di produzione
Abbonamento	Qualsiasi risorsa nella sottoscrizione	Solo sviluppo e test

Avviso

L'agente controlla i blocchi di gestione di Azure prima di modificare qualsiasi risorsa. Non è possibile modificare le risorse con blocchi ReadOnly, indipendentemente dalle autorizzazioni o dalla modalità di esecuzione. Le operazioni di eliminazione e rimozione vengono bloccate completamente. È possibile usare il portale di Azure per le eliminazioni.

Percorsi di risposta alternativi

Le mitigazioni dirette non sono l'unica opzione. Molti team preferiscono instradare i risultati agli elementi di lavoro o ai sistemi di creazione di ticket anziché eseguire direttamente le azioni. Gli elementi di lavoro sono particolarmente utili quando è necessaria una revisione umana o si applicano i processi di gestione delle modifiche.

Percorso di risposta	Come funziona	Ideale per
Mitigazione diretta	L'agente esegue il riavvio, l'ampliamento o l'indurimento	Modelli attendibili, non in produzione
Creare un elemento di lavoro	Agent crea un problema di GitHub o un elemento di lavoro di Azure DevOps	Interazione umana nel processo, gestione del cambiamento
Inviare una notifica	I post dell'agente a Teams o l'invio di messaggi di posta elettronica	Consapevolezza senza azione
Attivare il flusso di lavoro	Agente invia GitHub Actions o Logic Apps	Integrazione CI/CD, processi con più passaggi

Configurare la creazione e le notifiche degli elementi di lavoro tramite i connettori. Ad esempio, connettere un server MCP GitHub per consentire all'agente di creare problemi o connettere Azure DevOps per creare automaticamente gli elementi di lavoro.

Per altre informazioni, vedere Inviare notifiche e Automazione del flusso di lavoro per concatenare questi tipi di risposta.

Esempio: mitigazione attivata da eventi imprevisti

L'esempio seguente mostra come l'agente gestisce un incidente di memoria alle 3:47 mentre dormi.

03:47 - PagerDuty genera un avviso: "Uso elevato della memoria in prod-api"

L'agente (in modalità di revisione) gestisce tutti gli elementi:

Riconosce l'incidente — PagerDuty mostra "Riconosciuto dall'agente SRE".
Analizza automaticamente:
- Query di App Insights: memoria al 94%, in aumento nelle ultime 2 ore.
- Controlla la cronologia di distribuzione: nessuna distribuzione recente.
- Ricorda dalla memoria: "Ultima volta che è successo, il riavvio lo ha risolto".

Propone una correzione : invia al thread dell'evento imprevisto:

Memory at 94% on prod-api (App Service).
Recommended action: Restart the App Service.

Evidence:
- Memory climbing since 1:30 AM
- No recent deployments
- Past incident: restart resolved similar issue on 2026-01-15

[Approve] [Deny]

L'utente approva (o in modalità autonoma, l'agente viene eseguito immediatamente).

Agent esegue e verifica:

✓ Restarted prod-api
✓ Memory now at 42%
✓ Incident resolved

Cos'è successo: È stato fatto clic su Approva e l'agente ha gestito l'indagine, l'azione e la verifica.

Traccia di controllo

Il sistema registra ogni azione di mitigazione insieme al contesto completo.

Campo	Informazioni acquisite
Identità	L'agente e l'identità gestita
Action	Operazione esatta eseguita
Timestamp:	Quando l'operazione è stata eseguita
Attivazione	Diagnosi o condizione che ha portato all'azione
Result	Successo o fallimento, con controllo post-azione

È possibile eseguire una query sul audit trail in Application Insights tramite i log di monitoraggio > nel portale dell'agente. Il sistema registra ogni az comando come AgentAzCliExecution evento personalizzato. Per altre informazioni, vedere Controllare le azioni dell'agente.

Passo successivo

Automatizzare i flussi di lavoro

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-03-11