Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
L'agente diagnostica i problemi e li risolve. Riavvia i servizi, ridimensiona le risorse, rafforza le impostazioni di sicurezza e raccoglie la diagnostica, tutto con il livello di controllo scelto.
[! VIDEO <VIDEO_URL>/Azure_SRE_Agent__Verified_Fix.mp4]
Suggerimento
- Chiedere all'agente di risolvere un problema. Propone una soluzione, la si approva ed esegue la correzione.
- Audit trail completo: chi l'ha attivata, cosa è cambiato e se ha funzionato.
- Scegliere il livello di attendibilità: modalità di revisione (approvare ogni azione) o modalità autonoma (l'agente lo gestisce).
Il problema: la diagnosi senza un'azione perde tempo
È stato identificato il problema. Cosa devo fare adesso? Vai al portale di Azure, trova il pannello corretto, conferma la risorsa, fai clic sulle finestre di dialogo per confermare, attendi il completamento dell'operazione e quindi verifica che abbia funzionato. L'indagine ha richiesto cinque minuti. La correzione richiede altri dieci minuti.
Questo attrito esiste nei flussi di lavoro operativi:
- Operazioni giornaliere: ridimensionare le risorse per il carico previsto, riavviare i servizi durante le finestre di manutenzione.
- Controlli di conformità: rafforzare le impostazioni di sicurezza tra decine di account di archiviazione.
- Risposta su chiamata: eseguire rapidamente correzioni note in modo che i tecnici possano tornare a dormire.
- Ottimizzazione proattiva: modificare gli SKU in base ai modelli di utilizzo prima che si verifichino problemi.
Come l'agente chiude il ciclo
Quando l'agente identifica un problema, non si ferma a indicare cosa c'è di sbagliato. Propone un'azione di correzione specifica e, a seconda della modalità di esecuzione, attende l'approvazione o esegue immediatamente l'azione.
L'agente segue un modello coerente: diagnosticare → identificare l'azione → controllare le autorizzazioni → eseguire (o proporre) → verificare il corretto funzionamento della correzione. Ogni azione viene registrata con chi l'ha attivata, cosa è cambiato, perché e se ha avuto esito positivo.
Dopo l'analisi, l'agente può intervenire direttamente, creare elementi di rilevamento o inviare una notifica al team, ognuno con contesto completo.
Ciò che rende questo aspetto diverso dagli script
Gli script sono rigidi. Eseguono la stessa azione indipendentemente dal contesto. L'agente analizza la situazione per primo. Considera ciò che ha trovato durante l'indagine, ciò che ricorda dagli incidenti passati e ciò che le tue competenze e la tua base di conoscenze raccomandano. Lo stesso sintomo può causare un riavvio in un caso e un aumento delle prestazioni in un altro, perché l'agente si adatta in base alle prove.
Le modalità di esecuzione offrono attendibilità graduale. Iniziare in modalità Revisione, dove l'agente propone e tu approvi. Passare a Autonomo quando si è certi del modello. Usare ReadOnly per gli agenti di solo monitoraggio che non eseguono mai azioni.
Operazioni che l'agente può eseguire
L'agente può eseguire qualsiasi azione di Azure tramite i comandi dell'interfaccia della riga di comando di Azure. Se puoi eseguirlo in az, anche il tuo agente può eseguirlo. Questa funzionalità include la gestione di qualsiasi tipo di risorsa, la modifica delle configurazioni, la creazione di risorse e l'esecuzione di qualsiasi operazione di Azure.
| Tipo di comando | Cosa permette |
|---|---|
| Lettura dei comandi | Eseguire query su qualsiasi risorsa di Azure - az webapp list, az containerapp show, az vm list, az network vnet show. Viene eseguito immediatamente, non è necessaria alcuna approvazione. |
| Scrivere comandi | Modificare qualsiasi risorsa di Azure: az webapp restart, az containerapp update, az vm resize, az role assignment create. Richiede l'approvazione in modalità di revisione. |
Le azioni dell'agente sono vincolate solo dalle autorizzazioni assegnate all'identità gestita. Se si concede il ruolo di Contributor a un gruppo di risorse, l'agente può gestire tutti gli elementi in tale gruppo. Se si concede un ruolo personalizzato con azioni specifiche, l'agente è limitato a tali azioni.
Guardiere di sicurezza
L'agente applica vincoli di sicurezza a livello di comando.
-
Operazioni di eliminazione bloccate — l'agente non esegue mai i comandi
deleteeremove. Restituisce un errore che indirizza gli utenti al portale di Azure per effettuare eliminazioni. -
Comandi di Key Vault bloccati : l'agente blocca tutti i
az keyvaultcomandi per impedire l'esposizione delle credenziali. - Blocchi di gestione rispettati : prima di modificare qualsiasi risorsa, l'agente verifica la presenza di blocchi di gestione di Azure. Non è possibile modificare le risorse con blocchi ReadOnly.
- Convalida della sottoscrizione : l'agente convalida gli ID sottoscrizione nei comandi per il formato GUID corretto prima dell'esecuzione.
Prima e dopo
La tabella seguente confronta il processo di mitigazione manuale con l'approccio assistito dall'agente.
| Prima | Dopo | |
|---|---|---|
| Riparazione dell'esecuzione | Passare al portale di Azure, trovare la risorsa, fare clic nei pannelli | Chiedi all'agente, approva, fatto |
| Verifica | Controllare manualmente se la correzione ha funzionato | L'agente verifica e segnala il risultato |
| Revisione | Spero che qualcuno abbia documentato ciò che hanno fatto | Audit trail completo in Application Insights |
| Conoscenza | Un tecnico conosce la correzione | Agent applica i modelli appresi in modo coerente |
Requisiti relativi alle autorizzazioni
Per impostazione predefinita, gli agenti hanno accesso Lettore e non possono eseguire azioni. Si concedono in modo esplicito le autorizzazioni di scrittura assegnando ruoli all'identità gestita dell'agente.
| Ambito | Su cosa può agire l'agente | Consigliati per |
|---|---|---|
| risorsa | Una singola risorsa | Restrizione massima, iniziare da qui |
| Gruppo di risorse | Tutte le risorse in un unico gruppo | Carichi di lavoro di produzione |
| Abbonamento | Qualsiasi risorsa nella sottoscrizione | Solo sviluppo e test |
Avviso
L'agente controlla i blocchi di gestione di Azure prima di modificare qualsiasi risorsa. Non è possibile modificare le risorse con blocchi ReadOnly, indipendentemente dalle autorizzazioni o dalla modalità di esecuzione. Le operazioni di eliminazione e rimozione vengono bloccate completamente. È possibile usare il portale di Azure per le eliminazioni.
Percorsi di risposta alternativi
Le mitigazioni dirette non sono l'unica opzione. Molti team preferiscono instradare i risultati agli elementi di lavoro o ai sistemi di creazione di ticket anziché eseguire direttamente le azioni. Gli elementi di lavoro sono particolarmente utili quando è necessaria una revisione umana o si applicano i processi di gestione delle modifiche.
| Percorso di risposta | Come funziona | Ideale per |
|---|---|---|
| Mitigazione diretta | L'agente esegue il riavvio, l'ampliamento o l'indurimento | Modelli attendibili, non in produzione |
| Creare un elemento di lavoro | Agent crea un problema di GitHub o un elemento di lavoro di Azure DevOps | Interazione umana nel processo, gestione del cambiamento |
| Inviare una notifica | I post dell'agente a Teams o l'invio di messaggi di posta elettronica | Consapevolezza senza azione |
| Attivare il flusso di lavoro | Agente invia GitHub Actions o Logic Apps | Integrazione CI/CD, processi con più passaggi |
Configurare la creazione e le notifiche degli elementi di lavoro tramite i connettori. Ad esempio, connettere un server MCP GitHub per consentire all'agente di creare problemi o connettere Azure DevOps per creare automaticamente gli elementi di lavoro.
Per altre informazioni, vedere Inviare notifiche e Automazione del flusso di lavoro per concatenare questi tipi di risposta.
Esempio: mitigazione attivata da eventi imprevisti
L'esempio seguente mostra come l'agente gestisce un incidente di memoria alle 3:47 mentre dormi.
03:47 - PagerDuty genera un avviso: "Uso elevato della memoria in prod-api"
L'agente (in modalità di revisione) gestisce tutti gli elementi:
Riconosce l'incidente — PagerDuty mostra "Riconosciuto dall'agente SRE".
Analizza automaticamente:
- Query di App Insights: memoria al 94%, in aumento nelle ultime 2 ore.
- Controlla la cronologia di distribuzione: nessuna distribuzione recente.
- Ricorda dalla memoria: "Ultima volta che è successo, il riavvio lo ha risolto".
Propone una correzione : invia al thread dell'evento imprevisto:
Memory at 94% on prod-api (App Service). Recommended action: Restart the App Service. Evidence: - Memory climbing since 1:30 AM - No recent deployments - Past incident: restart resolved similar issue on 2026-01-15 [Approve] [Deny]L'utente approva (o in modalità autonoma, l'agente viene eseguito immediatamente).
Agent esegue e verifica:
✓ Restarted prod-api ✓ Memory now at 42% ✓ Incident resolved
Cos'è successo: È stato fatto clic su Approva e l'agente ha gestito l'indagine, l'azione e la verifica.
Traccia di controllo
Il sistema registra ogni azione di mitigazione insieme al contesto completo.
| Campo | Informazioni acquisite |
|---|---|
| Identità | L'agente e l'identità gestita |
| Action | Operazione esatta eseguita |
| Timestamp: | Quando l'operazione è stata eseguita |
| Attivazione | Diagnosi o condizione che ha portato all'azione |
| Result | Successo o fallimento, con controllo post-azione |
È possibile eseguire una query sul audit trail in Application Insights tramite i log di monitoraggio > nel portale dell'agente. Il sistema registra ogni az comando come AgentAzCliExecution evento personalizzato. Per altre informazioni, vedere Controllare le azioni dell'agente.