Condividi tramite


Panoramica dell'agente SRE di Azure (anteprima)

Site Reliability Engineering (SRE) è incentrato sulla creazione di sistemi affidabili e scalabili tramite l'automazione e la gestione proattiva. L'agente SRE di Azure offre questi principi alle applicazioni ospitate in Azure fornendo uno strumento basato sull'intelligenza artificiale che consente di sostenere gli ambienti cloud di produzione. L'agente SRE consente di rispondere agli eventi imprevisti in modo rapido ed efficace, riducendo il rischio di gestire manualmente gli ambienti di produzione. L'agente usa le funzionalità di ragionamento dei modelli di linguaggio di grandi dimensioni per identificare i log e le metriche necessari per l'analisi rapida della causa radice e la mitigazione dei problemi. L'agente SRE di Azure offre tempi di attività del servizio migliori e costi operativi ridotti.

Gli agenti hanno accesso a ogni risorsa all'interno dei gruppi di risorse associati all'agente. Pertanto, gli agenti:

  • Valutare continuamente l'attività delle risorse e monitorare le risorse attive

  • Inviare notifiche proattive sulle app non integre o instabili

L'agente SRE di Azure si integra anche con gli avvisi di Monitoraggio di Azure e PagerDuty per supportare soluzioni di notifica avanzate.

Annotazioni

La funzionalità agente SRE è disponibile in anteprima pubblica. Per iscriversi all'elenco di attesa, compilare l'applicazione SRE Agent.

Usando un agente SRE, si acconsente alle Condizioni supplementari per l'utilizzo specifiche del prodotto per le anteprime di Microsoft Azure.

Funzionalità principali

L'agente SRE di Azure offre diverse funzionalità chiave che migliorano l'affidabilità e le prestazioni delle risorse di Azure:

  • Thread di benvenuto: quando si crea l'agente per la prima volta, viene creato un nuovo thread che fornisce l'analisi iniziale dei servizi. L'analisi dell'ambiente crea uno snapshot di tutte le risorse gestite dall'agente. Inoltre, l'agente genera un elenco di applicazioni disponibili nei gruppi di risorse gestiti.

  • Discussioni giornaliere: ogni giorno, l'agente crea un report delle risorse che riepiloga lo stato e la condizione dei servizi nei gruppi di risorse gestiti.

  • Strumenti: supporto di query e operazioni tramite l'interfaccia della riga di comando di Azure e Kubectl.

  • Origini dati: accesso alle API di Azure Resource Manager e alle origini dati delle metriche di Monitoraggio di Azure.

  • Gestione degli eventi imprevisti: diagnosticare gli eventi imprevisti tramite chat con l'agente direttamente o connettendo una piattaforma di gestione degli eventi imprevisti all'agente. Rispondere automaticamente agli avvisi di Azure Monitor o agli incidenti PagerDuty con un'analisi iniziale.

  • Monitoraggio proattivo: monitoraggio continuo delle risorse 24x7 con avvisi in tempo reale per potenziali problemi.

  • Mitigazione automatica: Rilevamento automatico e mitigazione dei problemi comuni, riduzione dei tempi di inattività e miglioramento dell'integrità delle risorse. Mentre gli agenti tentano di lavorare per conto dell'utente, l'automazione richiede l'approvazione.

  • Procedure consigliate per l'infrastruttura: Identificare e correggere le risorse non seguendo le procedure consigliate per la sicurezza e aiutare gli aggiornamenti.

  • Accelera l'analisi della causa radice: Diagnosticare le cause radice dei problemi dell'app analizzando metriche e log e suggerire mitigazioni.

  • Visualizzazione delle risorse: viste complete delle dipendenze delle risorse e dello stato di salute.

    Schermata di un grafo di conoscenza dell'agente SRE.

  • Supporto per la mitigazione: L'agente SRE può correggere la configurazione dell'applicazione e i servizi dipendenti. Per i problemi di codice, l'agente fornisce analisi dello stack e può creare un problema di GitHub per risolvere i problemi. Gli elementi seguenti descrivono le funzionalità specifiche del servizio dell'agente:

    • Servizio app di Azure: eseguire il rollback della distribuzione, aumentare o ridurre le risorse, riavviare l'applicazione.

    • App contenitore di Azure: eseguire il rollback della distribuzione, aumentare o ridurre le risorse e riavviare l'applicazione.

    • Servizio Azure Kubernetes: riavviare pod/distribuzioni, eseguire il rollback delle distribuzioni alle revisioni precedenti, aumentare/ridurre le risorse e applicare aggiornamenti alle definizioni delle risorse.

Rapporti

Un agente SRE funziona per monitorare e gestire in modo proattivo i servizi di Azure. Ogni giorno l'agente crea report sulle risorse giornaliere che forniscono informazioni dettagliate sull'integrità e sullo stato delle applicazioni.

I report includono:

  • Riepilogo degli eventi imprevisti: Genera informazioni sugli eventi imprevisti generati dall'agente SRE nel giorno precedente. Le categorie includono: attivo, mitigato o risolto.

  • Prestazioni e integrità del gruppo di applicazioni: Metriche chiave per ogni gruppo di applicazioni per valutare la stabilità e le prestazioni del sistema. Le metriche includono: disponibilità, utilizzo della CPU e utilizzo della memoria.

  • Riepilogo delle azioni: Riepiloghi di dettagli importanti e informazioni dettagliate rilevanti per l'integrità e la manutenzione delle risorse di Azure.

Scenari

Sceneggiatura Possibile causa Mitigazione dell'agente
Applicazione inattiva Problemi del codice dell'applicazione: i bug o gli errori nel codice dell'applicazione possono causare arresti anomali o mancata risposta.

Distribuzione non valida: le configurazioni non corrette o le distribuzioni non riuscite possono causare l'arresto dell'applicazione.

Problemi elevati di CPU/memoria/thread: l'esaurimento delle risorse a causa di un utilizzo elevato di CPU, memoria o thread può influire sulle prestazioni dell'applicazione.
L'agente SRE può rilevare questi problemi e fornire informazioni dettagliate o correzioni praticabili. Ad esempio, può identificare una diminuzione della disponibilità dell'app Web che coincide con uno scambio di slot recente e consiglia di scambiare gli slot indietro come primo passaggio di mitigazione.
Errori di pull dell'immagine del contenitore Disponibilità dell'immagine: l'immagine richiesta potrebbe non essere disponibile o potrebbe non essere presente.

Connettività di rete: i problemi di rete possono interrompere la connessione all'app contenitore.

Problemi di connettività del registro dei contenitori: i problemi di connessione al registro contenitori possono impedire il prelievo delle immagini.
L'agente SRE può rilevare gli errori nel scaricamento dell'immagine del contenitore e fornire una diagnosi dettagliata. Può raccomandare soluzioni come eseguire un rollback all'ultima revisione stabile conosciuta e aggiornare il riferimento all'immagine.

Un agente può fornire informazioni dettagliate sui diversi aspetti delle app e delle risorse. Gli esempi seguenti illustrano i tipi di domande che è possibile porre all'agente:

  • Cosa puoi aiutarmi con?
  • Perché l'applicazione non funziona?
  • A quali servizi è connessa la risorsa?
  • Puoi fornire le migliori pratiche per la mia risorsa?
  • Qual è l'utilizzo della CPU e della memoria dell'app?

Di seguito sono riportati alcuni prompt che è possibile usare per interagire con l'agente:

  • Quali app hanno abilitato Dapr?
  • Elencare le repliche per l'applicazione contenitore
  • Quali app hanno attivato la registrazione diagnostica?
  • Dammi una singola mappa termica per ogni account di archiviazione.
  • Quale revisione dell'app contenitore è al momento attiva?
  • Quali sono alcune procedure consigliate da seguire per l'app?
  • Qual è la configurazione di ingresso per l'applicazione container?
  • Esistono slot di staging configurati per questa app Web?
  • Quali immagini del contenitore vengono usate da ognuna delle app contenitore?
  • Elencare tutti i gruppi di risorse gestiti in tutte le sottoscrizioni.
  • Creare una heatmap delle latenze di archiviazione degli ultimi 14 giorni per gli account di archiviazione.
  • Mostrami una visualizzazione dei tempi di risposta per App contenitore per la settimana scorsa.
  • Elencare [App contenitore/App Web/e così via] che si stanno gestendo in tutte le sottoscrizioni.
  • Visualizzare la suddivisione tra le app contenitore, le app Web e i cluster gestiti del servizio Azure Container in tutte le sottoscrizioni come grafico a torta.

Accesso in anteprima

L'accesso a un Agente SRE è disponibile solo in modalità di anteprima. Per iscriversi per l'accesso, compilare l'applicazione SRE Agent.