Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Grafana con gestione Azure fornisce aree di lavoro Grafana ospitate per la creazione di dashboard e visualizzazioni. Microsoft gestisce tutte le infrastrutture sottostanti, inclusi gli aggiornamenti di calcolo, rete, archiviazione e servizio.
Quando si usa Azure, reliability è una responsabilità condivisa. Microsoft offre una gamma di funzionalità per supportare la resilienza e il ripristino. L'utente è responsabile della comprensione del funzionamento di tali funzionalità all'interno di tutti i servizi usati e della selezione delle funzionalità necessarie per soddisfare gli obiettivi aziendali e gli obiettivi di tempo di attività.
Questo articolo descrive come rendere Grafana con gestione Azure resiliente a un'ampia gamma di potenziali interruzioni e problemi, tra cui errori temporanei, interruzioni della zona di disponibilità e interruzioni dell'area. Descrive anche come eseguire il backup e il ripristino da altri tipi di problemi ed evidenzia alcune informazioni chiave sul contratto di servizio Grafana con gestione Azure.
Raccomandazioni per la distribuzione di produzione
Per aumentare l'affidabilità delle distribuzioni di produzione usando Grafana con gestione Azure, è consigliabile eseguire le azioni seguenti:
- Abilitare la ridondanza della zona durante la creazione di un'area di lavoro per fornire resilienza agli errori della zona di disponibilità.
- Store dashboard e altre risorse Grafana come codice, ad esempio esportandoli dall'API Grafana o dall'interfaccia della riga di comando, e archiviandoli in un repository di controllo del codice sorgente come GitHub. Usare le pipeline CI/CD per implementare dashboard su Grafana con gestione Azure. Questo approccio supporta scenari di ripristino. Consente anche la distribuzione in più istanze di Grafana, incluse istanze in aree Azure diverse, se necessario.
Panoramica dell'architettura di affidabilità
Questa sezione descrive alcuni degli aspetti importanti del funzionamento del servizio più rilevanti dal punto di vista dell'affidabilità. La sezione presenta l'architettura logica, che include alcune delle risorse e delle funzionalità distribuite e usate. Illustra anche l'architettura fisica, che fornisce informazioni dettagliate sul funzionamento del servizio sotto le quinte.
Architettura logica
La risorsa Azure primaria distribuita è un workspace. Dopo aver distribuito l'area di lavoro, si utilizza l'endpoint Grafana dell'area di lavoro per configurare e interagire con origini dati, dashboard, visualizzazioni e altre risorse Grafana.
Architettura fisica
In background, quando si crea un'area di lavoro, la piattaforma Azure effettua il provisioning dei componenti seguenti:
- Server Grafana: macchine virtuali dedicate che eseguono l'applicazione Grafana. Per impostazione predefinita, due server sono previsti per garantire alta disponibilità e ridondanza. Questi server sono completamente gestiti da Microsoft. Non vengono visualizzati nella sottoscrizione, non è possibile accedervi e non si è responsabili dell'applicazione di patch, del ridimensionamento o della gestione.
- Bilanciamento del carico: servizio di bilanciamento del carico di rete che distribuisce le richieste del browser in ingresso tra i server Grafana. Il bilanciatore del carico monitora lo stato del server e instrada automaticamente il traffico lontano da qualsiasi server non funzionante.
- Database backend: un Database di Azure per PostgreSQL che archivia la configurazione dell'area di lavoro e altri dati persistenti. Questo database viene condiviso tra tutti i server Grafana nell'area di lavoro.
Il servizio di bilanciamento del carico tiene traccia dei server Grafana disponibili. In un'installazione a doppio server, se un server diventa non integro, il servizio di bilanciamento del carico invia tutte le richieste al server rimanente. Tale server preleva le sessioni del browser precedentemente servite dall'altra, in base alle informazioni salvate nel database condiviso. Nel frattempo, il servizio Grafana con gestione Azure opera per riparare il server malfunzionante o avviarne uno nuovo.
Resilienza a errori temporanei
Gli errori temporanei sono errori brevi e intermittenti nei componenti. Si verificano spesso in un ambiente distribuito come il cloud e fanno parte delle normali operazioni. Gli errori temporanei si correggono dopo un breve periodo di tempo. È importante che le applicazioni possano gestire gli errori temporanei, in genere ritentando le richieste interessate.
Tutte le applicazioni ospitate nel cloud devono seguire le linee guida per la gestione degli errori temporanei Azure quando comunicano con qualsiasi API, database e altri componenti ospitati nel cloud. Per altre informazioni, vedere Raccomandazioni per la gestione degli errori temporanei.
È possibile creare applicazioni client per interagire con l'area di lavoro Grafana tramite l'API Grafana. Si assicuri che tali applicazioni seguano le indicazioni di ripetizione di Azure per i tentativi di ripetizione di eventuali richieste non riuscite.
Resilienza ai guasti delle zone di disponibilità
Zone di disponibilità sono gruppi fisicamente separati di data center all'interno di un'area Azure. In caso di guasto in una zona, i servizi possono passare a una delle zone restanti.
Le aree di lavoro di Grafana con gestione Azure supportano la ridondanza di zona nelle regioni di Azure supportate. Quando la ridondanza della zona è abilitata, i server Grafana dell'area di lavoro vengono distribuiti in più zone di disponibilità. Microsoft seleziona le zone utilizzate dall'area di lavoro. Anche altre risorse, ad esempio il servizio di bilanciamento del carico di rete, il database e il gateway condiviso, sono configurate per l'uso di più zone di disponibilità.
Se non si abilita la ridondanza a livello di zona, si ha un'impostazione non zonale o regionale, il che significa che i server e gli altri componenti possono essere posizionati in qualsiasi zona di disponibilità all'interno della regione o nella stessa zona. Se una zona di disponibilità nell'area presenta un problema, l'area di lavoro potrebbe riscontrare tempi di inattività.
Requisiti
Supporto per l'area: Il supporto della ridondanza della zona è disponibile nelle aree seguenti:
| Americhe | Europa | Asia Pacifico |
|---|---|---|
| Stati Uniti orientali | North Europe | Australia orientale |
| Stati Uniti centro-meridionali | Asia orientale | |
| Stati Uniti occidentali 3 |
Costo
L'abilitazione della ridondanza zonale comporta costi aggiuntivi. Per altre informazioni, vedere prezzi Grafana con gestione Azure.
Configurare il supporto delle zone di disponibilità
Creare una nuova area di lavoro con zone di disponibilità abilitate: Abilitare la ridondanza della zona durante la creazione dell'area di lavoro tramite il portale di Azure, l'interfaccia della riga di comando o i modelli arm/Bicep.
Per ulteriori informazioni, vedere Attivare la ridondanza di zona in Grafana con gestione Azure.
Configurare la ridondanza della zona in un'area di lavoro esistente: Non è possibile abilitare o disabilitare la ridondanza della zona in un'area di lavoro esistente. È invece necessario creare una nuova area di lavoro con la configurazione di ridondanza della zona desiderata, eseguire la migrazione dei dashboard e della configurazione e quindi eliminare l'area di lavoro esistente.
Comportamento quando tutte le zone sono integre
Questa sezione descrive cosa aspettarsi se un'area di lavoro è configurata a ridondanza di zona e tutte le zone di disponibilità sono operative.
Routing del traffico tra zone: Il bilanciamento del carico a zone ridondanti distribuisce automaticamente le richieste in ingresso tra i server Grafana. Entrambi i server possono elaborare il traffico.
Replica dei dati tra zone: Le modifiche ai dati dell'area di lavoro vengono replicate in modo sincrono in più zone di disponibilità. La replica dei dati viene eseguita da Database di Azure per PostgreSQL. Per altre informazioni, vedere Reliability in Database di Azure per PostgreSQL. Grafana con gestione Azure non implementa logica di replica personalizzata aggiuntiva oltre a quella fornita dalla piattaforma di database.
Comportamento durante un errore di zona
Questa sezione descrive cosa aspettarsi quando un'area di lavoro viene configurata come ridondante alle zone e una zona di disponibilità diventa non disponibile.
- Rilevamento e risposta: la piattaforma Azure rileva e risponde a un errore in una zona di disponibilità. Non è necessario avviare un failover di zona.
- Notifica: Microsoft non invia automaticamente una notifica quando una zona è inattiva. È tuttavia possibile usare Azure Integrità risorse per monitorare l'integrità di una singola risorsa ed è possibile configurare Integrità risorse avvisi per segnalare eventuali problemi. È anche possibile usare integrità dei servizi di Azure per comprendere l'integrità complessiva del servizio, inclusi eventuali errori di zona, ed è possibile configurare gli avvisi di integrità Servizi per notificare i problemi.
Perdita di dati prevista: Non è prevista alcuna perdita di dati durante un'interruzione della zona di disponibilità.
Tempo di inattività previsto: L'area di lavoro potrebbe riscontrare una piccola quantità di tempo di inattività, in genere limitata a pochi secondi, mentre il traffico viene reindirizzato ai server integri. Assicurarsi che le applicazioni client gestisca correttamente gli errori temporanei per ridurre al minimo gli effetti di qualsiasi tempo di inattività.
Reindirizzamento del traffico: Il traffico in ingresso viene instradato automaticamente al server nella zona funzionante. Il servizio viene eseguito con capacità ridotta per la durata dell'interruzione della zona. Il provisioning dei server di sostituzione non viene eseguito in zone integre durante l'interruzione.
Ripristino della zona
Microsoft gestisce automaticamente il ripristino della zona, incluso il ripristino della capacità del servizio quando la zona interessata diventa nuovamente integra.
Verifica dei guasti di zona
La piattaforma Azure gestisce il routing del traffico, il failover e il failback per spazi di lavoro con ridondanza di zona. Questa funzionalità è completamente gestita, quindi non è necessario avviare o convalidare i processi di errore della zona di disponibilità.
Resilienza agli errori a livello di area
Grafana con gestione Azure è un servizio a singola area. Se la regione non è disponibile, anche il tuo ambiente di lavoro non lo è.
Soluzioni personalizzate in più aree per la resilienza
Per ottenere resilienza alle interruzioni a livello di area, è possibile distribuire più aree di lavoro Grafana in aree diverse. In questo tipo di soluzione, l'utente è responsabile di:
- Replica di dashboard e configurazione tra aree. Ad esempio, è possibile applicare una configurazione coerente tra più aree di lavoro usando CI/CD e il controllo del codice sorgente.
- Implementazione del routing del traffico e del failover a livello di applicazione o di client.
Backup e ripristino
Grafana con gestione Azure non fornisce funzionalità di backup o ripristino predefinite per dashboard o altre entità del piano dati. Per proteggersi da eliminazioni o danneggiamenti accidentali:
- Usare l'API Grafana o l'interfaccia della riga di comando per esportare dashboard e altre configurazioni di Grafana.
- Archiviare i dashboard esportati in un repository di controllo del codice sorgente, ad esempio GitHub.
- Usare le pipeline di automazione o CI/CD per ridistribuire i dashboard e altre configurazioni di Grafana.
Per la maggior parte delle soluzioni, non è consigliabile basarsi esclusivamente sui backup. Usare invece le altre funzionalità descritte in questa guida per supportare i requisiti di resilienza. Tuttavia, i backup proteggono da alcuni rischi che altri approcci non comportano. Per altre informazioni, vedere Che cosa sono ridondanza, replica e backup?.
Resilienza alla manutenzione del servizio
Microsoft applica regolarmente gli aggiornamenti del servizio ed esegue altre operazioni di manutenzione. La piattaforma Azure gestisce automaticamente queste attività, assicurando che la manutenzione sia senza interruzioni e trasparente per l'utente. Durante le operazioni di manutenzione, è possibile osservare brevi interruzioni. In genere queste interruzioni durano alcuni secondi. Assicurarsi che le applicazioni client siano configurate per gestire gli errori temporanei in modo che siano resilienti a brevi interruzioni.
Contratto di servizio
Il contratto di servizio (SLA) per Azure servizi descrive la disponibilità prevista di ogni servizio e le condizioni che la soluzione deve soddisfare per ottenere tale aspettativa di disponibilità. Per altre informazioni, vedere SLA per servizi online.
Contenuti correlati
- Reliability in Azure
- Panoramica di Grafana con gestione Azure