Freigeben über


Zuverlässigkeit in Azure Managed Grafana

Azure Managed Grafana bietet gehostete Grafana-Arbeitsbereiche zum Erstellen von Dashboards und Visualisierungen. Microsoft verwaltet alle zugrunde liegenden Infrastruktur, einschließlich Compute-, Netzwerk-, Speicher- und Dienstupdates.

Wenn Sie Azure verwenden, ist zustellbarkeit eine gemeinsame Verantwortung. Microsoft bietet eine Reihe von Funktionen zur Unterstützung von Resilienz und Wiederherstellung. Sie sind dafür verantwortlich, zu verstehen, wie diese Funktionen in allen von Ihnen verwendeten Diensten funktionieren, und die Funktionen auswählen, die Sie benötigen, um Ihre Geschäftsziele und Uptime-Ziele zu erfüllen.

In diesem Artikel wird beschrieben, wie Sie Azure Managed Grafana widerstandsfähig für eine Vielzahl potenzieller Ausfälle und Probleme machen, einschließlich vorübergehender Fehler, Ausfall der Verfügbarkeitszone und Regionsausfälle. Der Text beschreibt auch, wie Sie Sicherungen erstellen und sich von anderen Arten von Problemen erholen können, und hebt einige wichtige Informationen zur Azure Managed Grafana Service-Level-Agreement (SLA) hervor.

Bereitstellungsempfehlungen für die Produktion

Um die Zuverlässigkeit von Produktionsbereitstellungen mithilfe von Azure Managed Grafana zu erhöhen, empfehlen wir, die folgenden Aktionen auszuführen:

  • Aktivieren Sie die Zonenredundanz beim Erstellen eines Arbeitsbereichs, um Ausfallsicherheit bei einem Ausfall von Verfügbarkeitszonen bereitzustellen.
  • Store Dashboards und andere Grafana-Ressourcen in Code-Form, z. B. durch Exportieren aus der Grafana-API oder der CLI und Speicherung in einem Versionskontroll-Repository wie GitHub. Verwenden Sie CI/CD-Pipelines, um Dashboards für Azure Managed Grafana bereitzustellen. Dieser Ansatz unterstützt Wiederherstellungsszenarien. Es ermöglicht auch die Bereitstellung für mehrere Grafana-Instanzen, einschließlich Instanzen in verschiedenen Azure Regionen, falls erforderlich.

Übersicht über die Zuverlässigkeitsarchitektur

In diesem Abschnitt werden einige der wichtigen Aspekte der Funktionsweise des Diensts beschrieben, die aus Zuverlässigkeitsperspektive am relevantesten sind. Im Abschnitt wird die logische Architektur vorgestellt, die einige der Ressourcen und Features enthält, die Sie bereitstellen und verwenden. Außerdem wird die physische Architektur erläutert, die Details zur Funktionsweise des Diensts unter den Deckeln bereitstellt.

Logische Architektur

Die primäre Azure Ressource, die Sie bereitstellen, ist ein workspace. Nachdem Sie Ihren Arbeitsbereich bereitgestellt haben, verwenden Sie den Grafana-Endpunkt des Arbeitsbereichs, um Datenquellen, Dashboards, Visualisierungen und andere Grafana-Ressourcen zu konfigurieren und zu interagieren.

Physische Architektur

Im Hintergrund stellt die Azure Plattform beim Erstellen eines Arbeitsbereichs die folgenden Komponenten bereit:

  • Grafana-Server: Dedizierte virtuelle Computer, die die Grafana-Anwendung ausführen. Standardmäßig werden zwei Server für hohe Verfügbarkeit und Redundanz bereitgestellt. Diese Server werden vollständig von Microsoft verwaltet. Sie werden in Ihrem Abonnement nicht angezeigt, Sie können nicht darauf zugreifen, und Sie sind nicht für das Patchen, die Skalierung oder die Wartung verantwortlich.
  • Lastenausgleich: Ein Netzwerklastenausgleichsmodul, das eingehende Browseranforderungen über die Grafana-Server verteilt. Der Lastenausgleich überwacht die Serverintegrität und leitet den Datenverkehr automatisch von einem fehlerhaften Server weg.
  • Backend-Datenbank: Eine Azure Database for PostgreSQL-Datenbank, in der die Arbeitsbereichskonfiguration und andere persistente Daten gespeichert werden. Diese Datenbank wird auf allen Grafana-Servern im Arbeitsbereich freigegeben.

Der Load Balancer überwacht, welche der Grafana-Server verfügbar sind. Wenn ein Server in einem Dualserversetup fehlerhaft wird, sendet der Lastenausgleich alle Anforderungen an den verbleibenden Server. Dieser Server übernimmt die Browsersitzungen, die zuvor von dem anderen Server bereitgestellt wurden, basierend auf Informationen, die in der freigegebenen Datenbank gespeichert sind. In der Zwischenzeit arbeitet der Azure Managed Grafana-Dienst daran, den fehlerhaften Server zu reparieren oder einen neuen zu erstellen.

Diagramm, das einen Azure Managed Grafana-Arbeitsbereich zeigt, der aus zwei virtuellen Maschinen und einem Load Balancer besteht, der vom Dienst bereitgestellt wird.

Resilienz für vorübergehende Fehler

Vorübergehende Fehler sind kurze, zeitweilige Fehler in Komponenten. Sie treten häufig in einer verteilten Umgebung wie der Cloud auf und sind ein normaler Bestandteil von Vorgängen. Vorübergehende Fehler korrigieren sich nach kurzer Zeit. Es ist wichtig, dass Ihre Anwendungen vorübergehende Fehler behandeln können, in der Regel durch Wiederholen betroffener Anforderungen.

Alle in der Cloud gehosteten Anwendungen sollten den Azure richtlinien für die vorübergehende Fehlerbehandlung befolgen, wenn sie mit allen in der Cloud gehosteten APIs, Datenbanken und anderen Komponenten kommunizieren. Weitere Informationen finden Sie unter Empfehlungen zur Behandlung vorübergehender Fehler.

Sie können Clientanwendungen erstellen, um mit Ihrem Grafana-Arbeitsbereich über die Grafana-API zu interagieren. Stellen Sie sicher, dass diese Anwendungen die Azure-Wiederholungsrichtlinien für fehlgeschlagene Anforderungen befolgen.

Ausfallsicherheit bei Ausfällen von Verfügbarkeitszonen

Verfügbarkeitszonen sind physisch getrennte Gruppen von Rechenzentren innerhalb einer Azure Region. Wenn eine Zone ausfällt, erfolgt ein Failover der Dienste zu einer der verbleibenden Zonen.

Azure Managed Grafana Arbeitsbereiche unterstützen Zonenredundanz in unterstützten Azure Regionen. Wenn Zonenredundanz aktiviert ist, werden die Grafana-Server des Arbeitsbereichs über mehrere Verfügbarkeitszonen verteilt. Microsoft wählt die von Ihrem Arbeitsbereich verwendeten Zonen aus. Andere Ressourcen, wie das Netzwerklastenausgleichsgerät, die Datenbank und das gemeinsame Gateway, sind ebenfalls so konfiguriert, dass sie mehrere Verfügbarkeitszonen nutzen.

Diagramm, das einen Azure Managed Grafana-Arbeitsbereich mit zwei Instanzen zeigt, die sich jeweils in einer separaten Verfügbarkeitszone befinden, sowie einen zonenredundanten Load Balancer.

Wenn Sie keine Zonenredundanz aktivieren, handelt es sich um nicht zonenbedingte oder regionale Elemente, was bedeutet, dass die Server und anderen Komponenten in einer beliebigen Verfügbarkeitszone innerhalb der Region oder innerhalb derselben Zone platziert werden. Wenn eine Verfügbarkeitszone in der Region ein Problem hat, kann es zu Ausfallzeiten in Ihrem Arbeitsbereich kommen.

Anforderungen

Regionsunterstützung: Die Unterstützung für Zonenredundanz ist in den folgenden Regionen verfügbar:

Amerika Europa Asien-Pazifik
East US Nordeuropa Australien (Osten)
Süd-Mittel-USA Ostasien
Westliches USA 3

Kosten

Die Aktivierung von Zonenredundanz kostet zusätzliche Kosten. Weitere Informationen finden Sie unter Azure Managed Grafana Pricing.

Konfigurieren der Unterstützung von Verfügbarkeitszonen

  • Create a new workspace with availability zones enabled: Aktivieren Sie die Zonenredundanz während der Erstellung des Arbeitsbereichs über das Azure-Portal, die CLI oder ARM/Bicep-Vorlagen.

    Weitere Informationen finden Sie unter Enable zone redundanz in Azure Managed Grafana.

  • Konfigurieren der Zonenredundanz für einen vorhandenen Arbeitsbereich: Sie können zonenredundanz in einem vorhandenen Arbeitsbereich nicht aktivieren oder deaktivieren. Stattdessen müssen Sie einen neuen Arbeitsbereich mit der gewünschten Zonenredundanzkonfiguration erstellen, Ihre Dashboards und Konfiguration migrieren und dann den vorhandenen Arbeitsbereich löschen.

Verhalten, wenn alle Zonen fehlerfrei sind

In diesem Abschnitt wird beschrieben, was Sie erwarten müssen, wenn ein Arbeitsbereich so konfiguriert ist, dass er zonenredundant ist und alle Verfügbarkeitszonen betriebsbereit sind.

  • Datenverkehrsrouting zwischen Zonen: Der zonenredundante Load Balancer verantwortet die automatische Verteilung eingehender Anforderungen über die Grafana-Server. Beide Server können Datenverkehr verarbeiten.

  • Datenreplikation zwischen Zonen: Änderungen an den Daten des Arbeitsbereichs werden synchron in mehreren Verfügbarkeitszonen repliziert. Die Datenreplikation erfolgt durch Azure Database for PostgreSQL. Weitere Informationen finden Sie unter Reliability in Azure Database for PostgreSQL. Azure Managed Grafana implementiert keine zusätzliche benutzerdefinierte Replikationslogik, abgesehen von der, die die Datenbankplattform bereitstellt.

Verhalten bei einem Zoneausfall

In diesem Abschnitt wird beschrieben, was Sie erwarten müssen, wenn ein Arbeitsbereich so konfiguriert ist, dass er zonenredundant ist und eine Verfügbarkeitszone nicht mehr verfügbar ist.

  • Erkennung und Reaktion: Die Azure-Plattform erkennt einen Fehler in einer Verfügbarkeitszone und reagiert darauf. Sie müssen kein Zonenfailover initiieren.
  • Benachrichtigung: Microsoft benachrichtigt Sie nicht automatisch, wenn eine Zone deaktiviert ist. Sie können jedoch Azure Resource Health verwenden, um den Status einer einzelnen Ressource zu überwachen, und Sie können Resource Health Alerts einrichten, um Sie über Probleme zu informieren. Sie können auch Azure Service Health verwenden, um den Gesamtstatus des Diensts zu verstehen, einschließlich aller Zonenfehler, und Sie können Service Health Alerts einrichten, um Sie über Probleme zu informieren.
  • Erwarteter Datenverlust: Während eines Ausfalls der Verfügbarkeitszone wird kein Datenverlust erwartet.

  • Erwartete Ausfallzeiten: In Ihrem Arbeitsbereich kann es zu einer geringen Anzahl von Ausfallzeiten kommen, die in der Regel auf ein paar Sekunden beschränkt sind, während der Datenverkehr an fehlerfreie Server umgeleitet wird. Stellen Sie sicher, dass alle Clientanwendungen vorübergehende Fehler entsprechend behandeln, um die Auswirkungen von Ausfallzeiten zu minimieren.

  • Datenverkehrsumleitung: Eingehender Datenverkehr wird automatisch an den Server in der fehlerfreien Zone weitergeleitet. Der Dienst wird mit reduzierter Kapazität für die Dauer des Zonenausfalls ausgeführt. Ersatzserver werden während des Ausfalls nicht in fehlerfreien Zonen bereitgestellt.

Zonenwiederherstellung

Microsoft verwaltet die Zonenwiederherstellung automatisch, einschließlich der Wiederherstellung der Dienstkapazität, wenn die betroffene Zone wieder fehlerfrei wird.

Test auf Zonenfehler

Die Azure-Plattform verwaltet Datenverkehrsrouting, Failover und Failback für zonenredundante Arbeitsbereiche. Dieses Feature ist vollständig verwaltet. Deshalb müssen Sie die Prozesse für ausgefallene Verfügbarkeitszonen weder einleiten noch überprüfen.

Widerstandsfähigkeit bei regionalen Ausfällen

Azure Managed Grafana ist ein Einzelregionendienst. Wenn die Region nicht verfügbar ist, ist Ihr Arbeitsbereich ebenfalls nicht verfügbar.

Benutzerdefinierte Lösungen mit mehreren Regionen für Resilienz

Um Ausfallsicherheit für regionale Ausfälle zu erreichen, können Sie mehrere Grafana-Arbeitsbereiche in verschiedenen Regionen bereitstellen. In diesem Lösungstyp sind Sie für Folgendes verantwortlich:

  • Replikation von Dashboards und Konfiguration zwischen Regionen. Sie können beispielsweise eine konsistente Konfiguration für mehrere Arbeitsbereiche anwenden, indem Sie CI/CD und Quellcodeverwaltung verwenden.
  • Implementieren von Netzwerkverkehrsrouting und Failover auf Anwendungs- oder Client-Ebene.

Sichern und Wiederherstellen

Azure Managed Grafana bietet keine integrierten Sicherungs- oder Wiederherstellungsfunktionen für Dashboards oder andere Datenebenenentitäten. So schützen Sie sich vor versehentlicher Löschung oder Beschädigung:

  • Verwenden Sie die Grafana-API oder CLI, um Dashboards und andere Grafana-Konfigurationen zu exportieren.
  • Speichern Sie exportierte Dashboards in einem Quellcodeverwaltungs-Repository, z. B. GitHub.
  • Verwenden Sie Automatisierungs- oder CI/CD-Pipelines, um Dashboards und andere Grafana-Konfigurationen erneut bereitzustellen.

Für die meisten Lösungen sollten Sie sich nicht ausschließlich auf Sicherungen verlassen. Verwenden Sie stattdessen die in diesem Handbuch beschriebenen anderen Funktionen, um Ihre Resilienzanforderungen zu unterstützen. Sicherungen schützen jedoch vor einigen Risiken, die andere Ansätze nicht vermeiden. Weitere Informationen finden Sie unter Was sind Redundanz, Replikation und Sicherung?.

Resilienz gegenüber Wartungsarbeiten an Diensten

Microsoft wendet regelmäßig Dienstupdates an und führt andere Wartungen durch. Die Azure Plattform übernimmt diese Aktivitäten automatisch, um sicherzustellen, dass die Wartung nahtlos und transparent für Sie ist. Bei Wartungsvorgängen können Sie kurze Unterbrechungen beobachten. Diese Unterbrechungen dauern in der Regel einige Sekunden. Stellen Sie sicher, dass Clientanwendungen so konfiguriert sind, dass vorübergehende Fehler behandelt werden, damit sie für kurze Unterbrechungen ausfallsicher sind.

Service-Level-Vereinbarung

Der ServiceLevel-Vertrag (SLA) für Azure-Dienste beschreibt die erwartete Verfügbarkeit der einzelnen Dienste und die Bedingungen, die Ihre Lösung erfüllen muss, um diese Verfügbarkeitserwartungen zu erreichen. Weitere Informationen finden Sie unter Dienstleistungsvereinbarungen für Onlinedienste.