Regionsinterne Wiederherstellung mithilfe von Verfügbarkeitszonen und regionsübergreifende georedundante Notfallwiederherstellung (Azure Event Grid)

In diesem Artikel wird beschrieben, wie Azure Event Grid die automatische regionsinterne Wiederherstellung Ihrer Event Grid-Ressourcendefinitionen und -daten unterstützt, wenn ein Fehler in einer Region mit Verfügbarkeitszonen auftritt. Außerdem wird beschrieben, wie Event Grid die automatische Wiederherstellung von Event Grid-Ressourcendefinitionen (keine Daten) in einer anderen Region unterstützt, wenn ein Fehler in einer Region mit einer gekoppelten Region auftritt.

Regionsinterne Wiederherstellung mithilfe von Verfügbarkeitszonen

Azure-Verfügbarkeitszonen sind physisch getrennte Standorte innerhalb der einzelnen Azure-Regionen, die Fehlertoleranz bei lokalen Ausfällen bieten. Verfügbarkeitszonen sind über ein Hochleistungsnetzwerk mit einer Roundtriplatenz von weniger als 2 Millisekunden verbunden. Jede Verfügbarkeitszone besteht aus mindestens einem Rechenzentrum mit unabhängiger Stromversorgung, Kühlung und Netzwerkinfrastruktur. Wenn eine Zone von einem Fehler betroffen ist, werden regionale Dienste, Kapazität und Hochverfügbarkeit von den verbleibenden beiden Zonen unterstützt. Weitere Informationen zu Verfügbarkeitszonen finden Sie unter Regionen und Verfügbarkeitszonen. In diesem Artikel finden Sie auch eine Liste der Regionen mit Verfügbarkeitszonen.

Event Grid-Ressourcendefinitionen für Themen, Systemthemen, Domänen sowie Ereignisabonnements und Ereignisdaten werden automatisch in drei Verfügbarkeitszonen (sofern verfügbar) in der Region repliziert. Wenn in einer der Verfügbarkeitszonen ein Fehler auftritt, erfolgt für Event Grid-Ressourcen ohne Eingreifen des Benutzers ein automatisches Failover auf eine andere Verfügbarkeitszone. Derzeit ist es nicht möglich, dieses Feature zu steuern (aktivieren oder deaktivieren). Wenn eine vorhandene Region mit der Unterstützung von Verfügbarkeitszonen beginnt, wird für vorhandene Event Grid-Ressourcen automatisch ein Failover ausgeführt, um dieses Feature zu nutzen. Es ist keine Kundenaktion erforderlich.

Diagramm: Verfügbarkeitszonen, die durch Verwendung einer anderen Region Schutz vor lokalen Notfällen und regionalen oder großräumigen Notfällen bieten

Regionsübergreifende georedundante Notfallwiederherstellung

Wenn in einer Azure-Region ein längerer Ausfall auftritt und Sie die Geschäftskontinuität sicherstellen möchten, können die Optionen für ein Failover auf eine alternative Region für Sie von Interesse sein. Viele Azure-Regionen verfügen über geografisch gekoppelte Regionen und einige nicht. Eine Liste der Regionen, die über gekoppelte Regionen verfügen, finden Sie unter Regionsübergreifende Azure-Replikationspaare für alle geografischen Regionen.

Für Regionen mit einer geografisch gekoppelten Region bietet Event Grid die Möglichkeit, ein Failover des Veröffentlichungsdatenverkehrs auf die gekoppelte Region für benutzerdefinierte Themen, Systemthemen und Domänen auszuführen. Im Hintergrund synchronisiert Event Grid die Ressourcendefinitionen von Themen, Systemthemen, Domänen und Ereignisabonnements automatisch mit der gekoppelten Region. Ereignisdaten werden jedoch nicht in die gekoppelte Region repliziert. Im Normalzustand werden Ereignisse in der Region gespeichert, die Sie für diese Ressource ausgewählt haben. Wenn eine Region ausgefallen ist und Microsoft das Failover initiiert, werden neue Ereignisse ohne Eingriffe Ihrerseits an die geografisch gekoppelte Region übertragen und von dort gesendet. Ereignisse, die in der ursprünglichen Region veröffentlicht und akzeptiert wurden, werden von dort gesendet, nachdem der Ausfall behoben wurde.

Das von Microsoft initiierte Failover wendet Microsoft in seltenen Fällen an, um ein Failover für alle Event Grid-Ressourcen einer betroffenen Region in die entsprechende geografisch gekoppelte Region auszuführen. Microsoft behält sich das Recht vor, zu entscheiden, wann diese Option angewendet wird. Dieser Mechanismus bedarf nicht der Zustimmung des Benutzers, bevor ein Failover für den Datenverkehr des Benutzers ausgeführt wird.

Sie können diese Funktion aktivieren oder deaktivieren, indem Sie die Konfiguration für Ihr Thema oder Ihre Domäne aktualisieren. Wählen Sie die Option Cross-Geo (Standard) aus, um das von Microsoft initiierte Failover zu aktivieren, und die Option Regional, um es zu deaktivieren. Ausführliche Schritte zum Konfigurieren dieser Einstellung finden Sie unter Konfigurieren der Datenresidenz. Wenn Sie sich für die Option „Regional“ entscheiden, werden von Microsoft keine Daten jeglicher Art in eine andere Region repliziert, und Sie können Ihren eigenen Notfallwiederherstellungsplan definieren. Weitere Informationen finden Sie unter Erstellen Sie Ihren eigenen Notfallwiederherstellungsplan für Azure Event Grid-Themen und -Domänen.

Screenshot: Seite „Konfiguration“ für ein benutzerdefiniertes Event Grid-Thema.

Nachfolgend finden Sie einige Gründe, warum es sinnvoll sein kann, das Feature für das von Microsoft initiierte Failover zu deaktivieren:

  • Das von Microsoft initiierte Failover wird nach bestem Bemühen ausgeführt.
  • Einige geografisch gekoppelte Regionen erfüllen möglicherweise nicht die Datenresidenzanforderungen Ihrer Organisation.

In solchen Fällen wird das Erstellen eines eigenen Notfallwiederherstellungsplans für Azure Event Grid-Themen und -Domänen empfohlen. Dies ist zwar etwas aufwändiger, ermöglicht aber ein schnelleres Failover, und Sie können die sekundären Regionen selbst auswählen. Falls Sie eine clientseitige Notfallwiederherstellung für Azure Event Grid-Themen implementieren möchten, finden Sie unter Erstellen Ihrer eigenen clientseitigen Notfallwiederherstellung für Azure Event Grid-Themen weitere Informationen.

RTO und RPO

Die Notfallwiederherstellung wird anhand von zwei Metriken gemessen:

  • Recovery Point Objective (RPO): Der Zeitraum in Minuten oder Stunden, innerhalb dessen Daten verloren gehen können.
  • Recovery Time Objective (RTO): Der Zeitraum in Minuten oder Stunden, innerhalb dessen der Dienst ausfallen kann.

Beim automatischen Failover von Event Grid gelten verschiedene RPOs und RTOs für Ihre Metadaten (Themen, Domänen und Ereignisabonnements) und für Ihre Daten (Ereignisse). Wenn Sie andere Werte als die unten angegebenen benötigen, können Sie auch weiterhin ein eigenes clientseitiges Failover mithilfe von APIs für die Themenintegrität implementieren.

Recovery Point Objective (RPO)

  • Metadaten-RPO: Null Minuten. Für die entsprechenden Ressourcen wird die Ressourcendefinition synchron in die geografisch gekoppelte Region repliziert, wenn eine Ressource erstellt, aktualisiert oder gelöscht wird. Bei einem Failover gehen keine Metadaten verloren.

  • Daten-RPO (Recovery Point Objective): Wenn ein Failover stattfindet, werden neue Daten über die gekoppelte Region verarbeitet. Sobald der Ausfall für die betroffene Region behoben wurde, werden die unverarbeiteten Ereignisse von dort gesendet. Dauert die Wiederherstellung der Region länger als die festgelegte Gültigkeitsdauer für Ereignisse ist, werden die Daten u. U. gelöscht. Wir empfehlen, ein Ziel für unzustellbare Nachrichten für ein Ereignisabonnement einzurichten, um diesen Datenverlust zu minimieren. Wenn die betroffene Region vollständig ausfällt und nicht wiederhergestellt werden kann, kommt es zu Datenverlusten. Im besten Fall kann der Abonnent mit der Veröffentlichungsrate Schritt halten, und es gehen nur die Daten einiger Sekunden verloren. Im schlimmsten Fall verarbeitet der Abonnent Ereignisse nicht aktiv. Bei einer maximalen Gültigkeitsdauer von 24 Stunden könnten dann die Daten von bis zu 24 Stunden verloren gehen.

Recovery Time Objective (RTO)

  • Metadaten-RTO (Recovery Time Objective): Die Failoverentscheidung wird basierend auf Faktoren wie der verfügbaren Kapazität in der gekoppelten Region getroffen und kann 60 Minuten oder auch länger dauern. Sobald ein Failover initiiert wurde, beginnt Event Grid innerhalb von fünf Minuten damit, Aufrufe zum Erstellen/Aktualisieren/Löschen von Themen und Abonnements zu akzeptieren.

  • Daten-RTO: Wie oben beschrieben.

Wichtig

  • Im Fall einer serverseitigen Notfallwiederherstellung kann Event Grid das Failover nicht einleiten, wenn die gekoppelte Region nicht über verfügbare Kapazität zum Verarbeiten des zusätzlichen Datenverkehrs verfügt. Die Wiederherstellung erfolgt nach bestem Bemühen.
  • Die Kosten für die Verwendung dieses Features betragen 0 USD.
  • Die georedundante Notfallwiederherstellung wird für Partnernamespaces und Partnerthemen nicht unterstützt.

Nächste Schritte

Weitere Informationen finden Sie unter Erstellen Ihrer eigenen clientseitigen Notfallwiederherstellung für Azure Event Grid-Themen.