Empfehlungen für das Entwerfen einer Notfallwiederherstellungsstrategie

2025-04-30

Gilt für diese Empfehlung der Azure Well-Architected Framework-Zuverlässigkeitsprüfliste:

RE:09	Implementieren Sie strukturierte, getestete und dokumentierte Geschäftskontinuitäts- und Notfallwiederherstellungspläne (BCDR), die den Wiederherstellungszielen entsprechen. Pläne müssen alle Komponenten und das System insgesamt abdecken.

In diesem Leitfaden werden Empfehlungen für das Entwerfen einer zuverlässigen Notfallwiederherstellungsstrategie für eine Workload beschrieben. Um interne Ziele auf Dienstebene (SLOs) oder sogar eine SLA (Service Level Agreement) zu erfüllen, die Sie für Ihre Kunden garantiert haben, müssen Sie über eine robuste und zuverlässige Notfallwiederherstellungsstrategie verfügen. Fehler und andere wichtige Probleme werden erwartet. Ihre Vorbereitungen für den Umgang mit diesen Vorfällen bestimmen, wie viel Ihre Kunden Ihrem Unternehmen vertrauen können, um zuverlässig für sie zu liefern. Eine Notfallwiederherstellungsstrategie ist das Rückgrat der Vorbereitung auf wichtige Vorfälle.

Definitionen

Begriff	Definition
Ausfall	Die automatisierte und/oder manuelle Verschiebung des Produktionsauslastungsverkehrs von einer nicht verfügbaren Region in eine nicht betroffene geografische Region.
Failback	Die automatische und/oder manuelle Verschiebung des Produktionsworkloadverkehrs von einer Failoverregion zurück zur primären Region.

Wichtige Designstrategien

In diesem Leitfaden wird davon ausgegangen, dass Sie bereits die folgenden Aufgaben als Teil Ihrer Zuverlässigkeitsplanung ausgeführt haben:

Identifizieren kritischer und nicht kritischer Flüsse.
Führen Sie die Fehlermodusanalyse (FMA) für Ihre Flüsse aus.
Identifizieren Sie Zuverlässigkeitsziele.
Design für Zuverlässigkeit durch Redundanz, Skalierung, Selbsterhaltung und Selbstheilung.
Entwerfen Sie eine robuste Teststrategie.

Eine zuverlässige Notfallwiederherstellungsstrategie baut auf der Grundlage einer zuverlässigen Workloadarchitektur auf. Berücksichtigen Sie die Zuverlässigkeit in jeder Phase der Erstellung Ihrer Workload, um sicherzustellen, dass die erforderlichen Teile für eine optimierte Wiederherstellung vorhanden sind, bevor Sie mit dem Entwerfen Ihrer DR-Strategie beginnen. Diese Grundlage stellt sicher, dass die Zuverlässigkeitsziele Ihrer Workload, z. B. Wiederherstellungszeitziel (RTO) und Wiederherstellungspunktziel (RPO), realistisch und erreichbar sind.

Verwalten eines Notfallwiederherstellungsplans

Der Eckpfeiler einer zuverlässigen DR-Strategie für eine Arbeitsauslastung ist der DR-Plan. Ihr Plan sollte ein lebendiges Dokument sein, das regelmäßig überprüft und aktualisiert wird, wenn sich Ihre Umgebung weiterentwickelt. Präsentieren Sie den Plan regelmäßig an die entsprechenden Teams (z. B. Betriebs-, Technologieführer- und Geschäftsbeteiligte) (z. B. alle sechs Monate). Speichern Sie es in einem hoch verfügbaren, sicheren Datenspeicher wie OneDrive for Business.

Befolgen Sie die folgenden Empfehlungen, um Ihren DR-Plan zu entwickeln:

Klar definieren, was eine Katastrophe darstellt und erfordert daher die Aktivierung des DR-Plans.
- Katastrophen sind große Probleme. Es kann sich um regionale Ausfälle, Ausfälle von Diensten wie Microsoft Entra ID oder Azure DNS oder schwere böswillige Angriffe wie Ransomware-Angriffe oder DDoS-Angriffe handeln.
- Identifizieren Sie Fehlermodi, die nicht als Katastrophen betrachtet werden, z. B. den Ausfall einer einzelnen Ressource, sodass Die Operatoren ihre DR-Eskalationen nicht versehentlich aufrufen. Diese Fehlermodi können behoben werden, indem das Problem behoben wird, die fehlgeschlagenen Ressourcen erneut bereitgestellt oder ein Sicherungsplan verwendet wird.
Erstellen Sie den DR-Plan auf Basis Ihrer FMA-Dokumentation. Stellen Sie sicher, dass Ihr DR-Plan die Fehlermodi und Entschärfungsstrategien für Ausfälle erfasst, die als Katastrophen definiert sind. Aktualisieren Sie sowohl Ihren DR-Plan als auch Ihre FMA-Dokumente parallel, damit sie genau sind, wenn sich die Umgebung ändert oder wenn Tests unerwartete Verhaltensweisen entdecken.
- Ob Sie DR-Pläne für Nichtproduktionsumgebungen entwickeln, hängt von Ihren Geschäftlichen Anforderungen und Kostenauswirkungen ab. Wenn Sie beispielsweise QS-Umgebungen (Quality Assurance) bestimmten Kunden für Vorabüberprüfungstests anbieten, sollten Sie diese Umgebungen in Ihre DR-Planung einbeziehen.
Definieren Sie im Workloadteam klar Rollen und Verantwortlichkeiten und verstehen Sie alle damit verbundenen externen Rollen innerhalb Ihrer Organisation. Rollen sollten Folgendes enthalten:
- Die Partei, die für die Deklarierung einer Katastrophe verantwortlich ist.
- Die Partei, die für die Erklärung des Vorfallabschlusses verantwortlich ist.
- Operationsrollen.
- Test- und Validierungsrollen.
- Interne und externe Kommunikationsrollen.
- Führungsrollen bei der Retrospektiv- und Ursachenanalyse (RCA).
Definieren Sie die Eskalationspfade, die das Workloadteam befolgen muss, um sicherzustellen, dass der Wiederherstellungsstatus den Projektbeteiligten mitgeteilt wird.
Erfassen Sie Wiederherstellungsprozeduren auf Komponentenebene, Wiederherstellungsprozesse auf Datenbestandsebene und workloadweite Wiederherstellungsprozesse. Fügen Sie eine vorgeschriebene Reihenfolge von Vorgängen ein, um sicherzustellen, dass Komponenten auf die am wenigsten wirkungsvolle Weise wiederhergestellt werden. Stellen Sie beispielsweise Datenbanken wieder her, und überprüfen Sie sie, bevor Sie die Anwendung wiederherstellen.
- Detaillierte Informationen zu den einzelnen Wiederherstellungsprozeduren auf Komponentenebene als Schritt-für-Schritt-Anleitung. Schließen Sie nach Möglichkeit Screenshots ein.
- Definieren Sie die Verantwortlichkeiten Ihres Teams im Vergleich zu den Verantwortlichkeiten Ihres Cloudhostinganbieters. Beispielsweise ist Microsoft für die Wiederherstellung einer PaaS (Plattform als Dienst) verantwortlich, aber Sie sind für das Rehydratieren von Daten und das Anwenden Ihrer Konfiguration auf den Dienst verantwortlich.
- Schließen Sie voraussetzungen für die Ausführung der Prozedur ein. Listen Sie beispielsweise die erforderlichen Skripts oder Anmeldeinformationen auf, die gesammelt werden müssen.
- Erfassen Sie die Grundursache des Vorfalls, und führen Sie vor beginn der Wiederherstellung Abhilfemaßnahmen durch. Wenn die Ursache des Vorfalls beispielsweise ein Sicherheitsproblem ist, beheben Sie dieses Problem, bevor Sie die betroffenen Systeme in Ihrer Failoverumgebung wiederherstellen.
Je nach Redundanzdesign für Ihre Workload müssen Sie möglicherweise erhebliche Nachfailoverarbeiten durchführen, bevor Sie die Workload ihren Kunden erneut zur Verfügung stellen. Zu den Arbeiten nach dem Failover können DNS-Updates, Aktualisierungen der Datenbankverbindungszeichenfolgen und Änderungen des Datenverkehrsrouting gehören. Erfassen Sie alle Arbeiten nach einem Failover in Ihren Wiederherstellungsvorgehen.

Hinweis

Ihr Redundanzdesign ermöglicht es Ihnen möglicherweise, sich automatisch von wichtigen Vorfällen vollständig oder teilweise wiederherzustellen. Stellen Sie daher sicher, dass Ihr Plan Prozesse und Verfahren in diesen Szenarien umfasst. Wenn Sie beispielsweise über einen vollständigen Aktiv-Aktiv-Entwurf verfügen, der Verfügbarkeitszonen oder Regionen umfasst, können Sie nach einem Ausfall einer Verfügbarkeitszone oder Region möglicherweise automatisch ein Failover auf ein Sicherungssystem ausführen und die Anzahl der auszuführenden Schritte in Ihrem Notfallwiederherstellungsplan minimieren. Wenn Sie Ihre Workload auch mithilfe von Bereitstellungsstempeln entworfen haben, tritt möglicherweise nur ein Teilausfall auf, wenn die Stempel zonal bereitgestellt werden. In diesem Fall sollte Ihr DR-Plan abdecken, wie Stempel in nicht betroffenen Zonen oder Regionen wiederhergestellt werden.
Wenn Sie Ihre App in der Failoverumgebung erneut bereitstellen müssen, verwenden Sie Tools, um den Bereitstellungsprozess so weit wie möglich zu automatisieren. Stellen Sie sicher, dass Ihre DevOps-Pipelines in den Failoverumgebungen vorab bereitgestellt und konfiguriert wurden, damit Sie ihre App-Bereitstellungen sofort starten können. Verwenden Sie bei Bedarf automatisierte End-to-End-Bereitstellungen mit manuellen Genehmigungsgaten, um einen konsistenten und effizienten Bereitstellungsprozess sicherzustellen. Die vollständige Bereitstellungsdauer muss mit ihren Wiederherstellungszielen übereinstimmen.
- Wenn für eine Phase des Bereitstellungsprozesses ein manueller Eingriff erforderlich ist, dokumentieren Sie die manuellen Schritte. Klare Definition von Rollen und Zuständigkeiten.
Automatisieren Sie so viel wie möglich. Verwenden Sie in Ihren Skripts deklarative Programmierung, da sie idempotenz ermöglicht. Wenn Sie die deklarative Programmierung nicht verwenden können, sollten Sie sich mit der Entwicklung und Ausführung des benutzerdefinierten Codes beschäftigen. Verwenden Sie wiederholungslogik und Schaltkreistrennlogik, um zu vermeiden, dass Zeit für Skripts, die an einem fehlerhaften Vorgang hängen bleiben, verwendt werden. Da Sie diese Skripts nur in Notfällen ausführen, möchten Sie nicht, dass falsch entwickelte Skripts mehr Schaden verursachen oder den Wiederherstellungsvorgang verlangsamen.

Hinweis

Automatisierung stellt Risiken dar. Geschulte Operatoren müssen die automatisierten Prozesse sorgfältig überwachen und eingreifen, wenn probleme auftreten. Um das Risiko zu minimieren, dass die Automatisierung auf Fehlalarme reagiert, sollten Sie Ihre DR-Übungen gründlich durchführen. Testen Sie alle Phasen des Plans. Simulieren Sie die Erkennung, um Warnungen zu generieren, und durchlaufen Sie dann das gesamte Wiederherstellungsverfahren.

Denken Sie daran, dass Ihre DR-Drills die Aktualisierung der Zielmetriken für die Wiederherstellung überprüfen oder unterstützen sollten. Wenn Sie feststellen, dass Ihre Automatisierung anfällig für falsch positive Ergebnisse ist, müssen Sie möglicherweise die Failoverschwellenwerte erhöhen.
Trennen Sie den Failbackplan vom DR-Plan, um potenzielle Verwirrung mit den DR-Verfahren zu vermeiden. Der Failback-Plan sollte alle Empfehlungen für Entwicklung und Wartung des DR-Plans befolgen und auf die gleiche Weise strukturiert sein. Alle manuellen Schritte, die für das Failover erforderlich waren, sollten im Failback-Plan widergespiegelt werden. Failback kann schnell nach dem Failover auftreten, oder es kann Tage oder Wochen dauern. Betrachten Sie Failback als etwas vom Failover Getrenntes.
- Die Notwendigkeit eines Failbacks ist situationsbedingt. Wenn Sie den Datenverkehr aus Leistungsgründen zwischen Regionen umleiten, ist es wichtig, ein Failback der Last durchzuführen, die sich ursprünglich in der Failover-Region befand. In anderen Fällen haben Sie Möglicherweise Ihre Workload so konzipiert, dass sie vollständig funktioniert, unabhängig davon, in welcher Produktionsumgebung sie sich zu einem beliebigen Zeitpunkt befindet.

Katastrophenschutzübungen durchführen

Eine DR-Testpraxis ist ebenso wichtig wie ein gut entwickelter DR-Plan. In vielen Branchen gelten Compliance-Rahmenbedingungen, die die regelmäßige Durchführung einer bestimmten Anzahl von DR-Drills vorschreiben. Unabhängig von Ihrer Branche sind regelmäßige DR-Drills für Ihren Erfolg von größter Bedeutung.

Befolgen Sie die folgenden Empfehlungen für erfolgreiche DR-Drills:

Führen Sie mindestens einen Produktions-DR-Drill pro Jahr aus. Tabletop-Drills (Probelauf) oder Nichtproduktions-Drills tragen dazu bei, dass die beteiligten Parteien mit ihren Rollen und Zuständigkeiten vertraut sind. Diese Übungen helfen Bedienern auch, Vertrautheit (Muskelgedächtnis) zu entwickeln, indem sie Wiederherstellungsprozesse befolgen. Aber nur Produktionsbohrungen testen wirklich die Gültigkeit des DR-Plans und der RTO- und RPO-Metriken. Verwenden Sie Ihre Produktions-Drills, um die Wiederherstellungsprozesse für Komponenten und Abläufe zeitlich zu planen, um sicherzustellen, dass die für Ihre Workload definierten RTO- und RPO-Ziele erreichbar sind. Stellen Sie bei Funktionen, die außerhalb Ihrer Kontrolle sind, wie z. B. die DNS-Verteilung, sicher, dass die RTO- und RPO-Ziele für die Flüsse, die diese Funktionen umfassen, mögliche Verzögerungen über Ihre Kontrolle hinaus berücksichtigen.
Verwenden Sie Tabletop-Drills nicht nur, um sich mit erfahrenen Operatoren vertraut zu machen, sondern auch um neue Operatoren über DR-Prozesse und -Verfahren zu informieren. Leitende Betreiber sollten sich Zeit nehmen, damit neue Betreiber ihre Rolle ausführen können und auf Verbesserungsmöglichkeiten achten. Wenn ein neuer Operator zögerlich oder durch einen Schritt in einem Verfahren verwirrt ist, überprüfen Sie dieses Verfahren, um sicherzustellen, dass er klar geschrieben ist.

Überlegungen

Das Ausführen von DR-Drills in der Produktion kann zu unerwarteten katastrophalen Fehlern führen. Testen Sie die Wiederherstellungsprozeduren in Nichtproduktionsumgebungen während der ersten Bereitstellungen.
Geben Sie Ihrem Team so viel Wartungszeit wie möglich während Drills. Verwenden Sie bei der Planung der Wartungszeit die Wiederherstellungsmetriken, die Sie während des Tests erfassen, als minimal erforderliche Zeitzuweisungen.
Wenn Ihre DR-Drillpraktiken reif sind, lernen Sie, welche Prozeduren parallel ausgeführt werden können und welche Sie in Sequenz ausführen müssen. Gehen Sie zu Beginn ihrer Drill practices davon aus, dass jede Prozedur in Sequenz ausgeführt werden muss und dass Sie in jedem Schritt zusätzliche Zeit benötigen, um unerwartete Probleme zu behandeln.

Definieren und Verwalten von Sicherungsplänen für Ressourcen innerhalb kritischer Flüsse

Die Sicherung ist ein wichtiger Bestandteil Ihres gesamten Wiederherstellungsprozesses. Häufig ist es nur ein Teil Ihrer Umgebung, der die Wiederherstellung benötigt. DR-Pläne sind in der Regel anwendungs- oder sogar regionsweit. Versehentliche oder böswillige Löschung von Daten, Dateibeschädigungen, Schadsoftware und gezielten Ransomware-Angriffen können sich alle auf die Verfügbarkeit Ihrer Workload auswirken. Die Bereitstellung solider Sicherungspläne für jeden Teil Ihrer Umgebung ist genauso wichtig wie das Vorhandensein eines effektiven DR-Plans, da ein DR-Plan von einem soliden Sicherungsplan abhängt, um effektiv zu sein. Wie Ihr DR-Plan müssen auch Sicherungspläne von den entsprechenden Verwaltungsebenen vereinbart werden, regelmäßig für mögliche Updates überprüft und in einem hochverwendigen, sicheren Datenspeicher dokumentiert werden.

Ermitteln Sie geeignete Sicherungslösungen für die verschiedenen Azure-Dienste, die Teil der kritischen Pfade innerhalb Ihrer Workload sind.
Definieren Sie erforderliche Aufbewahrungszeiträume für jeden einzelnen Dienst.
Verstehen Sie, dass ein Tool möglicherweise nicht für alles funktioniert. Azure Backup-Tools können viele Ressourcentypen abdecken, aber nicht alle.
Manchmal ist die beste Option zur Wiederherstellung bestimmter Objekttypen eine Neuverteilung aus einer Ebene eines hochverfügbaren Repositorys. (Azure DevOps, GitHub oder andere)
Datendienste haben unterschiedliche Anforderungen als anwendungsbezogene Objekte.
Stellen Sie sicher, dass Sie eine Speicherstrategie für mehrere Regionen für Ihre Sicherungsdaten in Betracht ziehen, um eine regionsübergreifende Wiederherstellbarkeit zu schaffen.
Führen Sie regelmäßige, geplante Testwiederherstellungen von Sicherungsdaten aus, um sicherzustellen, dass Dienste wie erwartet funktionieren.

Azure-Unterstützung

Viele Azure-Produkte verfügen über integrierte Failoverfunktionen. Machen Sie sich mit diesen Funktionen vertraut, und schließen Sie sie in Wiederherstellungsprozeduren ein. Sehen Sie sich die DR für die Azure-Datenplattform-Serie an, um Anleitungen zur Vorbereitung einer Unternehmensdatenstruktur für DR zu erhalten.

Verwenden Sie für IaaS-Systeme (Infrastruktur als Dienst) Azure Site Recovery , um Failover und Wiederherstellung zu automatisieren. In den folgenden Artikeln finden Sie allgemeine PaaS-Produkte:

Viele Azure-Produkte verfügen über integrierte Sicherungsfunktionen. Machen Sie sich mit diesen Funktionen vertraut, und schließen Sie sie in Wiederherstellungsprozeduren ein.

Verwenden Sie Azure Backup für IaaS-Systeme (Infrastruktur als Dienst), um die Sicherung von VMs und VM-bezogenen Diensten und einigen Datendiensten zu erleichtern. Weitere Informationen finden Sie in den folgenden Artikeln für allgemeine Produkte:

Zuverlässigkeitscheckliste

Lesen Sie die vollständigen Empfehlungen.

Zuverlässigkeitsprüfliste

Freigeben über