Microsoft Exchange Online-Datenresilienz

Artikel
06/25/2024

Exchange ist nicht nur einer der am stärksten genutzten Onlinedienste von Microsoft, es dient auch als langfristige Datenspeicherung für viele andere Microsoft 365-Dienste wie Teams. Aus diesem Grund ist Exchange robust entworfen, um eine hohe Resilienz in Bezug auf Datenintegrität und Verfügbarkeit bei unvorhergesehenen Unterbrechungen zu gewährleisten.

Operative Resilienz

Datenbankverfügbarkeitsgruppen

Jede Postfachdatenbank in Microsoft 365 wird in einer Datenbankverfügbarkeitsgruppe (DAG) gehostet und in geografisch getrennte Rechenzentren innerhalb derselben Region repliziert. Die gängigste Konfiguration sind vier Datenbankkopien in vier Rechenzentren. Einige Regionen verfügen jedoch über weniger Rechenzentren (Datenbanken werden in drei Rechenzentren in Indien und zwei Rechenzentren in Australien und Japan repliziert). In allen Fällen verfügt jede Postfachdatenbank jedoch über vier Kopien, die über mehrere Rechenzentren verteilt sind, wodurch sichergestellt wird, dass Postfachdaten vor Software-, Hardware- und sogar Rechenzentrumsausfällen geschützt sind.

Von diesen vier Kopien sind drei als hochverfügbar konfiguriert. Die vierte Kopie wird als verzögerte Datenbankkopie konfiguriert. Die verzögerte Datenbankkopie ist nicht für die Wiederherstellung einzelner Postfächer oder die Wiederherstellung von Postfachelementen vorgesehen. Sein Zweck ist es, einen Wiederherstellungsmechanismus für das seltene Ereignis einer systemweiten, katastrophalen logischen Beschädigung bereitzustellen.

Verzögerte Datenbankkopien in Exchange Online werden mit einer Verzögerung von sieben Tagen für die Wiedergabe von Protokolldateien konfiguriert. Darüber hinaus ist der Exchange Replay Lag Manager aktiviert, um dynamische Protokolldateien für verzögerte Kopien bereitzustellen, um verzögerte Datenbankkopien zu ermöglichen, sich selbst zu reparieren und das Wachstum von Protokolldateien zu verwalten. Obwohl verzögerte Datenbankkopien in Exchange Online verwendet werden, ist es wichtig zu verstehen, dass sie keine garantierte Point-in-Time-Sicherung sind. Verzögerte Datenbankkopien in Exchange Online weisen einen Verfügbarkeitsschwellenwert von in der Regel um 90 % auf, da der Datenträger, der eine verzögerte Kopie enthält, aufgrund eines Datenträgerfehlers verloren geht, die verzögerte Kopie zu einer hochverfügbaren Kopie wird (aufgrund automatischer Wiedergabe) und in den Zeiträumen, in denen die verzögerte Datenbankkopie die Protokollwiedergabewarteschlange neu erstellt.

Transportresilienz

Exchange Online umfasst zwei hauptfunktionen für die Transportresilienz: Schattenredundanz und Safety Net. Schattenredundanz behält während der Übertragung eine redundante Kopie einer Nachricht bei. Safety Net behält eine redundante Kopie einer Nachricht bei, nachdem die Nachricht erfolgreich zugestellt wurde.

Mit Schattenredundanz erstellt jeder Exchange Online-Transportserver eine Kopie jeder empfangenen Nachricht, bevor er bestätigt, dass die Nachricht erfolgreich an den sendenden Server empfangen wird. Dadurch werden alle Nachrichten in der Transportpipeline während der Übertragung redundant. Wenn Exchange Online feststellt, dass die ursprüngliche Nachricht während der Übertragung verloren gegangen ist, wird eine redundante Kopie der Nachricht erneut zugestellt.

Safety Net ist eine Transportwarteschlange, die dem Transportdienst auf einem Postfachserver zugeordnet ist. In dieser Warteschlange werden Kopien von Nachrichten gespeichert, die vom Server erfolgreich verarbeitet wurden. Wenn ein Postfachdatenbank- oder Serverfehler die Aktivierung einer veralteten Kopie der Postfachdatenbank erfordert, werden Nachrichten in der Safety Net-Warteschlange automatisch erneut an die neue aktive Kopie der Postfachdatenbank übermittelt. Safety Net ist ebenfalls redundant, wodurch der Transport als Single Point of Failure entfällt. Es wird das Konzept eines primären Sicherheitsnetzes und eines Schattensicherheitsnetzes verwendet, bei dem, wenn das primäre Sicherheitsnetz länger als 12 Stunden nicht verfügbar ist, Anforderungen für erneute Übermittlungen zu Schattenrückreichanforderungen werden und Nachrichten aus dem Shadow Safety Net erneut übermittelt werden.

Nachrichtenweitersendungen aus Safety Net werden automatisch von der Active Manager-Komponente des Microsoft Exchange-Replikationsdiensts initiiert, der DAGs und Postfachdatenbankkopien verwaltet. Zum erneuten Übermitteln von Nachrichten aus Safety Net sind keine manuellen Aktionen erforderlich.

Korruptionsprävention und -korrektur

Bei einem Compliance-Archiv bleiben sämtliche Postfachinhalte einschließlich gelöschter Elemente und Originalversionen geänderter Elemente erhalten. Alle diese Postfachelemente werden bei einer Compliance-eDiscovery-Suche zurückgegeben. Wenn Sie ein In-Place Halten für das Postfach eines Benutzers platzieren, werden die Inhalte im entsprechenden Archivpostfach (sofern aktiviert) ebenfalls in den Halteraum versetzt und in einer eDiscovery-Suche zurückgegeben.

Es gibt zwei Arten von Beschädigungen, die sich auf eine Exchange-Datenbank auswirken können: physische Beschädigung, die in der Regel durch Hardwareprobleme (insbesondere Speicherhardware) verursacht wird, und logische Beschädigung, die aufgrund anderer Faktoren auftritt. Im Allgemeinen gibt es zwei Arten logischer Beschädigungen, die innerhalb einer Exchange-Datenbank auftreten können:

Logische Beschädigung der Datenbank : Die Prüfsumme der Datenbankseite stimmt überein, aber die Daten auf der Seite sind logisch falsch. Dies kann auftreten, wenn die Datenbank-Engine (Extensible Storage Engine, ESE) versucht, eine Datenbankseite zu schreiben, und obwohl das Betriebssystem eine Erfolgsmeldung zurückgibt, die Daten entweder nie auf den Datenträger geschrieben oder an die falsche Stelle geschrieben werden. Dies wird als verlorene Leerung bezeichnet. ESE enthält zahlreiche Features und Sicherheitsvorkehrungen, die die physische Beschädigung einer Datenbank und andere Datenverlustszenarien verhindern sollen. Um zu verhindern, dass verlorene Leerungen Daten verlieren, enthält ESE einen Mechanismus zur Erkennung verlorener Leerungen in der Datenbank sowie ein Feature (Single-Page-Wiederherstellung), um dies zu korrigieren.
Logische Speicherbeschädigung : Daten werden auf eine Weise hinzugefügt, gelöscht oder bearbeitet, die der Benutzer nicht erwartet. Diese Fälle werden durch Drittanbieteranwendungen verursacht. Es handelt sich in der Regel um Beschädigungen in dem Sinne, dass der Benutzer dies als Beschädigung betrachtet. Der Exchange-Speicher betrachtet die Transaktion, die zur logischen Beschädigung geführt hat, als eine Folge gültiger MAPI-Operationen. Die In-Place-Speicherfunktionen in Exchange Online bieten Schutz vor logischer Speicherbeschädigung (da sie verhindern, dass Inhalte dauerhaft von einem Benutzer oder einer Anwendung gelöscht werden).

Exchange Online führt mehrere Konsistenzprüfungen für replizierte Protokolldateien sowohl während der Protokollüberprüfung als auch während der Protokollwiedergabe durch. Diese Konsistenzprüfungen verhindern, dass physische Beschädigungen vom System repliziert werden. Bei der Protokollüberprüfung gibt es beispielsweise eine physische Integritätsprüfung, die die Protokolldatei überprüft und überprüft, ob die in der Protokolldatei aufgezeichnete Prüfsumme mit der im Arbeitsspeicher generierten Prüfsumme übereinstimmt. Darüber hinaus wird der Protokolldateiheader untersucht, um sicherzustellen, dass die im Protokollheader aufgezeichnete Protokolldateisignatur der Protokolldatei entspricht. Während der Protokollwiedergabe wird die Protokolldatei einer weiteren Überprüfung unterzogen. Beispielsweise enthält der Datenbankheader auch die Protokollsignatur, die mit der Signatur der Protokolldatei verglichen wird, um sicherzustellen, dass sie übereinstimmen.

Der Schutz vor Beschädigung von Postfachdaten in Exchange Online wird mithilfe des nativen Exchange-Datenschutzes erreicht, einer Resilienzstrategie, die die Replikation auf Anwendungsebene über mehrere Server und mehrere Rechenzentren hinweg nutzt, zusammen mit anderen Features, die dazu beitragen, Daten vor Datenverlust aufgrund von Beschädigungen oder anderen Gründen zu schützen. Zu diesen Features gehören native Features, die von Microsoft oder der Exchange Online-Anwendung selbst verwaltet werden, z. B.:

Datenverfügbarkeitsgruppen
Einzelbitkorrektur
Online-Datenbanküberprüfung
Erkennung verlorener Leerungen
Einzelseitenwiederherstellung
Postfachreplikationsdienst
Protokolldateiüberprüfungen
Bereitstellung im resilienten Dateisystem

Wenn Sie weitere Informationen zu den zuvor aufgeführten nativen Features erhalten möchten, wählen Sie die Links aus. Weitere Informationen und Details zu Elementen ohne Hyperlinks finden Sie in den folgenden Artikeln. Zusätzlich zu diesen nativen Features enthält Exchange Online auch Funktionen zur Datenresilienz, die Kunden verwalten können, z. B.:

Einzelbitkorrektur

ESE enthält einen Mechanismus zum Erkennen und Beheben von Single-Bit-CRC-Fehlern (auch als Single-Bit-Flips bezeichnet), die das Ergebnis von Hardwarefehlern sind (und als solche eine physische Beschädigung darstellen). Wenn diese Fehler auftreten, korrigiert ESE sie automatisch und protokolliert ein Ereignis im Ereignisprotokoll.

Online-Datenbanküberprüfung

Die Online-Datenbanküberprüfung (auch als Datenbanküberprüfungssumme bezeichnet) ist der Prozess, bei dem eine ESE eine Datenbankkonsistenzprüfung verwendet, um jede Seite zu lesen und auf Seitenbeschädigung zu überprüfen. Der Hauptzweck besteht darin, physische Beschädigungen und verlorene Leerungen zu erkennen, die möglicherweise nicht von Transaktionsvorgängen erkannt werden. Die Datenbanküberprüfung führt auch Vorgänge nach dem Absturz des Speichers durch. Speicherplatz kann aufgrund von Abstürzen verloren gehen, und die Online-Datenbanküberprüfung findet und stellt verlorenen Speicherplatz wieder her. Das System ist in der Erwartung konzipiert, dass jede Datenbank einmal alle sieben Tage vollständig gescannt wird.

Erkennung verlorener Leerungen

Eine verlorene Leerung tritt auf, wenn ein Datenbankschreibvorgang, den das Datenträgersubsystem/Betriebssystem als abgeschlossen zurückgegeben hat, nicht tatsächlich auf den Datenträger geschrieben wurde oder am falschen Speicherort geschrieben wurde. Verlorene Leerungsvorfälle können zu einer logischen Beschädigung der Datenbank führen. Um zu verhindern, dass verlorene Leerungen zu verlorenen Daten führen, enthält ESE einen Mechanismus zur Erkennung verlorener Leerungen. Wenn Datenbankseiten in passive Kopien geschrieben werden, wird eine Überprüfung auf verlorene Leerungen bei der aktiven Kopie durchgeführt. Wenn eine verlorene Leerung erkannt wird, kann ESE den Prozess mithilfe eines Seitenpatchprozesses reparieren.

Einzelseitenwiederherstellung

Die Wiederherstellung einer einzelnen Seite, auch als Seitenpatching bezeichnet, ist ein automatischer Prozess, bei dem beschädigte Datenbankseiten durch fehlerfreie Kopien aus einem fehlerfreien Replikat ersetzt werden. Der Reparaturvorgang für eine beschädigte Seite hängt davon ab, ob die Datenbankkopie aktiv oder passiv ist. Wenn eine aktive Datenbankkopie auf eine beschädigte Seite stößt, kann sie eine Seite von einem ihrer Replikate kopieren, sofern die kopierte Seite auf dem neuesten Stand ist. Dieser Prozess wird erreicht, indem eine Anforderung für die Seite in den Protokollstream aufgenommen wird, der die Grundlage für die Replikation der Postfachdatenbank ist. Sobald ein Replikat auf die Seitenanforderung stößt, antwortet es, indem es eine Kopie der Seite an die anfordernde Datenbankkopie sendet. Die Wiederherstellung einer einzelnen Seite bietet auch einen asynchronen Kommunikationsmechanismus für aktive Benutzer, um eine Seite von Replikaten anzufordern, auch wenn die Replikate derzeit offline sind.

Wenn eine passive Datenbankkopie beschädigt ist, einschließlich einer verzögerten Datenbankkopie, da sich diese Kopien immer hinter ihrer aktiven Kopie befinden, ist es immer sicher, jede Seite von der aktiven Kopie in eine passive Kopie zu kopieren. Eine passive Datenbankkopie ist von Natur aus hochverfügbar, sodass während des Seitenpatchvorgangs die Protokollwiedergabe angehalten wird, aber das Protokollkopiervorgang fortgesetzt wird. Die passive Datenbankkopie ruft eine Kopie der beschädigten Seite aus der aktiven Kopie ab, wartet, bis die Protokolldatei, die die maximal erforderliche Protokollgenerierungsanforderung erfüllt, kopiert und überprüft wird. Anschließend wird die beschädigte Seite gepatcht. Nachdem die Seite gepatcht wurde, wird die Protokollwiedergabe fortgesetzt. Der Prozess ist für die verzögerte Datenbankkopie identisch, mit der Ausnahme, dass die verzögerte Datenbank zuerst alle Protokolldateien wiedergibt, die erforderlich sind, um einen patchfähigen Zustand zu erreichen.

Postfachreplikationsdienst

Das Verschieben von Postfächern ist ein wichtiger Bestandteil der Verwaltung eines umfangreichen E-Mail-Diensts. Es gibt immer aktualisierte Technologien und Hardware- und Versionsupgrades. Daher ist es wichtig, ein robustes, gedrosseltes System zu haben, das es unseren Technikern ermöglicht, diese Arbeit zu erledigen, während die Postfachverschiebungen für Die Benutzer transparent bleiben (indem sichergestellt wird, dass sie während des gesamten Prozesses online bleiben), und sicherstellen, dass der Prozess ordnungsgemäß skaliert wird, wenn die Postfächer immer größer werden.

Der Exchange-Postfachreplikationsdienst (MRS) ist für das Verschieben von Postfächern zwischen Datenbanken zuständig. Während der Verschiebung führt MRS eine Konsistenzprüfung für alle Elemente im Postfach durch. Wenn ein Konsistenzproblem gefunden wird, behebt MRS entweder das Problem oder überspringt die beschädigten Elemente, wodurch die Beschädigung aus dem Postfach entfernt wird.

Da MRS eine Komponente von Exchange Online ist, können wir Änderungen am Code vornehmen, um neue Formen der Beschädigung zu beheben, die in Zukunft erkannt werden. Wenn wir z. B. ein Konsistenzproblem erkennen, das MRS nicht beheben kann, können wir die Beschädigung analysieren, den MRS-Code ändern und die Inkonsistenz korrigieren (wenn wir dies verstehen).

Protokolldateiüberprüfungen

Alle Transaktionsprotokolldateien, die von einer Exchange-Datenbank generiert werden, durchlaufen verschiedene Arten von Konsistenzprüfungen. Wenn eine Protokolldatei erstellt wird, wird zunächst ein Bitmuster geschrieben, und dann wird eine Reihe von Protokollschreibvorgängen ausgeführt. Diese Struktur ermöglicht Es Exchange Online, eine Reihe von Überprüfungen (verlorene Leerung, CRC und andere Überprüfungen) auszuführen, um jede Protokolldatei beim Schreiben und erneut während der Replikation zu überprüfen.

Bereitstellung im resilienten Dateisystem

Um eine Beschädigung auf Dateisystemebene zu verhindern, wird Exchange Online auf ReFS-Partitionen (Resilient File System) bereitgestellt, um verbesserte Wiederherstellungsfunktionen bereitzustellen. ReFS ist ein Dateisystem in Windows Server 2012 und höher, das resilienter gegen Datenbeschädigung ist und so die Datenverfügbarkeit und -integrität maximiert. ReFS bietet insbesondere Verbesserungen bei der Aktualisierung von Metadaten, was einen besseren Schutz für Daten bietet und Fälle von Datenbeschädigungen reduziert. Außerdem werden Prüfsummen verwendet, um die Integrität von Dateidaten und Metadaten zu überprüfen, um sicherzustellen, dass Datenbeschädigungen leicht gefunden und repariert werden können.

Exchange Online nutzt mehrere ReFS-Vorteile:

Mehr Resilienz bei der Datenintegrität bedeutet weniger Datenbeschädigungsvorfälle. Die Verringerung der Anzahl von Beschädigungsvorfällen bedeutet weniger unnötige Datenbank-Reseeds.
Prüfsumme, die für Metadaten ausgeführt wird, ermöglicht es uns, Beschädigungsfälle früher und deterministisch zu erkennen, sodass wir die Beschädigung von Kundendaten beheben können, bevor graue Fehler auf Datenvolumes auftreten.
Konzipiert für die gute Arbeit mit großen Datasets (Petabytes und größer) ohne Auswirkungen auf die Leistung
Unterstützung für andere Features, die von Exchange Online verwendet werden, z. B. BitLocker-Verschlüsselung.

Exchange Online profitiert auch von anderen ReFS-Features:

Integrität (Integritätsdatenströme): ReFS speichert Daten so, dass sie vor vielen häufigen Fehlern geschützt werden, die normalerweise zu Datenverlusten führen können. Microsoft 365 Search verwendet Integritätsdatenströme, um bei der frühen Erkennung von Datenträgerbeschädigungen und prüfsummen von Dateiinhalten zu helfen. Das Feature reduziert auch Beschädigungsvorfälle, die durch "gerissene Schreibvorgänge" verursacht werden (wenn ein Schreibvorgang aufgrund von Stromausfällen usw. nicht abgeschlossen wird).
Verfügbarkeit (Salvage): ReFS priorisiert die Verfügbarkeit von Daten. In der Vergangenheit waren Dateisysteme häufig anfällig für Datenbeschädigungen, sodass das System für die Reparatur offline geschaltet werden musste. Obwohl selten, wenn eine Beschädigung auftritt, implementiert ReFS die Rettung, ein Feature, das die beschädigten Daten aus dem Namespace auf einem Livevolume entfernt und sicherstellt, dass gute Daten nicht durch nicht reparierbare beschädigte Daten beeinträchtigt werden. Das Anwenden der Funktion "Wiederherstellung" und das Isolieren von Datenbeschädigungen auf Exchange Online-Datenbankvolumes bedeutet, dass nicht betroffene Datenbanken auf einem beschädigten Volume zwischen dem Zeitpunkt der Beschädigung und der Reparaturaktion fehlerfrei bleiben können. Diese Struktur erhöht die Verfügbarkeit von Datenbanken, die normalerweise von solchen Datenträgerbeschädigungsproblemen betroffen wären.

Freigeben über