Ausfallsicherheit von Microsoft 365 verstehen

Abgeschlossen

Resilienz ist ein weiteres Grundprinzip bei der Entwicklung der Microsoft 365-Architektur und -Dienste. Microsoft entwickelt und gestaltet seine Clouddienste, um maximale Zuverlässigkeit zu erzielen und negative Folgen für Kunden im Hinblick auf Fehler und Probleme, die bei normalen Vorgängen auftreten können, zu minimieren. Anstatt auf herkömmliche Resilienzstrategien mit komplexen physischen Infrastrukturen zu setzen, integriert Microsoft Redundanz direkt in Onlinedienste. Wir kombinieren redundante Infrastrukturen mit intelligenter Software, um die Datenresilienz zu maximieren, Ausfallzeiten zu vermeiden und unseren SLA von 99,9 % Verfügbarkeit zu erfüllen.

Dienstresilienz

In der Resilienzstrategie von Microsoft 365 wird die Softwareresilienz priorisiert. Dies bedeutet, dass wir uns darauf konzentrieren, unsere Dienste resilient zu entwickeln und für den Schutz vor Dienstausfällen sorgen, unabhängig von Fehlern der zugrunde liegenden Hardware. Die Dienstresilienz ermöglicht es unseren Diensten, bei vielen Arten von Störungen und Fehlern automatisch zum Ausgangszustand zurückzukehren, ohne dass die Dienstverfügbarkeit beeinträchtigt würde.

In Microsoft 365-Diensten sind verschiedene Resilienzprinzipien umgesetzt, darunter:

  • Aktiv/Aktiv-Dienstausführung: Wo immer möglich werden unsere Dienste mit Aktiv/Aktiv-Resilienz konzipiert und bereitgestellt. Dies bedeutet: Wenn eine kritische Komponente des Dienstes ausfällt, ist eine identische Komponente für den Einsatz verfügbar, ohne dass es zu einem Dienstausfall kommt.
  • Fehlerisolation: Durch die Fehlerisolation wird die Dienstresilienz erhöht, da verhindert wird, dass Fehler in einer Komponente dazu führen, dass andere Komponenten ausfallen. Wir arbeiten fortlaufen daran, den Umfang von Problemzonen in unseren Microsoft 365-Diensten zu verringern, um zu verhindern, dass Störungen oder Fehler sich ausbreiten und andere Systemkomponenten beeinträchtigen. So begrenzen beispielsweise Exchange Online-Datenbank-Verfügbarkeitsgruppen die Auswirkungen von Fehlern innerhalb des Dienstes auf bestimmte Verfügbarkeitsgruppen.
  • Überwachung und Selbstreparatur: In Microsoft 365-Diensten wirken verschiedene automatisierte Mechanismen, die die Integrität unserer Dienste kontinuierlich überwachen und den Datenverkehr an optimale Dienstcluster weiterleiten. Viele unserer Dienste umfassen Selbstheilungsmechanismen für erkannte Probleme. So werden beispielsweise Postfachdatenbanken von Exchange Online automatisch wiederhergestellt, wenn es einen Festplattenfehler erkennt, der sich auf eine Verfügbarkeitsgruppe auswirkt.

Datenresilienz

Die Datenresilienz ergänzt die Dienstresilienz durch die Wahrung der Integrität und Verfügbarkeit von Daten in Microsoft 365-Diensten. Bei der Datenresilienz in Microsoft 365 liegt der Schwerpunkt darauf, sicherzustellen, dass wichtige Kundendaten auch bei unerwarteten Ausfällen und Fehlern ständig verfügbar und unverändert bleiben. Um dies zu erreichen, sind in Microsoft 365-Diensten die folgenden Prinzipien für Datenresilienz umgesetzt:

  • Datenkritikalität: Unsere Dienste sind darauf ausgelegt, wichtige Kundendaten zu schützen. Dafür werden wir die von unseren Systemen verarbeiteten Daten als kritisch oder als nicht kritisch kategorisiert. Nicht kritische Daten (z. B. ob eine Nachricht gelesen wurde) können in seltenen Ausfallszenarien gelöscht werden. Kritische Daten wie z. B. Kundendaten sind bei Ausfallszenarien vor Verlust geschützt.
  • Datenredundanz: Unsere Dienste nutzen lokale Speicherredundanz und Georedundanz, um Kopien von Kundendaten in unterschiedliche Ausfallzonen zu replizieren. Wenn Daten in einer Ausfallzone beschädigt wurden oder verloren gegangen sind, kann darauf in einer anderen Ausfallzone zugegriffen werden, ohne dass es zu einer Unterbrechung bei der Verfügbarkeit kommt.
  • Differenzierte Überwachung und automatisierte Wiederherstellung: Unsere Systeme überwachen die Integrität von Kundendaten und stellen beschädigte Daten automatisch wieder her. Exchange Online prüft beispielsweise auf Datenbeschädigungen auf mehreren Ebenen und stellt Datenbanken oder Postfächer, die Beschädigungen aufweisen, automatisch wieder her.
  • Schutz vor versehentlichem Verlust: Datenverlust resultiert großteils aus Kundenaktionen. Microsoft 365 bietet Kunden Tools zum Wiederherstellen versehentlich gelöschter oder geänderter Daten in Exchange Online und SharePoint Online.

Netzwerkresilienz

Microsoft besitzt und betreibt eines der größten Backbone-Netzwerke der Welt und verbindet Hunderte von Rechenzentren in 54 Regionen weltweit. Unser Netzwerk stützt sich auf Hunderttausende Kilometer privater Faser, um nahezu vollkommene Verfügbarkeit, hohe Kapazität und Netzwerkflexibilität auf der ganzen Welt bereitzustellen.

Unser Netzwerk aus Microsoft-Rechenzentren ist auf Nähe zu unseren Kunden ausgelegt und nutzt Hunderte von Edge-Knoten, um die Verfügbarkeit unserer Dienste zu gewährleisten. Die Netzwerkarchitektur umfasst direkte Verbindungen und mehrere Netzwerkpfade. Unsere Dienste nutzen diese Redundanz, um den Datenverkehr bei Fehlern automatisch umzulenken und so die Dienstqualität zu verbessern. Darüber hinaus ermöglicht uns unser Netzwerk eine direkte Kontrolle über die Netzwerkkapazität, und wir verwenden Software Defined Networking, um den Netzwerkdatenverkehr proaktiv nach Bedarf zu verwalten und so die Leistung und die Ausfallsicherheit zu maximieren.

Geteilte Verantwortlichkeiten und Abhängigkeiten

In Cloud-Umgebungen ist Resilienz eine Verantwortlichkeit, die sich Cloud-Anbieter und Kunde teilen. Während Microsoft 365 sich auf die Resilienz seiner Dienste und Netzwerke konzentriert, müssen sich die Kunden der eigenen Verantwortungen und Abhängigkeiten hinsichtlich der Gewährleistung der Verfügbarkeit der Dienste im Klaren sein.

Die Verantwortlichkeiten der Kunden hinsichtlich der Resilienz variieren je nach dem jeweiligen Microsoft 365-Produkt und der jeweiligen Kundenkonfiguration, sie umfassen aber häufig Folgendes:

  • Verwalten von Lizenzen für Microsoft 365-Abonnements
  • Aufrechterhaltung einer ausreichenden Netzwerkkonnektivität von Endgeräten
  • Schulung von Benutzern zum Verständnis von Aufbewahrungs- und Wiederherstellungsrichtlinien sowie zur Verwendung von Aufbewahrungsfeatures.
  • Initiieren der Datenwiederherstellung innerhalb des Dienstaufbewahrungszeitraums im Hinblick auf relevante Dienste
  • Verwalten und Betreuen aller lokalen Verzeichnisse
  • Überprüfen und Beheben von Azure AD Sync-Fehlern
  • Ausarbeiten und Anwenden von Notfallrichtlinien (wie beispielsweise das Einrichten von Notfall-Administratorkonten)
  • Verwalten und Sicherstellen der Konnektivität und Funktionalität von Kunden HSMs

Weitere Informationen