Share via


Datenüberwachung und Selbstheilung in Microsoft 365

Angesichts des Umfangs von Microsoft 365 wäre es unmöglich, Kundendaten stabil und sicher vor Schadsoftware zu halten, ohne eine integrierte Überwachung, die umfassend ist, intelligente Warnungen und eine schnelle und zuverlässige Selbstheilung bietet. Die Überwachung einer Reihe von Diensten im Umfang von Microsoft 365 ist sehr schwierig. Es mussten neue Denkweisen und Methoden eingeführt werden, und es mussten ganz neue Technologiegruppen geschaffen werden, um den Dienst in einer verbundenen globalen Umgebung zu betreiben und zu verwalten. Wir haben uns vom herkömmlichen Überwachungsansatz der Datensammlung und -filterung entfernt, um Warnungen zu einem Ansatz zu erstellen, der auf Datenanalyse basiert; Signale nehmen und Vertrauen in diese Daten aufbauen und dann Automatisierung verwenden, um das Problem wiederherzustellen oder zu beheben. Dieser Ansatz trägt dazu bei, den Menschen aus der Wiederherstellungsgleichung herauszunehmen, was wiederum Vorgänge kostengünstiger, schneller und weniger fehleranfällig macht.

Grundlegend für die Microsoft 365-Überwachung ist eine Sammlung von Technologien, die unser Data Insights-Modul umfassen, das auf Azure, SQL Azure und Open-Source-Streaming-Datenbanktechnologie basiert. Es ist darauf ausgelegt, Daten zu sammeln und zu aggregieren und Schlussfolgerungen zu ziehen. Derzeit verarbeitet es mehr als 500 Millionen Ereignisse pro Stunde von mehr als 100.000 Servern (ca. 15 TB pro Tag), die über Dutzende von Rechenzentren in vielen Regionen verteilt sind, und diese Zahlen wachsen.

Microsoft 365 verwendet die Externe Überwachung, bei der synthetische Transaktionen erstellt werden, um alles Wichtige zu testen. Beispielsweise testet jedes Szenario in Exchange Online jede Datenbank weltweit alle fünf Minuten auf verstreute Weise, wodurch nahezu kontinuierlich alles abgedeckt wird, was im System lebt. An mehreren Standorten werden 250 Millionen Testtransaktionen pro Tag ausgeführt, um einen robusten Basisplan oder Takt für den Dienst zu erstellen.

Microsoft 365 verwendet auch das Konzept der roten Warnung, das alle Überwachungssignale von allen Computern in unseren Rechenzentren auf etwas reduziert, das von einem Menschen verwaltet werden kann. Das Konzept ist ganz einfach: Wenn etwas über mehrere Signale hinweg geschieht, muss etwas los sein. Es geht nicht darum, das Vertrauen in ein Signal zu stärken, es geht darum, für jedes Signal eine angemessene Genauigkeit zu haben, damit Sie eine höhere Genauigkeit erhalten. Dieses Überwachungssystem ist so leistungsfähig, dass wir nicht über 24x7 Mitarbeiter verfügen, die unsere Monitore beobachten. Wir verfügen lediglich über die Maschinerie, die aufwacht, wenn sie ein Problem erkennt, in diesem Fall über das entsprechende Bereitschaftspersonal oder häufiger, wie es der Fall ist, einfach weitergeht und das Problem löst. Sobald wir damit beginnen, Signale zu sammeln und rote Warnungen zu erstellen, können wir mit der Triangulierung über alle unsere Dienstpartitionen beginnen.

Basierend auf der Kombination der Fehlerwarnung und der roten Warnungen gibt diese Warnung genau an, welche Komponenten ein Problem haben könnten und dass das System versucht, das Problem selbst zu beheben, indem ein Postfachserver neu gestartet wird.

Zusätzlich zu den Selbstheilungsfunktionen wie der Wiederherstellung einzelner Seiten enthält Exchange Online mehrere Features, die einen Ansatz für die Überwachung und Selbstheilung verfolgen, der sich auf die Erhaltung der Endbenutzererfahrung konzentriert. Zu diesen Features gehören verwaltete Verfügbarkeit, die integrierte Überwachungs- und Wiederherstellungsaktionen bereitstellt, und AutoReseed, das datenbankredundanz nach einem Datenträgerfehler automatisch wiederherstellt.

Verwaltete Verfügbarkeit

Die verwaltete Verfügbarkeit bietet eine systemeigene Lösung zur Integritätsprüfung und Wiederherstellung, die die Benutzererfahrung durch wiederherstellungsorientierte Aktionen überwacht und schützt. Verwaltete Verfügbarkeit ist die Integration integrierter Überwachungs- und Wiederherstellungsaktionen mit der Exchange-Plattform für hohe Verfügbarkeit. Sie ist dafür vorgesehen, vom System erkannte Probleme sofort zu ermitteln und zu beheben. Im Gegensatz zu früheren externen Überwachungslösungen und -techniken für Exchange versucht die verwaltete Verfügbarkeit nicht, die eigentliche Ursache eines Problems zu ermitteln oder zu kommunizieren. Stattdessen konzentriert sie sich auf Wiederherstellungsaspekte, die drei Hauptbereiche der Endbenutzererfahrung behandeln:

  • Verfügbarkeit – Können Benutzer auf den Dienst zugreifen?
  • Latenz – Wie ist die Benutzererfahrung?
  • Fehler – Sind Benutzer in der Lage, das zu erreichen, was sie möchten?

Verwaltete Verfügbarkeit ist ein internes Feature, das auf jedem Microsoft 365-Server ausgeführt wird, auf dem Exchange Online ausgeführt wird. Dabei werden in jeder Sekunde Hunderte von Integritätsmetriken abgerufen. Wenn festgestellt wird, dass etwas falsch ist, wird es meistens automatisch behoben. Es wird jedoch immer Probleme geben, die durch die verwaltete Verfügbarkeit nicht allein behoben werden können. In diesen Fällen eskaliert die verwaltete Verfügbarkeit das Problem mithilfe der Ereignisprotokollierung an ein Microsoft 365-Supportteam.

AutoReseed

Exchange Online Server werden in einer Konfiguration bereitgestellt, die mehrere Datenbanken und deren Protokolldatenströme auf demselben Nicht-RAID-Datenträger speichert. Diese Konfiguration wird häufig nur als eine Reihe von Datenträgern (JBOD) bezeichnet, da keine Speicherredundanzmechanismen wie RAID verwendet werden, um die Daten auf dem Datenträger zu duplizieren. Wenn ein Datenträger in einer JBOD-Umgebung fehlschlägt, gehen die Daten auf diesem Datenträger verloren.

Angesichts der Größe der Exchange Online und der Tatsache, dass es sich bei der Bereitstellung darin um Millionen von Datenträgerlaufwerken handelt, treten In Exchange Online regelmäßig Datenträgerlaufwerkfehler auf. Tatsächlich schlagen täglich mehr als 100 fehl. Wenn ein Datenträger in einer lokalen Unternehmensbereitstellung fehlschlägt, muss ein Administrator den fehlerhaften Datenträger manuell ersetzen und die betroffenen Daten wiederherstellen. In einer Cloudbereitstellung in der Größe von Microsoft 365 ist es weder praktikabel noch wirtschaftlich machbar, dass Betreiber (Cloudadministratoren) Datenträger manuell ersetzen.

"Automatisches erneutes Senden" oder "AutoReseed" ist ein Feature, das die normalerweise vom Operator gesteuerte Aktion als Reaktion auf einen Datenträgerfehler, ein Datenbankbeschädigungsereignis oder ein anderes Problem ersetzt, das das erneute Senden einer Datenbankkopie erfordert. AutoReseed wurde entwickelt, um Datenbankredundanz nach einem Datenträgerfehler automatisch wiederherzustellen, indem Ersatzdatenträger verwendet werden, die auf dem System bereitgestellt wurden. Wenn ein Datenträger fehlschlägt, werden die auf diesem Datenträger gespeicherten Datenbankkopien automatisch auf einen vorkonfigurierten Ersatzdatenträger auf dem Server erneut gesendet, wodurch Redundanz wiederhergestellt wird.