Verfügbarkeitsüberwachung und Kapazitätsplanung verstehen

Abgeschlossen

Sogar die widerstandsfähigsten Onlinedienste benötigen ausreichende Ressourcen, um effektiv ausgeführt zu werden. Dies gilt insbesondere in Notfallsituationen, wenn unerwartet hohe Nachfrage die Verfügbarkeit von Microsoft Online Services beeinträchtigen kann. Microsoft nutzt eine umfassende Verfügbarkeitsüberwachung und eine häufige Kapazitätsplanung, um sicherzustellen, dass unsere Dienste auch in Notfallsituationen für unsere Kunden verfügbar bleiben.

Verfügbarkeitsüberwachung

Microsoft implementiert eine umfassende Verfügbarkeitsüberwachung, um sicherzustellen, dass alle unsere Onlinedienste über die erforderlichen Ressourcen verfügen, um optimal ausgeführt zu werden. Serviceteams verwenden automatisierte Protokoll- und Telemetrieanalysen, um Bereitschaftstechniker über Verfügbarkeitsprobleme zu benachrichtigen. Beispielsweise überwachen Serviceteams die Prozessor- und Arbeitsspeichernutzung auf Spitzen, die die Integrität des Diensts gefährden könnten. Zusätzlich zur überwachung der allgemeinen Verfügbarkeit wählen Serviceteams auch geeignete Verfügbarkeitsmetriken basierend auf der Art ihres Diensts aus. Beispielsweise überwacht SharePoint Online (SPO) die Kundenkernfunktionen wie Homepage-Verfügbarkeit und die Möglichkeit zum Hoch- und Herunterladen von Dokumenten.

In vielen Fällen reagieren unsere Dienste automatisch auf Probleme, welche die Verfügbarkeit bedrohen, indem weitere Ressourcen bereitgestellt werden oder Datenverkehr an nicht betroffene Dienstkomponenten umgeleitet wird. Serviceteamtechniker reagieren auf Benachrichtigungen, indem Sie alle zugrunde liegenden Probleme untersuchen und beheben. Verfügbarkeitsprobleme, die darauf hindeuten, dass ein potenzieller Sicherheitsvorfall an das workloadspezifische Sicherheitsreaktionsteam eskaliert wird, um die Lösung mithilfe des Prozesses zur Reaktion auf Sicherheitsvorfälle zu beheben.

Kapazitätsplanung

Die Kapazitätsplanung hilft Serviceteams dabei, die ressourcen zuzuweisen, die zur Unterstützung der Verfügbarkeit von Microsoft Online Services erforderlich sind. Eine regelmäßige Kapazitätsplanung ist im Rahmen des ERCM-Programms von Microsoft erforderlich, das eine konsistente Kapazität für Failover sicherstellt. Serviceteams überprüfen die Kapazitätsdaten während der vierteljährlichen Überprüfungen und in Notsituationen, die eine zusätzliche Kapazitätsüberprüfung rechtfertigen.

Die Rohdaten für die Kapazitätsplanung werden von jedem Serviceteam verwaltet und umfassen Metriken wie Systemverarbeitung, Arbeitsspeicher und Hardwarekapazität. Geplante Überprüfungen verwenden ein Modell der aktuellen Kapazität des Systems und testen es gegen den prognostizierten Bedarf in Notfallsituationen. Wenn das Modell Kapazitätsengpässe anzeigt, werden der Leitung des Serviceteams Änderungsvorschläge zur Prüfung unterbreitet. Genehmigte Änderungen werden in ein neues Modell integriert, bevor es von Serviceteamtechnikern implementiert wird.

Im Rahmen der Kapazitätsplanung bestimmt jedes Serviceteam einen Kapazitätsprojektmanager (Capacity Project Manager, PM), der für das Sammeln von Leistungsdaten und die Pflege genauer Modelle der Systemkapazität verantwortlich ist. Zusätzlich zur Koordinierung der vierteljährlichen Kapazitätsüberprüfungen fungiert der Kapazitäts-PM als primäre Anlaufstelle für automatisierte Benachrichtigungen der Verfügbarkeitsüberwachung. Die Kapazitäts-PM stellt sicher, dass die entsprechenden Mitarbeiter des Serviceteams benachrichtigt werden, damit sie sofort auf die Verfügbarkeitsprobleme reagieren können.

Weitere Informationen