Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Gilt für diese Azure Well-Architected Framework Operational Excellence-Empfehlung:
| OE:08 | Erstellen Sie einen klaren, strukturierten Vorfallverwaltungsprozess mit definierten Rollen, dokumentierten Verfahren und Architekturen, die für schnelle Erkennung, Diagnose und Wiederherstellung entwickelt wurden. |
|---|
Wenn Vorfälle auftreten, sollte das für die Arbeitslast verantwortliche Team mit klaren und strukturierten Verfahren vorbereitet sein.
Es gibt zwei wichtige Aspekte für die Reaktion auf Vorfälle. Die erste ist architektonisch, konzentriert sich auf das Entwerfen von Systemen, die effektive Reaktionsverfahren unterstützen und verhindern, dass Fehler über Komponenten hinweg kaskadieren. Die zweite ist prozedural und umfasst Erkennung, Eindämmung und Triage zur schnellen Bewältigung von Problemen, gefolgt von Ursachenanalyse und Postmortems zur Vorbeugung von Wiederholungen. Regelmäßige Drills helfen dabei, die Bereitschaft aufrechtzuerhalten und sicherzustellen, dass der Plan effektiv ausgeführt werden kann.
In diesem Artikel werden bewährte Strategien für das Entwerfen einer Architektur beschrieben, die als Reaktion hilft, und einen Plan, der das Team ruhig, koordiniert und kontrolliert. Detaillierte Anleitungen zur Implementierung, einschließlich schrittweiser Prozesse und Playbooks, finden Sie im Begleitartikel: Erstellen eines effektiven Vorfallverwaltungsplans zum Verwalten von Unterbrechungen.
Definitionen
| Begriff | Definition |
|---|---|
| Chaostechnik | Absichtliche Injektierung von Fehlern oder nachteiligen Bedingungen in ein System, um seine Resilienz- und Wiederherstellungsverfahren zu testen. |
| Containment | Beschränken der Auswirkungen eines Vorfalls, um zu verhindern, dass er sich auf andere Komponenten oder Systeme auswirkt. |
| Erkennung | Identifizierung, dass ein Vorfall aufgetreten ist oder gerade auftritt. |
| Postmortem | Eine strukturierte, schuldlose Überprüfung eines Vorfalls, der alle relevanten Teams umfasst, erfasst gelernte Erkenntnisse und definiert umsetzbare Verbesserungen an Prozessen, Tools und Systemen. |
| RCA (Ursachenanalyse) | Untersuchung und Identifizierung der zugrunde liegenden Ursache(en) eines Vorfalls, einschließlich Faktoren, um Wiederholungen zu verhindern. |
| RPO (Wiederherstellungspunkt-Ziel) | Die maximale zulässige Menge an Datenverlusten, gemessen in der Zeit. |
| RTO (Wiederherstellungszielzeit - Recovery Time Objective) | Die maximal zulässige Zeitspanne, in der ein System oder Dienst nach einem Vorfall ausfallen kann, bevor dies zu einer unakzeptablen Auswirkung führt. |
| Eingrenzung | Bewerten und Priorisieren von Vorfällen zur Ermittlung der geeigneten Reaktion. |
Dokumentieren des Vorfallreaktionsplans
Ein Vorfall kann sich auf Bereitstellungs-, Sicherheits- oder Leistungsprobleme beziehen. Erstellen Sie unabhängig davon einen zentralen Plan für die Reaktion auf Vorfälle, der den gesamten Prozess abdeckt. Definieren Sie ergänzende Verfahren für jeden Vorfalltyp, die unterschiedliche Erkennungsmethoden, Eindämmungs- und Wiederherstellungsschritte beschreiben, die beteiligten Beteiligten, die für diesen Vorfalltyp spezifisch sind. Ihr Sicherheitsvorfallplan kann z. B. Prozesse im Zusammenhang mit dem Security Operations Center (SOC) aufweisen, die nicht auf einen Bereitstellungsvorfall anwendbar sind.
Ein Plan für die Reaktion auf Vorfälle sollte die wichtigsten Rollen definieren, die bei der Verwaltung eines Vorfalls und der zuständigkeiten der einzelnen Fälle beteiligt sind. Klare Eigentümerschaft reduziert Verwirrung und stellt sicher, dass Aktionen von der Erkennung über die Auflösung koordiniert werden. Identifizieren Sie Rollen wie Vorfallmanager, technische Leiter und Kommunikationsleiter, um Verantwortlichkeit einzurichten und konsistente Entscheidungen zu unterstützen.
Der Plan muss eine Kommunikations- und Eskalationsstruktur enthalten, die angibt, wie Vorfälle gemeldet werden, wer benachrichtigt wird und über welche Kanäle. Dadurch wird sichergestellt, dass Informationen schnell an die richtigen Personen verschoben werden und Lücken oder Duplizierungen während kritischer Momente verhindern.
Der Plan muss auch die Kernverfahren enthalten, die das Team während der Erkennung, Triage, Eindämmung und Wiederherstellung befolgt. Diese Schritte bieten ein vorhersagbares Framework für die Reaktion und tragen dazu bei, die Betriebsstabilität aufrechtzuerhalten. Regelmäßige Überprüfungen dieser Verfahren halten den Plan im Einklang mit Systemänderungen und Lehren aus früheren Vorfällen.
Kompromiss. Eine übermäßig aggressive Reaktionsstrategie kann falsche Alarme oder unnötige Eskalationen auslösen.
Ebenso können automatische Aktionen wie Skalierung oder Selbstheilung, die durch Schwellenwertverletzungen ausgelöst werden, zusätzliche Kosten und betrieblichen Aufwand verursachen. Da die optimalen Schwellenwerte möglicherweise nicht offensichtlich sind, überprüfen Sie sie durch Tests in niedrigeren Umgebungen und überwachte Produktionsversuche, um Aktionen an Ihre tatsächlichen Anforderungen anzupassen.
Zuweisung ausreichender Ressourcen für die Infrastruktur, die Prozesse und das Personal für die Vorfallreaktion.
Planen Sie genügend Ressourcen, um mindestens zwei Workloadkonfigurationen gleichzeitig zu betreiben, wenn Fallback erforderlich ist, um Dienstunterbrechungen zu vermeiden. Workloadteams sollten bereit sein, beide Konfigurationen in der Produktion bei Bedarf zu unterstützen. Dies kann eine Umgestaltung von Workloads umfassen, z. B. das Decoupieren von Komponenten oder das Aktualisieren von Datenmodellen.
Aus menschlicher Sicht muss das Team seine regelmäßigen Verantwortlichkeiten mit der Reaktion auf Vorfälle in Einklang bringen. Es kann erforderlich sein, die Anzahl der Mitarbeiter zu erhöhen oder externe Ressourcen zu nutzen. Dabei kann es sich um Plattformsupport von Azure, Drittanbietern oder zentralen IT-Teams, die sich auf die Vorfallverwaltung spezialisiert haben und aktive Supportverträge eingerichtet haben, sein. Der Plan zur Reaktion auf Vorfälle sollte klar dokumentieren, was jede Partei abdeckt, ausschlüsse, Eskalationsverfahren und erwartete Reaktionszeiten.
Hinweis
Arbeiten Sie mit Ihrer Organisation zusammen, um diese Supportverträge im Voraus vorzubereiten, damit sie während eines Vorfalls sofort verfügbar sind.
Auch bei diesen externen Abhängigkeiten erwarten Sie, dass einige Teammitglieder direkt mit Lieferanten zusammenarbeiten, während andere die interne Triage und Wartung fortsetzen.
Halten Sie Kontaktinformationen für interne und Lieferantenmitarbeiter auf dem neuesten Stand. Richten Sie sichere und einfache Verfahren für die Authentifizierung und Autorisierung des externen oder Gastzugriffs mit entsprechenden Berechtigungen für Protokolle und Produktionsumgebungen ein.
KI-Möglichkeit: Vor der Übergabe des Supports an externe Anbieter kann KI in die Rolle eines Anbieterteams schlüpfen und ausschließlich die Dokumentation, Playbooks, Gesundheitsmodelle und Eskalationspfade verwenden, die der Anbieter bereitgestellt hat. Er testet historische Vorfälle, um Lücken aufzudecken, z. B. fehlende Kenntnisse von Systemen oder falsch konfigurierte Schwellenwerte oder Abhängigkeit von Stammeswissen. Auf diese Weise können Teams Lücken proaktiv beheben und reibungslose Übergaben sicherstellen.
Erstellen von Eindämmung und Isolation in der Architektur
Vorfälle sind unvermeidlich, daher entwerfen Sie Ihre Architektur so, dass Fehler eingeschränkt und deren Strahlradius begrenzt werden. Stellen Sie sicher, dass im Falle eines Ausfalls einer Komponente die Auswirkungen isoliert sind und sich nicht auf andere Teile des Systems ausweiten.
Erreichen Sie dies durch Techniken wie die Aufteilung von Ressourcen, Komponenten mit Microservices entkoppeln und das Anwenden von Entwurfsmustern wie "Bulkheads" oder "Publish/Subscribe" in Ihrem Design. Ziehen Sie ggf. auch die Verwendung externer Ressourcen in Betracht. Verwenden Sie z. B. anstelle von Hartcodierungskonfigurationswerten innerhalb der Anwendung einen externen Konfigurationsspeicher, um Einstellungen außerhalb des Anwendungscodes oder Bereitstellungspakets zu verwalten.
Erstellen von Überwachungsfunktionen für schnelle Erkennung
Ein starker Plan für die Reaktion auf Vorfälle hängt von einem gut gestalteten Überwachungsstapel ab. Funktionen wie strukturierte Protokollierung, gezielte Dashboards und umsetzbare Warnungen helfen Teams, schnell zu reagieren, Rauschen zu minimieren und Warnungsermüdung zu vermeiden.
Risiko: Eine übermäßig aggressive Reaktion oder Automatisierungsstrategie, z. B. Auslösen von Warnungen, Eskalationen oder zu häufiger automatischer Skalierung, kann zu falschen Alarmen, unnötigen Betriebsunterbrechungen, erhöhten Kosten aufgrund schlecht definierter Schwellenwerte führen.
Verringern Sie dieses Risiko, indem Sie gründliche Tests in niedrigeren Umgebungen durchführen und kontrollierte Produktionsszenarien durchführen, um Warnungs- und Skalierungsschwellenwerte zu verfeinern.
Effektive Überwachung hat zwei wichtige Dimensionen. Zunächst sollte der Antwortprozess zeitnah Benachrichtigungen von Azure zu kritischen Indikatoren wie Dienststatus, Abhängigkeitsstatus, Sicherheitsverletzungen und Datenintegrität erhalten. Zweitens muss die Lösung selbst umfangreiche, strukturierte Telemetrie, Protokolle, Metriken und Ablaufverfolgungen ausgeben, die eine umfassende Analyse, Triage und Ursachenidentifikation ermöglichen.
Die wichtigsten Geschäftsworkflows sollten end-to-end nachverfolgbar sein , damit Vorfälle genau rekonstruiert werden können. Beispielsweise sollten Teams in einem Auftragsverarbeitungssystem in der Lage sein, nachzuverfolgen, wann eine Bestellung empfangen wurde, wann die Zahlungsautorisierung versucht wurde und wo der Fehler aufgetreten ist. Entwerfen Sie Komponenten, um das Debuggen mit konfigurierbarer Protokollverwendbarkeit, Speicherabbildern und der sicheren Freigabe von Diagnosedaten in allen Umgebungen zu erleichtern. Diese Funktionen bieten die Sichtbarkeit und den Kontext, die für eine schnelle und effektive Reaktion auf Vorfälle erforderlich sind.
KI-Chance: Es ist üblich, dass Untersuchungen aufgrund der manuellen Datenerfassung einen verzögerten Beginn haben. KI kann die Reaktion auf Vorfälle schneller und einfacher machen, indem sie automatisch Kontext sammeln, Daten korrelieren und die anfängliche Triage durchführen, sobald eine Warnung ausgelöst wird. Anstatt von Grund auf neu zu beginnen, erhalten Ingenieure sofort ein klares Bild, Vorfälle werden an die richtigen Experten weitergeleitet, und sichere, häufige Korrekturen können mit Schutzschienen vorgeschlagen oder automatisiert werden. Berücksichtigen Sie bei ausreichenden Tests die Erstellung einer Lösung, die eine automatisierte anfängliche Antwort mit allen den korrelierten Kontexten bereitstellt.
Unterstützen mit Diagnosedaten und Praktiken
Entwerfen Sie die Lösung, um Probleme schneller und zuverlässiger zu diagnostizieren und zu lösen. Der Ansatz besteht darin, Debugbarkeit und Beobachtbarkeit in das Systemdesign einzubetten.
Dies beginnt mit der richtigen Sammlung aller relevanten Diagnosedaten, z. B. Absturz- und Speicherabbilder. Stellen Sie sicher, dass die erforderlichen Tools vorhanden sind, um diese Daten sicher zu sammeln, zu speichern und freizugeben, um eine effektive Korrelation und Analyse zu ermöglichen. Tools wie Netzwerkablaufverfolgungs- und Symbolserver sollten integriert werden, um tiefere Debugfunktionen zu unterstützen. Stellen Sie schließlich sicher, dass alle Diagnosedaten vor Manipulationen durch sichere Speicherung, eingeschränkten Zugriff und ordnungsgemäße Steuerungen der Datengovernance geschützt sind.
Das System sollte auch integrierte Hooks und Umschaltungen enthalten, die die Vorfallverwaltung unterstützen. Diese Mechanismen sind hilfreich beim Deaktivieren oder Isolieren fehlerhafter Komponenten in Echtzeit, ohne erneute Bereitstellungen. Darüber hinaus sollten fehlgeschlagene Ressourcen in einem isolierten Zustand für die forensische Analyse beibehalten werden, anstatt sofort verworfen zu werden.
Visualisieren von Vorfalldaten in einem einzigen Glasbereich
Erstellen Sie ein zentrales Vorfallverwaltungs-Dashboard oder Portal für Echtzeitstatusaktualisierungen, Sichtbarkeit und Wissensfreigabe. Das Dashboard sollte als gemeinsame Wahrheitsquelle fungieren und alle an Prioritäten, aktuellen Aktionen und Abhängigkeiten ausrichten. Vorfälle sind stressige Situationen für Teams, bei denen es wichtig ist, genügend Informationen zur Verfügung zu haben, um die Konzentration aufrechtzuerhalten und bei der rechtzeitigen Entscheidungsfindung zu helfen. Sie stärkt auch eine Kultur der Rechenschaftspflicht und des kontinuierlichen Lernens.
Wichtige Komponenten sollten Beobachtbarkeitsdaten, Zeitverläufe, Besitzerdetails und Schweregradindikatoren enthalten. Die Sichtbarkeit sollte rollenspezifisch sein, mit geeigneten Sicherheitskontrollen wie RBAC, um sicherzustellen, dass Benutzer auf die benötigten Informationen zugreifen können, ohne vertrauliche oder Kundendaten verfügbar zu machen. Fügen Sie Links zu relevanten Ressourcen und klare Anweisungen ein, um Die Benutzer bei den nächsten Schritten und ihren Verantwortlichkeiten zu unterstützen. Optional können Sie On-Demand-Abonnements oder Warnungen unterstützen, um Die Beteiligten zu benachrichtigen, wenn sich der Vorfallstatus ändert.
Erfassen und Speichern von Prüfpfaden
Entwerfen Sie Ihre Lösung mit Überwachung als kernanforderung zur Unterstützung der Reaktion auf Vorfälle. Während Überwachungspfade häufig als Sicherheitsmaßnahme angesehen werden, sind sie für die betriebstechnische Analyse gleichermaßen wichtig. Das System sollte detaillierte Aufzeichnungen von Konfigurationsänderungen, administrativen Aktionen und betrieblichen Verfahren wie Bereitstellungen, Sicherungen und Optimierungsaktivitäten erfassen.
Testen des Plans
Testen Sie regelmäßig Ihre Vorfallreaktionsprozesse mithilfe von Trockenläufen oder Chaostechnikübungen. Simulieren Sie realistische Vorfälle, um die Wiederherstellbarkeit zu überprüfen, RTO- und RPO-Ziele zu überprüfen und sicherzustellen, dass Kommunikations- und Eskalationspläne unter Druck funktionieren.
Ohne diese Tests können kleine Fehler schnell zu längeren Ausfällen oder großem Datenverlust führen, wodurch Teams in Bedrängnis geraten und Geschäftsabläufe gefährdet sind. Tests bieten Ihnen die Möglichkeit, Lücken zu erkennen, bevor ein echter Vorfall auftritt, um die Koordination zu verbessern.
Umwandeln von RCA-Ergebnissen in Systemverbesserungen
Führen Sie nach jedem Vorfall eine gründliche Ursachenanalyse durch, um zugrunde liegende Ursachen und beitragende Faktoren zu identifizieren. Führen Sie dies mit einem „blameless Postmortem“ durch, das von einem unparteiischen Vermittler geleitet wird, bei dem jedes Team Beobachtungen, Erfolge und Verbesserungsmöglichkeiten teilt.
Die kontinuierliche Zufuhr von Lektionen in das System reduziert die Wahrscheinlichkeit von Wiederholungsvorfällen. Stellen Sie sicher, dass Sie Aktionen erfordernde Elemente in drei Bereichen erfassen und klassifizieren: Verfeinerung des Plans zur Reaktion auf Vorfälle, Verbesserung der Beobachtbarkeit, um ähnliche Probleme früher zu erkennen und die Arbeitsauslastungsgestaltung zu verbessern.
KI-Möglichkeiten: Es ist nicht ungewöhnlich, dass Incident Manager Protokolle, Tickets und Diskussionen manuell überprüfen, um Ausfälle zu verstehen, die Ursachen zu identifizieren und retrospektive Fragen zu entwerfen. Diese sich wiederholende Arbeit kann zeitaufwändig sein und den Fokus von den Wiederherstellungsbemühungen wegnehmen.
KI kann die Effizienz verbessern, indem Analysefragen automatisch generiert, Vorfallkontext zusammengefasst und Muster in datenquellenübergreifend aufgedeckt werden. Sie kann auch retrospektive Notizen und frühere Vorfalldaten analysieren, um priorisierte Backlog-Elemente vorzuschlagen, wodurch der manuelle Aufwand reduziert wird. Die Implementierung dieser Funktion erfordert die Integration von KI in ICM- und SDLC-Tools. Bewerten Sie Tools wie PowerAutomate und LogicApps, um die Workflows zu verwalten.
Bringen Sie Flexibilität und Konsistenz durch Automatisierung
Integrieren Sie die Automatisierung im gesamten Workflow zur Reaktion auf Vorfälle, um den manuellen Aufwand zu reduzieren und die Reaktion zu beschleunigen. Verwenden Sie Tools wie Azure Batch, Runbooks, Funktionen und Logik-Apps, um die Erkennung, Eindämmung, Warnung und Kommunikation so weit wie praktisch zu automatisieren. Verwalten Sie eine Bibliothek von Skripts und Infrastruktur-as-Code-Vorlagen (IaC) für die Wiederherstellung, Validierung, Problembehandlung und Ursachenanalyse. Stellen Sie sicher, dass diese Automatisierungen dokumentiert und zugänglich sind, damit Teams sie während Vorfällen zuverlässig ausführen können. Je mehr Sie automatisieren, desto konsistenter wird Ihre Antwort sein.
Azure-Unterstützung
Azure Monitor ist eine umfassende Lösung zum Sammeln, Analysieren und Reagieren auf Überwachungsdaten aus Cloud- und lokalen Umgebungen. Es enthält eine robuste Warnplattform, die Sie für automatische Benachrichtigungen und andere Aktionen konfigurieren können, z. B. automatische Skalierung und andere Selbstheilungsmechanismen.
Verwenden Sie Monitor, um maschinelles Lernen zu integrieren. Automatisierung und Optimierung der Vorfallbearbeitung und proaktiver Maßnahmen. Weitere Informationen finden Sie unter AIOps und maschinelles Lernen in Monitor.
Log Analytics ist ein robustes Analysetool, das in Monitor integriert ist. Sie können Log Analytics verwenden, um Abfragen für aggregierte Protokolle auszuführen und Einblicke zu Ihrer Workload zu erhalten.
Microsoft bietet Azure-bezogene Schulungen zur Vorfallbereitschaft. Weitere Informationen finden Sie in der Einführung in die Azure-Vorfallbereitschaft und die Vorfallbereitschaft.
Verwenden Sie den Verbindungsmonitor in Azure Network Watcher, um die Netzwerkkonnektivität und Leistung über Azure-Ressourcen hinweg kontinuierlich nachzuverfolgen. Bei Notfallvorfällen bieten benutzerdefinierte Arbeitsmappen im Verbindungsmonitor Echtzeit-Einblicke in die Konnektivitätsintegrität, Latenztrends und Warnungsstatus. Um eine effektive RCA zu erreichen und eine schnellere Auflösung zu erzielen, verwenden Sie Verbindungsproblembehandlung in der Network Watcher-Suite von Diagnosetools.
Verwenden Sie Datenverkehrsanalysen , um Protokolle für virtuelle Netzwerkabläufe zu analysieren und Einblicke wie blockierter Datenverkehr, böswillige Flüsse und offengelegte Ports zu analysieren. Durch das Erstellen von Arbeitsmappen in der Datenverkehrsanalyse können Teams das Verhalten des Livedatenverkehrs überwachen, Warnungen empfangen und Zeitachsen- und Topologieansichten verwenden, um betroffene Netzwerksegmente schnell zu identifizieren und effektiv zu reagieren.
Mithilfe der KI- und DevOps-Tools von Microsoft können Teams automatisch retrospektive Einblicke in umsetzbare Backlog-Elemente umwandeln. Betrachten Sie Azure AI Foundry für KI-Modellvorgänge, Azure DevOps für die Backlog-Verwaltung, Power Automate oder Logic Apps für die Automatisierung.
Verwandte Links
- Empfehlungen für das Entwerfen und Erstellen eines Observability-Frameworks
- Empfehlungen für das Entwerfen einer zuverlässigen Überwachungs- und Warnstrategie
- Empfehlungen für Selbstheilung und Selbsterhaltung
Checkliste für betriebliche Exzellenz
Lesen Sie die vollständigen Empfehlungen.