Merkmale und Lebenszyklus von Incidents

Abgeschlossen

Wie Sie in der letzten Lektion erfahren haben, ist ein Vorfall eine Dienstunterbrechung, die sich auf Ihre Kunden und Endbenutzer auswirkt. Vorfälle gibt es in vielen Formen, von Leistungseinbußen, welche die Benutzer frustrieren („langsam ist das neue down“), bis hin zu Systemabstürzen, die den Dienst oder die Website für eine gewisse Zeit komplett unzugänglich machen.

Merkmale von Incidents

Vorfälle treten in der Regel unerwartet und zum anscheinend schlechtesten Zeitpunkt auf, z. B. um 02:00 Uhr morgens oder wenn Sie gerade mitten in einem wichtigen Projekt stecken. Aus diesem Grund werden Vorfälle nicht gern gesehen und vermieden, unter Umständen sogar in ihrer Bedeutung herabgespielt. Der interne Druck in einer Organisation kann so groß sein, dass Mitarbeiter eine Unterbrechung aus Angst vor Kritik falsch oder überhaupt nicht melden.

Zumindest verursachen Vorfälle ungeplante Arbeit, und da Sie die meiste Zeit mit geplanter Arbeit verbringen und genau wissen, was Sie tun sollen, halten Sie Vorfälle wahrscheinlich für etwas Schlechtes. Es gibt jedoch noch eine weitere Perspektive: Vorfälle sind tatsächlich „Investitionen“ in das Produkt, das Sie Endbenutzern bieten möchten. Unabhängig von der Ursache des Incidents oder dem Ausmaß der Auswirkung haben alle Incidents eines gemeinsam: Sie können wertvolle Lektionen daraus ziehen.

Sie sollten Vorfälle als Impuls Ihrer Systeme betrachten. Sie bieten Ihnen einen besseren Einblick in das System, und Wissen ist etwas Gutes. Wenn Sie eine solide Grundlage für die Überwachung haben und mehr darüber wissen, was in Ihrem System vor sich geht, wird dies unweigerlich zu mehr Warnungen und Vorfällen führen und Ihnen die Möglichkeit geben, zu reagieren. Zumindest erfahren Sie durch Vorfälle, was vor sich geht, und erhöhen so Ihr operatives Bewusstsein. In einem vorherigen Modul wurde bereits angedeutet, dass dies eine wichtige Vorbereitung für Maßnahmen zur Steigerung der Zuverlässigkeit ist.

Lebenszyklus eines Incidents

Wenn Sie den Status Ihres Incident-Response-Teams auf „Elite/High Performer“ heraufstufen möchten, müssen Sie sich von der Vorstellung einer Dienstunterbrechung oder eines Incidents als einfachen linearen Vorfall lösen und eine zyklische Perspektive einnehmen.

Sie können den Lebenszyklus eines Vorfalls in verschiedene Phasen unterteilen, die logischerweise in einem Zyklus aufeinander folgen, der zum Anfang zurückkehrt. Jedes Mal, wenn Sie diesen Zyklus durchlaufen (und das werden Sie viele Male tun), können Sie, wenn Sie richtig damit umgehen, mit einem besseren Einblick in Ihre Systeme zum Anfang zurückkehren. Mit einigen Maßnahmen können Sie sich auch besser darauf vorbereiten, schnelle und effektive Responses einzuleiten, wenn der nächste Incident auftritt.

Phasen eines Incidents

Die einzelnen Phasen des Incident-Response-Workflows unterscheiden sich je nach verwendetem Modell. Im Rahmen dieses Moduls gibt es fünf Phasen bei einer Incident Response:

  • Erkennung: In dieser Phase werden die bei der Überwachung gewonnenen Erkenntnisse aus dem vorherigen Modul in diesem Lernpfad angewendet. Ihre Überwachungstools erfassen die Informationen aus Protokollen, analysieren sie gemäß der kundenspezifischen Ziele, die Sie festgelegt haben, und senden Ihnen handlungsrelevante Warnungen, um Sie zu benachrichtigen, dass menschliches Eingreifen erforderlich ist.
  • Antwort: Diese Phase tritt ein, nachdem Sie und Ihr Team diese Benachrichtigung erhalten. Wir werden uns in diesem Modul ausführlich mit dieser Phase befassen, sodass es gleich noch mehr zu dieser Idee zu sagen gibt.
  • Behebung: In dieser Phase stellen Sie die normale Funktionalität der Systeme wieder her. Wie Sie dabei vorgehen, hängt von der Ursache der Dienstunterbrechung ab. Die Funktion und Verfügbarkeit des Diensts für Ihre Kunden wiederherzustellen, ist die oberste Priorität. Ihre Arbeit ist damit jedoch noch nicht getan.
  • Analyse: Incidents bieten einen Mehrwert, wenn Sie entsprechende Kenntnisse daraus ziehen. In dieser Phase geht es darum, Informationen darüber zu sammeln, was wann während des Vorfalls passiert ist, und zu sehen, was Sie daraus lernen können, indem Sie die richtigen Fragen stellen. Es gibt ein ganzes Modul zum Thema Lernen aus Misserfolgen, das sich mit dieser Phase befasst.
  • Vorbereitung: Sie sollten die in der Analysephase gewonnenen Erkenntnisse in Ihre operative Praxis einfließen lassen. Wenn Aktionselemente vorhanden sind, die einen ähnlichen Ausfall in Zukunft vermeiden würden, sind diese auch Teil dieser Phase.

Cycle diagram of circles labeled with phases from above. Circles are connected to next circle with arrows from phase to phase.

Bevor Sie einen Incident-Response-Plan ausarbeiten, müssen Sie die Merkmale und den Nutzen von Incidents verstehen und mit den Phasen des Incidentlebenszyklus vertraut sein. Im nächsten Schritt soll sichergestellt werden, dass Ihre Responsestrategie auf einer soliden Grundlage basiert.

Überprüfen Sie Ihr Wissen

1.

Welche der folgenden Optionen können als „Puls“ Ihres Systems angesehen werden?

2.

Welche der folgenden Optionen ist keine Phase eines Incidents?