Die Bedeutung der Incident Response

Abgeschlossen

Aufbauend auf den Prinzipien und Verfahren bei der Überwachung, die in einem anderen Modul dieses Lernpfads besprochen wurden, werden Sie nun erfahren, was zu tun ist, sobald bei Ihrer Überwachung ein Problem festgestellt wird. Wenn Sie eine handlungsrelevante Warnung darüber erhalten, dass Ihre Systeme nicht wie erwartet funktionieren, ist dies der Auslöser zum Einleiten einer Response, um das Problem zu lösen.

Was ist ein Incident?

Bei der Reaktion auf Vorfälle handelt es sich um die Aktionen, die Sie ergreifen, wenn ein Vorfall auftritt, aber was ist genau ein Vorfall? Die Antwort kann subjektiv sein. Nicht einmal die Fachleute sind sich einig, was einen Incident ausmacht. Wenn Sie diese Frage in verschiedenen Branchen und Organisationen stellen, erhalten Sie viele verschiedene Antworten.

Einige bezeichnen alle Unterbrechungen als Incidents – ob Kunden betroffen sind oder nicht. Im Kontext dieses Moduls definieren wir einen Incident als Dienstunterbrechung – also als einen Vorfälle oder Bedingungen die Benutzer davon abhalten, ihre benötigten Dienste ordnungsgemäß zu nutzen. Beispiele hierfür sind Systeme, die ausgefallen oder fehlerhaft sind und dadurch die Kunden beeinträchtigen.

Was ist Incident Response?

Das Verhindern aller Probleme ist ein lobenswertes, aber unmögliches Ziel. Es wird zu Fehlern kommen, also benötigen wir einen Plan, um die Auswirkungen auf Endbenutzer einzuschränken und den Normalbetrieb so schnell wie möglich wiederherzustellen.

Der Schlüssel liegt in einer Response nach Dringlichkeit, anstatt in einer Reaktion. Eine Reaktion ist tendenziell impulsiv, basiert auf dem Moment und berücksichtigt langfristige Auswirkungen nicht. Eine Response ist wohlüberlegt, organisiert und basiert auf Informationen.

Ihr Incident-Response-Ansatz bestimmt Ihre Effektivität bei folgenden Punkten:

  • Dem Nachvollziehen (Diagnostizieren) des Problems.
  • Dem Selektieren (Ermitteln der Dringlichkeit) und Priorisieren des Problems.
  • Dem Einsatz der richtigen Mittel zur Behebung des Problems.
  • Der Kommunikation mit Projektbeteiligten in Bezug auf das Problem.

Nachdem Sie das Problem behoben haben, können Sie sich über einen Prozess nach der Überprüfung nach dem Vorfall aus dem Vorfall informieren. Das ist ein wichtiges Thema, mit dem ein ganzes Modul gefüllt werden könnte.

Messen der Incident-Response-Leistung

Möglicherweise sind Sie mit den Begriffen TTR und „Behebungszeit“ vertraut. Diese haben die gleiche Bedeutung: die Zeit, die insgesamt benötigt wird, um die Dienste wieder an einen Punkt zu bringen, an dem sie die Kundenerwartungen erfüllen.

Diese Metrik ist eine Möglichkeit, um zu messen, wie gut Ihre Teams sich bei der Incident Response schlagen. Je schneller Sie den Dienst wiederherstellen bzw. den Incident beheben, desto weniger Auswirkungen haben Ausfälle oder Leistungsbeeinträchtigungen des Diensts.

Sie müssen wissen, wie gut Ihre Organisation in der Incident Response ist. Jedes Jahr veröffentlicht die Organisation DevOps Research and Assessment (DORA) einen State of DevOps-Bericht. Einige der wichtigsten Erkenntnisse im Bericht für das Jahr 2019 bezogen sich auf die Leistung bei der Incident Response.

  • Der Bericht klassifiziert Engineeringteams, die Dienstunterbrechungen in weniger als einer Stunde erkennen, eine Response einleiten und die Unterbrechung beheben können, als „Elite/High Performers.“
  • Teams, die Incidents in unter 24 Stunden beheben konnten, wurden als „Medium Performers“ klassifiziert.
  • Als „Low Performers“ werden die Teams klassifiziert, die eine Woche bis einen Monat benötigen, um Dienstunterbrechungen zu beheben.

Der Unterschied zwischen diesen Stufen ist erheblich. Aus der Studie geht hervor, dass Elite/High-Performer-Teams einen Incident 2604-mal schneller beheben als ihre Low-Performer-Kollegen. Elite/High Performers führen außerdem 208-mal mehr Bereitstellungen in der Produktion durch.

Wie und warum sind Elite Performers so viel schneller in der Incident Response und in der Behebung als andere? Das liegt zumindest teilweise daran, dass sie wissen, wie wichtig es ist, bereits vor dem Problem einen guten, grundlegenden Incident-Response-Plan ausgearbeitet zu haben.

Im Verlauf dieses Moduls lernen Sie die Merkmale und den Lebenszyklus eines Incidents kennen. Zudem lernen Sie, wie Sie dieses Wissen einsetzen können, um Ihren eigenen grundlegenden Plan auszuarbeiten.

Überprüfen Sie Ihr Wissen

1.

Welche der folgenden Antworten beschreibt ein Ziel für eine effektive Incident Response?

2.

Wie schnell können Engineeringteams, die als „Elite“ oder „High Performers“ eingestuft werden, im Allgemeinen Dienstunterbrechungen erkennen, eine Response einleiten und Probleme beheben?