Warum aus Vorfällen lernen?
- 5 Minuten
Wenn ein Vorfall auftritt, ist Ihre erste Reaktion wahrscheinlich nicht, "Hurray, eine Lernmöglichkeit!" Ihre unmittelbare Priorität besteht darin, herauszufinden, was schief gelaufen ist, und es so schnell wie möglich zu beheben, um die Auswirkungen auf Ihre Kunden und Endbenutzer zu verringern, wie es sein sollte. Dies ist der Vorfallreaktionsprozess, den wir in einem anderen Modul in diesem Lernpfad diskutiert haben.
Sobald der Vorfall jedoch gelöst wurde, ist es wichtig, die Erfahrung zu verfolgen und zu profitieren. Wenn wir nicht die Zeit nehmen, aus dem Vorfall zu lernen, bleibt es nur ein Verlust von Zeit, Geld, Reputation usw. aber wenn dieser Vorfall eine Quelle von Informationen sein kann (in der Weise, wie keine andere Quelle kann), können wir tatsächlich einige Vorteile daraus ableiten.
Die Überprüfung nach dem Vorfall ist Teil der Analysephase des Lebenszyklus der Reaktion auf Vorfälle. Nicht alle Überprüfungen nach Vorfällen sind gleich gestaltet. Es gibt verschiedene Möglichkeiten, sich dem Prozess zu nähern, und zu viel Fokus auf bestimmte Aspekte des Problems oder die Umrahmung von Fragen auf die falsche Art und Weise kann den Wert der Überprüfung reduzieren.
In dieser Lektion beginnen Sie nicht nur darüber nachzudenken, warum, sondern auch, wie Sie am besten aus Vorfällen lernen können. Wir werden den "Wie" in nachfolgenden Einheiten eingehender erläutern.
Komplexe Systeme schlagen fehl
Sie müssen "lernen, aus Fehlern zu lernen" nicht, wenn Ihre Systeme fehlschlagen, sondern weil es eine Sicherheit ist, dass Ihre Systeme fehlschlagen.
In der modernen Welt sind die meisten Systeme, mit denen wir heute arbeiten – insbesondere in einer Cloudumgebung – komplex. Sie bestehen aus vielen verbindungsübergreifenden Teilen, die zusammenarbeiten müssen, und das Gesamtsystemverhalten kommt von der Interaktion dieser Teile so weit wie von den einzelnen Teilen selbst.
Zuverlässigkeit ist der Faden, der sich durch diesen Lernpfad zieht, aber komplexe Systeme sind nie hundert Prozent zuverlässig. Solche Systeme verhalten sich auf interessante und kontraintuitive Weise. Sie bestehen aus vielen Teilen, und häufig kommt das Verhalten des Systems von den Interaktionen zwischen diesen Teilen genauso wie von den Teilen selbst.
Für eine ausführlichere Erläuterung dieses Themas ist eine gute Ressource das Papier mit dem Titel How Complex Systems Fail von Dr. Richard I. Cook. Er ist anästhesiologe und Forscher, der jahrzehntelang an der Sicherheit in komplexen Systemen gearbeitet hat, insbesondere patientensicherheit im Gesundheitswesen. In diesem Dokument erläutert er, was für komplexe Systeme in allen Bereichen von der Gesundheitsversorgung bis hin zu Softwarevorgängen üblich ist.
Einige seiner wichtigsten Punkte sind besonders für die Vorfallanalyse und die Überprüfung nach dem Vorfall relevant:
- Komplexe Systeme enthalten sich wandelnde Mischungen von Fehlschlägen, die darin latent sind. Es ist unmöglich, dass Ihre Systeme ausgeführt werden können, ohne dass mehrere Fehler vorhanden sind. Die Misserfolge ändern sich ständig aufgrund der sich ändernden Technologie, der Arbeitsorganisation und der Bemühungen, Fehler zu beseitigen. Ihr System funktioniert nie perfekt.
- Komplexe Systeme werden im herabgestuften Modus ausgeführt. Komplexe Systeme werden immer als "defekte" Systeme ausgeführt. Sie funktionieren in diesem Status weiter, da sie viele Redundanzen beinhalten, und Benutzer können sie trotz des Vorliegens multipler Mängel weiterhin am Laufen halten. Systemvorgänge sind dynamisch, wobei Komponenten kontinuierlich fehlschlagen und ersetzt werden.
- Katastrophe ist immer direkt um die Ecke. Die Komplexität dieser Systeme bedeutet, dass große Systemausfälle langfristig unvermeidbar sind. Komplexe Systeme verfügen immer über das Potenzial eines katastrophalen Ausfalls, und es kann jederzeit geschehen. Es ist unmöglich, dieses Potenzial zu beseitigen, da es Teil der inhärenten Natur des Systems ist.
Prävention und Reaktion
In Ihren Bemühungen, Ihr gewünschtes Maß an Zuverlässigkeit für Ihre Systeme und Dienste zu erreichen, tun Sie alles, was möglich ist, um Vorfälle zu verhindern. Aufgrund der Komplexität dieser Systeme, wie bereits erläutert, ist die Prävention jedoch nicht immer möglich.
Aufgrund dieser Erkenntnis müssen wir einen zweiteiligen Ansatz für Misserfolge ergreifen: Prävention, und wenn das nicht möglich ist, vorbereitungen, schnell und effektiv zu reagieren.
Prävention und Reaktion sind miteinander verknüpft. Möglicherweise haben Sie dies erfahren, wenn Ihre Organisation ein komplexes Automatisierungsstück bereitgestellt hat, das die meiste Zeit funktioniert hat. Es war großartig, dass es die meiste Zeit funktionierte, aber wenn es fehlgeschlagen ist, scheiterte es wahrscheinlich spektakulär und machte es den Betreibern schwieriger zu verstehen, was schief gegangen war.
Die Systeme, an denen Sie arbeiten, bestehen aus mehr als der Technologie. Tatsächlich arbeiten Sie nicht "am" oder "mit" einem System; Sie arbeiten im System. Sie sind Teil des Systems. Komplexe Systeme umfassen sowohl technische Komponenten (Hardware, Software) als auch menschliche Komponenten (Personen und ihre Persönlichkeiten, Schulungen und Wissen). Unsere Systeme sind Systeme, die menscheneinschließen und wie der Mensch reagiert, wenn dinge schief gehen , ist so wichtig wie das Verhindern, dass dinge in erster Linie schief gehen.
Sprache
Sprache ist wichtig. In diesem Modul erfahren Sie, dass wir sehr spezifisch sind, welche Begriffe wir verwenden und welche, die wir absichtlich nicht verwenden.
Die Wörter, die wir verwenden, wirken sich darauf aus, wie wir darüber nachdenken, was in einem Vorfall passiert ist, und kann drastisch ändern, was und wie viel wir lernen. Diese Erkenntnis stammt aus der Forschung in sicherheitskritischen Branchen wie Luftfahrt, Medizin, Suche und Rettung, Feuerwehr und mehr.
Insgesamt ist dieses Forschungsfeld als Resilienztechnik (RE) bekannt geworden.
Wir haben viel über Resilience Engineering im Tech-Bereich zu erfahren. Später in diesem Modul werden wir einige wirklich nützliche Dinge teilen, die wir aus der RE-Literatur gelernt haben, einschließlich vier der häufigsten Fallen, in die Menschen fallen, wenn sie versuchen, aus dem Scheitern zu lernen; aber zuerst müssen wir einige Begriffe definieren.