Hvorfor lære af hændelser?

5 minutter

Når en hændelse sker, er din første reaktion sandsynligvis ikke: "Fremragende! En læringsmulighed!" Din umiddelbare prioritet er at finde ud af, hvad der gik galt, og rette det så hurtigt som muligt for at mindske påvirkningen på dine kunder og slutbrugere, som det bør være. Dette er den hændelsessvarproces, vi diskuterede i et andet modul i dette læringsforløb.

Men når hændelsen er løst, er det vigtigt at følge op på og drage fordel af oplevelsen. Hvis vi ikke tager os tid til at lære af hændelsen, så er det stadig bare et tab af tid, penge, omdømme og så videre; men hvis denne hændelse kan være en kilde til oplysninger (på den måde, ingen anden kilde kan) kan vi faktisk drage fordel af det.

Gennemgangen efter hændelsen er en del af analysefasen for livscyklussen for svar på hændelser. Det er ikke alle anmeldelser efter hændelser, der er oprettet ens. Der er forskellige måder at gribe processen an på, og for meget fokus på visse aspekter af problemet eller indramning af spørgsmål på den forkerte måde kan reducere værdien af gennemgangen.

I denne enhed begynder du ikke kun at tænke over hvorfor, men også hvordan du bedst kan lære af hændelser. Vi uddyber "hvordan" i efterfølgende enheder.

Komplekse systemer mislykkes

Du skal "lære at lære" af fejl, ikke hvis dine systemer fejler, men fordi det er sikkert, at dine systemer fejler.

I den moderne verden er de fleste systemer, vi arbejder med i dag, især i et cloud-miljø, komplekse. De består af mange forbundne dele, der skal arbejde sammen, og den overordnede systemfunktionsmåde kommer fra interaktionen mellem disse dele lige så meget som fra de enkelte dele selv.

pålidelighed er den tråd, der kører i hele dette læringsforløb, men komplekse systemer er aldrig hundrede procent pålidelige. Sådanne systemer opfører sig på interessante og kontraintuitive måder. De består af mange dele, og systemets funktionsmåde kommer ofte fra interaktionerne mellem disse dele lige så meget som fra selve delene.

For en mere dybdegående diskussion af dette emne, en god ressource er papiret med titlen Hvordan Komplekse systemer Fail af Dr. Richard I. Cook. Han er anæstesiolog og forsker, som i årtier har arbejdet med sikkerhed i komplekse systemer, især patientsikkerhed i sundhedssystemet. I dette dokument forklarer han, hvad der er fælles for komplekse systemer på alle områder fra sundhedssektoren til softwarehandlinger.

Nogle af hans vigtigste punkter er særligt relevante for hændelsesanalysen og gennemgangsprocessen efter hændelsen:

Komplekse systemer indeholder skiftende blandinger af fejl latent i dem. Det er umuligt for dine systemer at køre, uden at der er flere fejl til stede. Fejlene ændres konstant på grund af skiftende teknologi, arbejdsorganisation og bestræbelser på at udrydde fejl. Dit system fungerer aldrig perfekt.
Komplekse systemer kører i forringet tilstand. Komplekse systemer kører altid som "brudte" systemer. De holder "arbejder" i denne tilstand, fordi de indeholder mange afskedigelser, og folk kan holde dem fungerer på trods af tilstedeværelsen af mange fejl. Systemhandlinger er dynamiske, og komponenterne mislykkes hele tiden og erstattes.
Katastrofen er altid lige rundt om hjørnet. Kompleksiteten af disse systemer betyder, at store systemfejl på lang sigt er uundgåelige. Komplekse systemer har altid potentialet til katastrofale fejl, og det kan ske når som helst. Det er umuligt at eliminere dette potentiale, fordi det er en del af systemets iboende natur.

Forebyggelse og reaktion

I dine bestræbelser på at opnå dit ønskede niveau af pålidelighed for dine systemer og tjenester gør du alt for at forhindre hændelser i at opstå. Men på grund af kompleksiteten af disse systemer, som forklaret tidligere, forebyggelse er ikke altid muligt.

På grund af denne erkendelse er vi nødt til at tage en tostrenget tilgang til fejl: forebyggelse, og når det ikke er muligt, forberedelse til at reagere hurtigt og effektivt.

Forebyggelse og reaktion er indbyrdes forbundet. Det har du måske oplevet, da din organisation udrullede en avanceret automatisering, der fungerede det meste af tiden. Det var dejligt, at det fungerede det meste af tiden, men da det mislykkedes, det sandsynligvis mislykkedes spektakulært, og gjorde det sværere for operatører at forstå, hvad der var gået galt.

De systemer, du arbejder på, består af mere end teknologien. Faktisk arbejder du ikke "på" eller "med" et system; du arbejder i systemet. Du er en del af systemet. Komplekse systemer omfatter både tekniske komponenter (hardware, software) og menneskelige komponenter (mennesker og deres personligheder, uddannelse og viden). Vores systemer er systemer, der omfatter mennesker, og hvordan mennesker reagerer, når tingene går galt, er så vigtigt som at forhindre tingene i at gå galt i første omgang.

Sprog

Sprog betyder noget. I dette modul lærer du, at vi er specifikke omkring, hvilke termer vi bruger, og hvilke vi bevidst ikke bruger.

De ord, vi bruger, påvirker, hvordan vi tænker over, hvad der skete i en hændelse, og kan drastisk ændre, hvad og hvor meget vi lærer. Denne konstatering stammer fra forskning i sikkerhedskritiske brancher som luftfart, medicin, eftersøgning og redning, brandslukning og meget mere.

Samlet set er dette forskningsfelt blevet kendt som Resilience Engineering (RE).

Vi har meget at lære om Robusthedsteknik i den tekniske sektor. Senere i dette modul deler vi nogle nyttige ting, vi har lært fra RE-litteraturen, herunder fire af de mest almindelige fælder, folk falder i, når de forsøger at lære af fiasko; Men først skal vi definere nogle begreber.

Feedback

Var denne side nyttig?

Hvorfor lære af hændelser?

Tjek din viden

Feedback