Introduksjon
Dickerson-hierarkiet for pålitelighet tilbyr et kart for å navigere pålitelighetsutfordringer; hva som må tas opp og i hvilken rekkefølge. Som andre hierarkier av denne typen, er det viktig at nivået du er på er solid før du flytter opp pyramiden.
Fra bunnen og opp er de syv nivåene:
- Overvåking: Du kan ikke forbedre det du ikke kan se.
- Hendelsesrespons: Pålitelige, repeterbare prosesser for å reagere når varsler utløses.
- Gjennomgang etter hendelsen: Å lære av hendelsene som skjer (fokuset i denne modulen).
- Testing og utgivelse: Fange regresjoner før de når produksjon.
- Kapasitetsplanlegging: Sikre at systemet har ressursene det trenger for å møte etterspørselen.
- Utvikling: Å skrive pålitelig programvare.
- Produkt: Å bygge det rette for brukerne.
Denne modulen tar for seg nivået omtrent midt i pyramiden. Etter å ha tatt tak i overvåkingen og hendelsesresponsen (kanskje med hjelp av andre Learn-moduler i denne læringsveien), har du nå muligheten til å fokusere på prinsipper og praksiser som kan hjelpe deg å heve driftspraksisen din.
Hierarkiet er tilpasset fra Mikey Dickersons Hierarchy of Reliability Needs.
I denne modulen fokuserer vi på gjennomganger etter hendelser som kan hjelpe deg å lære av feil, noe som resulterer i bedre pålitelighet.
Når du har fullført denne modulen, gjør du følgende:
- Oppdag viktigheten av å lære av hendelser.
- Forstå aspektene ved komplekse systemer som gjør læring fra feil viktig.
- Finn ut når og hvordan du gjennomfører en gjennomgang etter hendelsen.
- Forstå formålet og målene for en gjennomgang etter hendelsen.
- Lær hvilke komponenter som inngår i en god gjennomgang etter hendelsen.
- Utforsk Azure-verktøyene som kan hjelpe deg med å komme i gang med gjennomganger etter hendelser.
- Bli oppmerksom på vanlige feller du bør unngå.
- Identifiser nyttige fremgangsmåter for å gjennomføre en bedre gjennomgang.
En innledende historie
For å sette scenen for denne modulen, her er en sann historie (eller faktisk halve den; vi kommer til andre del senere i denne modulen):
Under andre verdenskrig var B-17 "Flying Fortress" flyet involvert i en rekke ulykker. Vi vet ikke alle detaljene i disse ulykkene, og vi vet ikke nøyaktig hvor mange det var. Det var krigstid, og mange av detaljene var hemmelige og forblir hemmelige. Det vi vet, er at det var et betydelig antall lignende hendelser med mange individuelle fly. Historiske gjenfortellinger fokuserer gjerne på skadede fly fremfor alvorlige skader, men krigsdokumentasjonen er ufullstendig.
I hvert tilfelle ville det skje slik: En B-17 ville komme inn for å lande, ville lande vellykket, og så, enten på rullebanen eller på taxing tilbake til hangaren, ville noe merkelig skje. Noe alvorlig ville skje. B-17-flyet ville være på bakken, og plutselig ville landingshjulene trekkes inn, og flyet ville kollapse på rullebanen.
I hvert tilfelle ville etterforskerne lete etter bevis på mekanisk eller elektrisk svikt, og i hvert tilfelle kunne de ikke finne noen. Så det de konkluderte med var at dette var et tilfelle av pilotfeil, at pilotene feilaktig hadde trukket tilbake understellet.
Her er to ekstra opplysninger: etterforskerne hadde rett i at det ikke hadde skjedd noen mekaniske eller elektriske feil. Ulykkene fortsatte å skje.
Denne informasjonen kan føre deg til å være misfornøyd med den første konklusjonen nådd om disse ulykkene, kanskje la deg lure på om dette er hele historien. I denne modulen skal vi foreslå at noe mangler i denne konklusjonen og i undersøkelsene som førte til det.