Introduzione
La gerarchia di affidabilità di Dickerson offre una mappa per esplorare le sfide di affidabilità; ciò che deve essere affrontato e in quale ordine. Come altre gerarchie di questo tipo, è importante che il livello su cui ci si trova sia solido prima di salire la piramide.
Dal basso verso l'alto, i sette livelli sono:
- Monitoraggio: non è possibile migliorare ciò che non è possibile visualizzare.
- Risposta agli eventi imprevisti: processi affidabili e ripetibili per reagire quando gli avvisi vengono attivati.
- Revisione post-incidente: apprendimento dagli incidenti che si verificano (l'obiettivo di questo modulo).
- Test e rilascio: rilevamento delle regressioni prima che raggiungano la produzione.
- Pianificazione della capacità: garantire che il sistema disponga delle risorse necessarie per soddisfare la domanda.
- Sviluppo: scrittura di software affidabile.
- Prodotto: creare la cosa giusta per gli utenti.
Questo modulo si rivolge approssimativamente al livello al centro della piramide. Dopo aver affrontato il monitoraggio e la risposta agli eventi imprevisti (ad esempio con l'aiuto di altri moduli di Learn in questo percorso di apprendimento), è ora possibile concentrarsi sui principi e sulle procedure che consentono di migliorare la pratica operativa.
La gerarchia è adattata dalla Gerarchia delle esigenze di affidabilità di Mikey Dickerson.
In questo modulo ci si concentra sulle revisioni post-evento imprevisto che consentono di apprendere dagli errori, con conseguente miglioramento dell'affidabilità.
Dopo aver completato questo modulo, si eseguiranno le operazioni seguenti:
- Scopri l'importanza di imparare dagli eventi imprevisti.
- Comprendere gli aspetti dei sistemi complessi che rendono importante l'apprendimento dagli errori.
- Informazioni su quando e su come eseguire una revisione post-evento imprevisto.
- Comprendere lo scopo e gli obiettivi di una revisione post-evento imprevisto.
- Scopri i componenti che costituiscono una buona revisione post-incidente.
- Esplora gli strumenti di Azure che possono aiutare a iniziare con le revisioni post-incidente.
- Diventa consapevole delle trappole comuni da evitare.
- Identificare le procedure utili per condurre una revisione migliore.
Una storia introduttiva
Per impostare la scena per questo modulo, ecco una storia vera (o metà di essa, in realtà, si arriva alla seconda parte più avanti in questo modulo):
Durante la seconda guerra mondiale, l'aereo B-17 "Fortezza volante" è stato coinvolto in una serie di incidenti. Non sappiamo tutti i dettagli di questi incidenti e non sappiamo esattamente quanti ci sono stati. Era tempo di guerra, e molti dei dettagli erano segreti e rimangono segreti. Ciò che sappiamo è che c'è stato un numero significativo di incidenti simili che coinvolgono molti aerei singoli. Le ricostruzioni storiche tendono a concentrarsi sugli aerei danneggiati piuttosto che sulle gravi lesioni, ma il resoconto del tempo di guerra è incompleto.
In ogni caso, quello che accadrebbe è questo: un B-17 arriverebbe per atterrare, atterrerebbe con successo, e poi, sulla pista o rullando per tornare all'hangar, qualcosa di strano accadrebbe. Sarebbe successo qualcosa di grave. Il B-17 sarebbe a terra e tutto un tratto l'ingranaggio di atterraggio si ritirerebbe, e l'aereo crollerebbe sulla pista.
In ogni caso, gli investigatori cercherebbero prove di guasto meccanico o elettrico, e in ogni caso, non riuscirono a trovarne uno. Quindi, ciò che hanno concluso era che questo era un caso di errore pilota, che i piloti avevano erroneamente ritirato l'ingranaggio di atterraggio.
Ecco due informazioni aggiuntive: gli investigatori erano corretti che non si sono verificati guasti meccanici o elettrici. Gli incidenti continuavano a verificarsi.
Queste informazioni potrebbero portarvi a essere insoddisfatti con la conclusione iniziale raggiunta su questi incidenti, forse lasciarvi chiedere se questa è tutta la storia. In questo modulo verrà proposto che manca qualcosa in questa conclusione e nelle indagini che lo hanno portato.