Importanza della risposta agli eventi imprevisti
- 3 minuti
Basandosi sui principi e sulle procedure di monitoraggio illustrati in un altro modulo di questo percorso di apprendimento, si apprenderà come eseguire quando il monitoraggio rivela un problema. Se si riceve un avviso d'azione che informa che i sistemi non funzionano come previsto, questo è il segnale per avviare una risposta e risolvere il problema.
Che cos'è un evento imprevisto?
La risposta agli eventi imprevisti riguarda le azioni eseguite quando si verifica un evento imprevisto, ma che cosa costituisce esattamente un evento imprevisto? La risposta può essere soggettiva; anche tutti gli ingegneri non sono d'accordo su ciò che è un incidente. Se si pone la domanda in diversi settori e organizzazioni, si ottengono molte risposte diverse.
Alcune etichetteranno tutte le interruzioni come eventi imprevisti, indipendentemente dal fatto che i clienti siano interessati o meno. Nel contesto di questo modulo, è possibile accettare che un evento imprevisto sia definito come interruzione del servizio: un'occorrenza o una condizione che influisce sulla capacità dell'utente di usare i servizi su cui si basano. Gli esempi includono quando i sistemi sono inattivo o non funzionano correttamente in modo che influiscano sui clienti.
Che cos'è la risposta agli eventi imprevisti?
Prevenire tutti i problemi è un obiettivo laudevole, ma impossibile. Le cose vanno storte, quindi è necessario un piano per limitare l'impatto sugli utenti finali e restituire le operazioni al normale il più rapidamente possibile.
La chiave è rispondere con urgenza anziché reagire. Una reazione tende ad essere più istintiva e basata nel momento attuale, senza considerare gli effetti a lungo termine. Una risposta è ben ponderata, organizzata e basata sulle informazioni.
L'approccio alla risposta agli eventi imprevisti determina l'efficacia in:
- Comprendere cosa sta succedendo (diagnosi del problema).
- Valutazione (determinazione dell'urgenza) e definizione delle priorità del problema.
- Coinvolgere le risorse giuste per attenuare i problemi.
- Comunicazione con gli stakeholder sul problema.
Dopo aver risolto il problema, è possibile apprendere dall'evento imprevisto tramite un processo di revisione post-evento imprevisto. Questo è un argomento importante, che ha un intero modulo separato vale la pena di discutere.
Misurazione delle prestazioni di risposta agli eventi imprevisti
Si potrebbe avere familiarità con l'acronimo TTR, definito in vari modi come "tempo di ripristino", "tempo di correzione" o "tempo di ripristino". Tutte queste varianti fanno riferimento alla stessa idea: il tempo necessario per riportare un servizio a uno stato in cui soddisfa di nuovo le aspettative dei clienti.
I diversi framework usano nomi diversi per questo concetto. Le linee guida correnti di DORA si riferiscono al tempo di ripristino della distribuzione non riuscito, una delle cinque metriche delle prestazioni di distribuzione del software. Misura la velocità con cui un team può eseguire il ripristino da una distribuzione non riuscita che causa un problema di produzione, rendendolo uno degli indicatori più forti della funzionalità di risposta agli eventi imprevisti.
Questa metrica è un modo per misurare le prestazioni dei team quando risponde agli eventi imprevisti. Prima ripristini il servizio, minore è l'impatto dell'interruzione o del servizio degradato sugli utenti.
È importante sapere in che modo l'organizzazione gestisce la risposta agli eventi imprevisti. La ricerca di DORA continua a mostrare una forte relazione tra le prestazioni di ripristino e le prestazioni complessive di distribuzione del software. Invece di considerare le soglie di riferimento come obiettivi fissi, utilizza il tempo di recupero per confrontare i servizi nel tempo, identificare i colli di bottiglia nel processo di risposta e misurare se i tuoi miglioramenti stanno effettivamente funzionando.
I team con procedure avanzate di risposta agli eventi imprevisti recuperano più velocemente rispetto ai peer con prestazioni ridotte e tendono a associare tale velocità con prestazioni di recapito più elevate nel complesso. Un buon monitoraggio, la proprietà chiara, i piani di risposta praticati e l'automazione consentono di ridurre i tempi di ripristino.
Perché i team con procedure avanzate di risposta agli eventi imprevisti recuperano molto più rapidamente del resto? È almeno parzialmente perché comprendono l'importanza di avere già un buon piano di risposta di base quando le cose vanno inevitabilmente storte.
Durante l'esecuzione di questo modulo vengono fornite informazioni sulle caratteristiche e sul ciclo di vita di un evento imprevisto e su come usare tali conoscenze per creare un piano di base personalizzato.