Elementi fondamentali della risposta agli eventi imprevisti
- 6 minuti
Le organizzazioni oggi traggono vantaggio dall'accessibilità, dall'efficienza e dalla praticità del cloud, ma affrontano molte sfide quando subiscono una trasformazione digitale che comporta lo spostamento di parti dell'azienda nei servizi cloud.
Alcune delle problematiche comuni che potrebbero verificarsi nell'organizzazione includono:
- Aumento del numero di interruzioni del servizio
- Nessun metodo efficace di rilevamento e risposta agli eventi imprevisti (tutto è ad hoc e reazionario)
- Tempo non accettabile per la risoluzione
- Il tempo per la risoluzione non sta migliorando o sta peggiorando
- Le informazioni e lo stato sono difficili da trovare
- Ricorrenza degli stessi problemi ed errori
Per soddisfare queste sfide, è necessario un piano di risposta agli eventi imprevisti ben definito basato su una solida base.
Basi e pilastri
Lo scopo di una fondazione è quello di tenere insieme la struttura sopra di essa. In un modulo introduttivo separato a questo percorso di apprendimento è stato illustrato l'idea che il lavoro sull'affidabilità si basa sul livello di base del monitoraggio e che la risposta agli eventi imprevisti si trova appena sopra quella nella gerarchia.
La risposta agli eventi imprevisti ha anche un fondamento. Esistono tre pilastri che supportano un buon piano di risposta agli eventi imprevisti:
- Roster
- Ruoli
- Rotazioni
In questa unità si scoprirà cosa è ognuno di questi pilastri e quali parti giocano nella progettazione di una strategia di risposta agli eventi imprevisti che consente di proseguire il percorso verso gli obiettivi di affidabilità.
Roster
È essenziale avere un buon piano, ma un piano è inutile senza che le persone lo eseseguono. Pertanto, il luogo migliore per iniziare consiste nel determinare chi si aspetta di rispondere ai problemi e come comunicare loro quando è necessaria la risposta.
Il modo migliore per affrontare questa sfida consiste nel progettare un roster. Un elenco di persone assegnate al team di chiamata è un elenco di persone assegnate al team di chiamata. Questo team deve essere composto da più tecnici. Questi membri del team devono avere le conoscenze e le competenze necessarie per risolvere il tipo di problemi che possono verificarsi nell'ambiente, nonché la formazione nella risposta agli eventi imprevisti.
Un elenco di nomi, tuttavia, non è sufficiente. È necessario creare un framework intorno a chi è su chiamata in un determinato punto e cosa deve fare ogni persona. Ecco dove arrivano i ruoli.
Ruoli
I ruoli portano ordine a ciò che sarebbe una risposta caotica, o al meglio ad hoc. Ciò avviene definendo le funzioni specifiche da assumere da ogni persona in una particolare situazione e il posto di ognuno nella "catena di comando". I ruoli possono variare in base all'organizzazione o anche al tipo di evento imprevisto, ma i ruoli seguenti devono in genere far parte di un team di risposta agli eventi imprevisti organizzati:
- Risponditore primario: questa è la "persona punto" che di solito è la prima persona sulla scena; vale a dire, il primo ingegnere su chiamata che viene chiamato quando si verifica un evento imprevisto.
- Risponditore secondario: si tratta di un utente che agisce come backup e può eseguire un passaggio se il risponditore primario non è disponibile o se è necessaria una seconda coppia di occhi.
- Esperti di materia (PMI): si tratta di persone che hanno una conoscenza approfondita di una particolare sfaccettatura delle vostre operazioni. Sono lì se i risponditori primari e secondari devono inoltrare il problema a qualcuno con maggiore esperienza. Non sono sempre in chiamata, ma sono disponibili quando sono necessarie competenze specializzate. È consigliabile mantenere un elenco di PMI in vari argomenti (ad esempio, database, front-end, infrastruttura di rete, app Web, cybersecurity e così via).
- Comandante degli eventi imprevisti: questo è un ruolo importante in un evento imprevisto o un'interruzione su larga scala che influisce su molti componenti diversi e/o richiede il coordinamento tra molti team e sistemi diversi. Un comandante dell'incidente sarà la persona che coordina un sacco di conversazione e lo sforzo per quanto riguarda le attività di risposta e correzione. Il comandante dell'incidente tiene d'occhio il "quadro generale"; mantengono le schede su ciò che sta succedendo e chi sta facendo quello che sta facendo. Un comandante degli eventi imprevisti è ideale per assicurarsi che gli ingegneri rimangano concentrati e che lavorino sui propri sforzi di correzione senza eseguire o annullare il lavoro dell'altro.
- Scribe: il ruolo dello scribe consiste nel documentare la conversazione intorno all'evento imprevisto nel maggior numero di dettagli possibile. I team usano in genere bridge telefonici, conferenze o video chat per riunire tutti e cercare di capire cosa sta succedendo, che può certamente aiutare a creare spazio per la conversazione. Tuttavia, è difficile per noi attraversare e comprendere in dettaglio ciò che gli ingegneri dicevano e fanno, a meno che non sia trascritto. Di conseguenza, uno scribe è la persona che può aiutarci a documentare il più possibile per esaminare in un secondo momento. Lo scribe acquisisce tutti i dati possibili; non solo ciò che i membri del team stanno facendo, ma anche quello che stanno dicendo e anche quello che sentono o sperimentano.
- Coordinatore della comunicazione: si pensi a questa persona come "responsabile delle relazioni pubbliche" per l'incidente. Il coordinatore della comunicazione collabora con il comandante dell'evento imprevisto per condividere informazioni sull'evento imprevisto con coloro che non sono coinvolti nel lavoro attivo per affrontare e recuperare l'evento imprevisto. Ciò può includere clienti, team di vendita e marketing, supporto clienti e qualsiasi altro stakeholder all'interno o all'esterno dell'organizzazione che devono essere informati di cosa sta accadendo e dello stato di avanzamento della risposta e della correzione.
Rotazioni
A questo momento si dispone dell'elenco di personale del team di risposta e sono stati assegnati i ruoli appropriati. Il passaggio successivo e l'ultimo passaggio consiste nel creare una rotazione, ovvero una pianificazione che assegna i turni per i quali ogni persona è in chiamata.
Esistono molti modi diversi per dividere i turni. La pianificazione dei turni può essere un processo strategico complesso. I turni non devono essere assegnati in modo casuale; dovresti pensare di pianificare per renderlo più efficace, e il più piacevole per i membri del team, il più possibile.
Alcuni metodi per la pianificazione dei turni includono:
- 24 x 7: si tratta di una rotazione in cui i membri del team sono in chiamata per diversi giorni di fila. Si tratta di un modo semplice per allocare la copertura dei turni, ma è necessario prestare attenzione a limitare la durata. Le rotazioni dei turni da tre a quattro giorni possono essere dannose per la salute complessiva del personale tecnico, riducendo così l'affidabilità dell'intero sistema.
- Segui i turni di sole: questo è un modello di turno in cui gli ingegneri pianificano i turni di chiamata solo durante le normali ore lavorative e poi consegnano la loro responsabilità di chiamata alla fine del giorno lavorativo a un altro collega che si trova in un fuso orario diverso.
Questi sono solo alcuni esempi di modi in cui è possibile assegnare i turni. Il punto importante è suddividere i turni in modo ottimale per gli individui del team di risposta. Esistono molti modi per personalizzare i turni, soprattutto per i fine settimana, quando gli ingegneri necessitano di maggiore flessibilità. I tecnici devono essere in grado di consegnare facilmente il ruolo a qualcuno quando si verificano conflitti non correlati al lavoro.