Riepilogo
La pianificazione e il ripristino di emergenza sono elementi fondamentali delle operazioni IT, indipendentemente dal fatto che i sistemi di un'organizzazione siano in locale, nel cloud o in una combinazione di entrambi. Le piattaforme cloud pubblico offrono servizi per il backup dei dati critici, il ripristino in caso di perdita, il failover nei sistemi secondari quando i sistemi primari smettono di funzionare e, in generale, la mitigazione (e il ripristino) degli effetti degli errori. Di seguito sono indicati alcuni dei punti chiave illustrati in questo modulo:
I sistemi IT devono essere a tolleranza di errore, per quanto possibile. Un sistema a tolleranza di errore si comporta come previsto, ovvero secondo le aspettative del contratto di servizio, anche in presenza di errori.
Un modo per ottenere la tolleranza di errore consiste nell'usare metodi reattivi come la replica delle attività e i punti di ripristino.
Anche i metodi proattivi, come la replica delle risorse e il bilanciamento del carico, possono contribuire alla tolleranza di errore.
Le principali piattaforme cloud offrono servizi di backup che forniscono una rete di sicurezza contro la perdita di dati. Backup di Azure e AWS Backup sono esempi di servizi di backup basato sul cloud.
Il ripristino di emergenza cerca di garantire la continuità aziendale reindirizzando il traffico ai sistemi secondari, quando necessario. I provider di servizi cloud, ad esempio Amazon e Microsoft, offrono il ripristino di emergenza distribuito come servizio tramite servizi come AWS CloudEndure e Azure Site Recovery.
Gli obiettivi comuni a livello di servizio alla base dei piani di ripristino di emergenza includono l'obiettivo del punto di ripristino (RPO), l'obiettivo del tempo di ripristino (RTO) e il periodo di conservazione.
La continuità consiste nella corretta applicazione delle procedure consigliate per ottenere un risultato positivo quando si verifica un'emergenza. Un fattore chiave della continuità è la resilienza.
La resilienza può essere quantificata usando metriche quali la tolleranza di errore, la tolleranza di interruzione e la capacità di sopravvivenza. Il modello ResiliNets consente di codificare la resilienza.
Lo standard internazionale per la strategia di continuità aziendale è ISO 22301. Azure usa il framework di resilienza di Azure per ottenere la conformità ISO 22301.
Perché un sistema informatico sia resiliente, chi ne è responsabile deve perseguire un ideale: fare in modo che i sistemi informatici si evolvano come esseri viventi, grazie a un miglioramento costante e al monitoraggio da parte di esseri viventi, non robotici. I processi automatizzati hanno uno scopo positivo, ma non sostituiscono il lavoro attivo.