Riepilogo

Completato

La pianificazione e il ripristino di emergenza sono elementi fondamentali delle operazioni IT, indipendentemente dal fatto che i sistemi di un'organizzazione siano in locale, nel cloud o in una combinazione di entrambi. Le piattaforme cloud pubblico offrono servizi per il backup dei dati critici, il ripristino in caso di perdita, il failover nei sistemi secondari quando i sistemi primari smettono di funzionare e, in generale, la mitigazione (e il ripristino) degli effetti degli errori. Di seguito sono indicati alcuni dei punti chiave illustrati in questo modulo:

  • I sistemi IT devono essere a tolleranza di errore, per quanto possibile. Un sistema a tolleranza di errore si comporta come previsto, ovvero secondo le aspettative del contratto di servizio, anche in presenza di errori.

  • Un modo per ottenere la tolleranza di errore consiste nell'usare metodi reattivi come la replica delle attività e i punti di ripristino.

  • Anche i metodi proattivi, come la replica delle risorse e il bilanciamento del carico, possono contribuire alla tolleranza di errore.

  • Le principali piattaforme cloud offrono servizi di backup che forniscono una rete di sicurezza contro la perdita di dati. Backup di Azure e AWS Backup sono esempi di servizi di backup basato sul cloud.

  • Il ripristino di emergenza cerca di garantire la continuità aziendale reindirizzando il traffico ai sistemi secondari, quando necessario. I provider di servizi cloud, ad esempio Amazon e Microsoft, offrono il ripristino di emergenza distribuito come servizio tramite servizi come AWS CloudEndure e Azure Site Recovery.

  • Gli obiettivi comuni a livello di servizio alla base dei piani di ripristino di emergenza includono l'obiettivo del punto di ripristino (RPO), l'obiettivo del tempo di ripristino (RTO) e il periodo di conservazione.

  • La continuità consiste nella corretta applicazione delle procedure consigliate per ottenere un risultato positivo quando si verifica un'emergenza. Un fattore chiave della continuità è la resilienza.

  • La resilienza può essere quantificata usando metriche quali la tolleranza di errore, la tolleranza di interruzione e la capacità di sopravvivenza. Il modello ResiliNets consente di codificare la resilienza.

  • Lo standard internazionale per la strategia di continuità aziendale è ISO 22301. Azure usa il framework di resilienza di Azure per ottenere la conformità ISO 22301.

Perché un sistema informatico sia resiliente, chi ne è responsabile deve perseguire un ideale: fare in modo che i sistemi informatici si evolvano come esseri viventi, grazie a un miglioramento costante e al monitoraggio da parte di esseri viventi, non robotici. I processi automatizzati hanno uno scopo positivo, ma non sostituiscono il lavoro attivo.