Che cos'è il ripristino di emergenza?

Una situazione di emergenza è un evento importante con un impatto più ampio e duraturo rispetto a quello che un'applicazione può attenuare tramite la parte a disponibilità elevata della progettazione. Il ripristino di emergenza si occupa del ripristino in caso di eventi a impatto elevato, come disastri naturali o distribuzioni non riuscite che comportano tempi di inattività e perdita di dati. Indipendentemente dalla causa, il miglior rimedio per un'emergenza è un piano di ripristino ben definito e testato e una progettazione di applicazioni che supporta attivamente tale ripristino.

Obiettivi di ripristino

Un piano di ripristino completo deve specificare i requisiti aziendali critici seguenti per ciascun processo implementato dall'applicazione:

  • Obiettivo del punto di ripristino (RPO): è la durata massima di perdita dei dati accettabile. L'RPO è misurato in unità di tempo e non di volume, ad esempio "30 minuti di dati" o "quattro ore di dati". Riguarda la limitazione e il ripristino dalla perdita di dati, ma non dal furto di dati.

  • Obiettivo del tempo di ripristino (RTO): si tratta della durata massima di tempo di inattività accettabile, dove il "tempo di inattività" è definito dalle proprie specifiche. Se, ad esempio, la durata del tempo di inattività accettabile in caso di emergenza è di otto ore, l'RTO corrisponde a otto ore.

Screenshot of RTO and RPO durations in hours.

Ogni processo o carico di lavoro principale implementato da un'applicazione deve avere valori RPO e RTO separati esaminando i rischi dello scenario di emergenza e le potenziali strategie di ripristino. Il processo di specificare un RPO e un RTO crea in modo efficace i requisiti di ripristino di emergenza per l'applicazione in seguito a problemi aziendali univoci (costi, impatto, perdita di dati e così via).

Progettazione per il ripristino di emergenza

Il ripristino di emergenza non è una funzionalità automatica, ma deve essere progettata, compilata e testata. Per supportare una solida strategia di ripristino di emergenza, è necessario creare un'applicazione che tenga conto del DR fin dal principio. Azure offre servizi, funzionalità e indicazioni per supportare il ripristino di emergenza quando si creano app.

Recupero dati

Durante un'emergenza, esistono due metodi principali per il ripristino dei dati: backup e replica.

Il backup ripristina i dati a un momento temporale specifico. Usando il backup, è possibile fornire soluzioni semplici, sicure e convenienti per eseguire il backup e il ripristino dei dati nel cloud di Microsoft Azure. Utilizzare il Backup di Azure per creare snapshot di dati di sola lettura di lunga durata da usare nel ripristino.

Replica dati crea copie in tempo reale o quasi in tempo reale di dati live in più repliche dell'archivio dati con una perdita minima di dati. L'obiettivo della replica è mantenere sincronizzate le repliche con la minima latenza possibile, garantendo al tempo stesso la velocità di risposta dell'applicazione. La maggior parte dei sistemi di database completi e altri prodotti e servizi di archiviazione dati includono un tipo di replica come funzionalità strettamente integrata, a causa dei relativi requisiti funzionali e di prestazioni. Un esempio è l'archiviazione con ridondanza geografica (GRS).

Progettazioni di replica differenti hanno diverse priorità in termini di costi, prestazioni e coerenza dei dati.

  • La replica attiva richiede l'esecuzione di aggiornamenti in più repliche contemporaneamente, assicurando la coerenza a spese della velocità effettiva.

  • La replica passiva esegue la sincronizzazione in background, rimuovendo la replica come vincolo per le prestazioni dell'applicazione ma incrementando il valore RPO.

  • La replica attiva o multimaster consente di usare più repliche contemporaneamente, consentendo il bilanciamento del carico a costo di complicare la coerenza dei dati.

  • La replica passiva attiva riserva le repliche per l'uso attivo solo durante il failover.

Nota

La maggior parte dei sistemi di database in evidenza e di altri prodotti e servizi di archiviazione dati include alcuni tipi di replica, ad esempio l'archiviazione con ridondanza geografica (GRS), a causa dei requisiti funzionali e delle prestazioni.

Creazione di applicazioni resilienti

Gli scenari di emergenza spesso determinano tempi di inattività, che si tratti di problemi di connettività di rete, interruzioni del data center o di macchine virtuali o distribuzioni software danneggiate. Nella maggior parte dei casi, il ripristino dell'applicazione comporta il failover in una distribuzione separata e funzionante. Di conseguenza, potrebbe essere necessario ripristinare i processi in un'altra area di Azure in caso di emergenza su larga scala. Altre considerazioni possono includere: percorsi di ripristino, numero di ambienti replicati e come gestire questi ambienti.

A seconda della progettazione dell'applicazione, è possibile usare diverse strategie e funzionalità di Azure, ad esempio Azure Site Recovery, per migliorare il supporto dell'applicazione per il ripristino del processo dopo un'emergenza.

Funzionalità di ripristino di emergenza specifiche del servizio

La maggior parte dei servizi eseguiti nelle offerte PaaS (Platform as a Service) di Azure, ad esempio il Servizio app di Azure, fornisce funzionalità e indicazioni per supportare il ripristino di emergenza. In alcuni scenari è possibile usare funzionalità specifiche dei servizi per supportare il ripristino rapido. Ad esempio, il server SQL Azure supporta la replica geografica per il ripristino rapido del servizio in un'altra area. Il servizio app di Azure offre funzionalità di backup e ripristino; la documentazione include indicazioni per l'uso di Gestione traffico di Azure per il supporto del routing del traffico a un'area secondaria.

Passaggi successivi