Ripristino in un'area usando zone di disponibilità e ripristino di emergenza geografico tra aree (Griglia di eventi di Azure)

Questo articolo descrive come Griglia di eventi di Azure supporta il ripristino automatico in un'area delle definizioni di risorse e dei dati di Griglia di eventi quando si verifica un errore in un'area con zone di disponibilità. Descrive anche il modo in cui Griglia di eventi supporta il ripristino automatico delle definizioni di risorse di Griglia di eventi (nessun dato) in un'altra area quando si verifica un errore in un'area con un'area abbinata.

Ripristino in un'area usando le zone di disponibilità

le zone di disponibilità di Azure sono posizioni fisicamente separate all'interno di ogni area di Azure, con tolleranza per gli errori locali. Sono connessi da una rete ad alte prestazioni con una latenza di round trip inferiore a 2 millisecondi. Ogni zona di disponibilità è costituita da uno o più data center dotati di potenza, raffreddamento e infrastruttura di rete indipendenti. Se una zona è interessata, i servizi regionali, la capacità e la disponibilità elevata sono supportati dalle due zone rimanenti. Per altre informazioni sulle zone di disponibilità, vedere Aree e zone di disponibilità. In questo articolo è anche possibile visualizzare l'elenco delle aree con zone di disponibilità.

Le definizioni delle risorse di Griglia di eventi per argomenti, argomenti di sistema, domini e sottoscrizioni di eventi e dati degli eventi vengono replicate automaticamente in tre zone di disponibilità (se disponibili) nell'area. Quando si verifica un errore in una delle zone di disponibilità, le risorse di Griglia di eventi eseguono automaticamente il failover in un'altra zona di disponibilità senza alcun intervento umano. Attualmente non è possibile controllare (abilitare o disabilitare) questa funzionalità. Quando un'area esistente inizia a supportare le zone di disponibilità, viene eseguito automaticamente il failover delle risorse di Griglia di eventi esistenti per sfruttare questa funzionalità. Non è richiesto alcun intervento da parte del cliente.

Diagramma che mostra le zone di disponibilità che proteggono dalle emergenze localizzate e dalle emergenze geografiche locali o di grandi dimensioni usando un'altra area.

Ripristino di emergenza geografico tra aree

Quando si verifica un'interruzione prolungata di un'area di Azure, è possibile che si sia interessati alle opzioni di failover in un'area alternativa per la continuità aziendale. Molte aree di Azure hanno coppie geografiche e alcune no. Per un elenco di aree associate, vedere Associazioni di replica tra aree di Azure per tutte le aree geografiche.

Per le aree con una coppia geografica, Griglia di eventi offre la possibilità di eseguire il failover del traffico di pubblicazione nell'area abbinata per argomenti personalizzati, argomenti di sistema e domini. Dietro le quinte, Griglia di eventi sincronizza automaticamente le definizioni di risorse di argomenti, argomenti di sistema, domini e sottoscrizioni di eventi nell'area abbinata. Tuttavia, i dati degli eventi non vengono replicati nell'area abbinata. Nello stato normale, gli eventi vengono archiviati nell'area selezionata per tale risorsa. Quando si verifica un'interruzione dell'area e Microsoft avvia il failover, i nuovi eventi iniziano a passare all'area geografica associata e vengono inviati da questa posizione senza alcun intervento da parte dell'utente. Gli eventi pubblicati e accettati nell'area originale vengono inviati da questa posizione dopo l'interruzione.

Il failover avviato da Microsoft viene eseguito da Microsoft in rare situazioni per eseguire il failover delle risorse di Griglia di eventi da un'area interessata all'area geografica associata corrispondente. Microsoft si riserva il diritto di determinare quando questa opzione verrà esercitata. Questo meccanismo non implica il consenso dell'utente prima del failover del traffico dell'utente.

È possibile abilitare o disabilitare questa funzionalità aggiornando la configurazione per l'argomento o il dominio. Selezionare l'opzione Cross-Geo (impostazione predefinita) per abilitare il failover avviato da Microsoft e Regional per disabilitarlo. Per i passaggi dettagliati per configurare questa impostazione, vedere Configurare la residenza dei dati. Se si sceglie un'area geografica, nessun dato di qualsiasi tipo viene replicato in un'altra area da Microsoft ed è possibile definire il proprio piano di ripristino di emergenza. Per altre informazioni, vedere Creare un piano di ripristino di emergenza personalizzato per Griglia di eventi di Azure argomenti e domini.

Screenshot che mostra la pagina Configurazione per un argomento personalizzato di Griglia di eventi.

Ecco alcuni motivi per cui si vuole disabilitare la funzionalità di failover avviata da Microsoft:

  • Il failover avviato da Microsoft viene eseguito su base ottimale.
  • Alcune coppie geografiche non soddisfano i requisiti di residenza dei dati dell'organizzazione.

In questi casi, l'opzione consigliata consiste nel creare un piano di ripristino di emergenza personalizzato per Griglia di eventi di Azure argomenti e domini. Anche se questa opzione richiede un po' di impegno maggiore, consente un failover più rapido e si ha il controllo della scelta delle aree secondarie. Se si vuole implementare il ripristino di emergenza sul lato client per Griglia di eventi di Azure argomenti, vedere Creare un ripristino di emergenza sul lato client per Griglia di eventi di Azure argomenti.

RTO e RPO

Il ripristino di emergenza viene misurato con due metriche:

  • Obiettivo del punto di ripristino (RPO): minuti o ore di dati che potrebbero essere persi.
  • Obiettivo del tempo di ripristino (RTO): i minuti o le ore in cui il servizio potrebbe essere inattivo.

Il failover automatico di Griglia di eventi include RPO e RTO diversi per i metadati (argomenti, domini, sottoscrizioni di eventi) e dati (eventi). Se sono necessarie specifiche diverse da quelle seguenti, è comunque possibile implementare il proprio failover lato client usando le API di integrità dell'argomento.

Obiettivo del punto di ripristino (RPO)

  • RPO metadati: zero minuti. Per le risorse applicabili, quando una risorsa viene creata/aggiornata/eliminata, la definizione della risorsa viene replicata in modo sincrono nella coppia geografica. Quando si verifica un failover, non vengono persi metadati.

  • RPO dati: quando si verifica un failover, i nuovi dati vengono elaborati dall'area associata. Non appena l'interruzione viene attenuata per l'area interessata, gli eventi non elaborati vengono inviati da questa posizione. Se il ripristino dell'area richiede più tempo rispetto al valore time-to-live impostato sugli eventi, i dati potrebbero essere eliminati. Per ridurre la perdita di dati, è consigliabile configurare una destinazione di messaggi non recapitabili per una sottoscrizione di eventi. Se l'area interessata viene persa e non recuperabile, si verifica una perdita di dati. Nello scenario migliore, il sottoscrittore è in linea con la frequenza di pubblicazione e solo pochi secondi di dati vengono persi. Lo scenario peggiore sarebbe quando il sottoscrittore non elabora attivamente gli eventi e con un tempo massimo di durata massima di 24 ore, la perdita di dati può essere fino a 24 ore.

Obiettivo del tempo di ripristino (RTO)

  • RTO dei metadati: il processo decisionale del failover si basa su fattori come la capacità disponibile nell'area abbinata e possono durare nell'intervallo di 60 minuti o più. Dopo l'avvio del failover, entro 5 minuti Griglia di eventi inizia ad accettare chiamate di creazione/aggiornamento/eliminazione per argomenti e sottoscrizioni.

  • RTO dati: uguale alle informazioni precedenti.

Importante

  • In caso di ripristino di emergenza sul lato server, se l'area abbinata non ha capacità aggiuntiva di assumere il traffico aggiuntivo, Griglia di eventi non può avviare il failover. Il ripristino viene eseguito con il massimo sforzo.
  • Non è previsto alcun addebito per l'uso di questa funzionalità.
  • Il ripristino di emergenza geografico non è supportato per gli spazi dei nomi dei partner e gli argomenti dei partner.

Passaggi successivi

Vedere Creare un ripristino di emergenza sul lato client per Griglia di eventi di Azure argomenti.