Rendere ogni elemento ridondante

Applicare la ridondanza nell'applicazione per evitare singoli punti di guasto

Un'applicazione resiliente consente di risolvere più facilmente gli errori. È quindi opportuno identificare i percorsi critici nell'applicazione C'è ridondanza in ogni punto del percorso? In caso di errore di un sottosistema, l'applicazione passerà a un altro sistema?

In un'implementazione perfetta, l'aggiunta di ridondanza uniforme potrebbe aumentare in modo esponenziale la disponibilità del sistema. Si supponga, ad esempio, di avere N componenti equivalenti e equilibrati che:

può guastarsi in modo indipendente ed essere simultaneamente rimosso dal pool
hanno uno stato identico o assenza di stato
non hanno lavoro in corso che viene perso definitivamente durante il malfunzionamento
sono identici nelle funzionalità
non hanno dipendenze l'una dall'altra
gestisce la riduzione della capacità senza malfunzionamenti aggiuntivi

Se ogni singolo componente ha una disponibilità di A, la disponibilità complessiva del sistema può essere calcolata usando la formula 1 - (1 - A)^N.

Consigli

Prendere in considerazione i requisiti aziendali. La ridondanza implementata in un sistema può influire sui costi e sulla complessità del sistema stesso. L'architettura deve essere informata dai requisiti aziendali, ad esempio l'obiettivo del tempo di ripristino (RTO) e l'obiettivo del punto di ripristino (RPO). È anche consigliabile considerare i requisiti di prestazioni e la capacità del team di gestire set complessi di risorse.

Prendere in considerazione architetture multi-zona e in più aree. Assicurarsi di comprendere in che modo le zone di disponibilità e le aree offrono resilienza e diversi set di compromessi architetturali.

Le zone di disponibilità di Azure sono set isolati di data center all'interno di un'area. Usando le zone di disponibilità, è possibile essere resilienti agli errori di un singolo data center o di un'intera zona di disponibilità. È possibile usare le zone di disponibilità per stabilire compromessi tra costi, mitigazione dei rischi, prestazioni e recuperabilità. Ad esempio, quando si usano servizi con ridondanza della zona nell'architettura, Azure offre la replica automatica dei dati e il failover tra istanze geograficamente separate, che riduce molti tipi diversi di rischi.

Se si dispone di un carico di lavoro critico per la missione e si deve ridurre il rischio di interruzione su scala regionale, considerare un'implementazione multi-regionale. Anche se le distribuzioni in più aree isolano l'utente contro le emergenze a livello di area, vengono a un costo. Le distribuzioni in più aree sono più costose di una distribuzione a singola area e sono più complesse da gestire. Sono necessarie procedure operative per gestire il failover e il failback. A seconda dei requisiti RPO, potrebbe essere necessario accettare prestazioni leggermente inferiori per abilitare la replica dei dati tra aree. I costi e la complessità aggiuntivi potrebbero essere giustificati per alcuni scenari aziendali.

Suggerimento

Per molti carichi di lavoro, un'architettura con ridondanza della zona offre la migliore combinazione di compromessi. Si consideri un'architettura in più aree se i requisiti aziendali indicano che è necessario attenuare il rischio improbabile di un'interruzione a livello di area e se si è pronti ad accettare i compromessi coinvolti in tale approccio.

Per ulteriori informazioni su come progettare la tua soluzione per l'uso delle zone di disponibilità e delle regioni, consulta Linee guida per l'uso delle zone di disponibilità e delle regioni.

Posizionare le macchine virtuali dietro un bilanciatore del carico Non usare una singola macchina virtuale per carichi di lavoro critici, Invece, collocare più macchine virtuali dietro un bilanciatore di carico. In questo modo se una qualsiasi macchina virtuale non è più disponibile, il servizio di bilanciamento del carico distribuirà il traffico alle rimanenti macchine virtuali integre.

Diagramma di VM con bilanciamento del carico

Replicare i database. database SQL di Azure e Azure Cosmos DB replicano automaticamente i dati all'interno di un'area e possono essere configurati per la replica tra zone di disponibilità per una maggiore resilienza. È anche possibile scegliere di abilitare la replica geografica tra aree. La replica geografica per database SQL di Azure e Azure Cosmos DB crea repliche leggibili secondarie dei dati in una o più aree secondarie. Se si verifica un'interruzione nell'area primaria, il database può eseguire il failover nell'area secondaria per le operazioni di scrittura. A seconda della configurazione di replica, è possibile che si verifichi una perdita di dati da transazioni non replicate.

Se si usa una soluzione di database IaaS, scegliere quella che supporta la replica e il failover, ad esempio i gruppi di disponibilità AlwaysOn di SQL Server.

Usare il partizionamento per garantire la disponibilità. Il partizionamento del database viene spesso usato per migliorare la scalabilità, ma può anche consentire di migliorare la disponibilità. Se un frammento si guasta, è comunque possibile raggiungere gli altri frammenti. Un errore in una partizione danneggerà inoltre solo un subset delle transazioni totali.

Testare e convalidare i componenti ridondanti. L'affidabilità trae vantaggio in molti modi dalla semplicità e l'aggiunta di ridondanza può aumentare la complessità. Per garantire che l'aggiunta della ridondanza comporti effettivamente una maggiore disponibilità, è necessario convalidare i fattori seguenti:

Il sistema può rilevare in modo affidabile componenti ridondanti integri e non integri e rimuoverli in modo sicuro e rapido dal pool di componenti?
Il tuo sistema può scalare in modo affidabile le componenti ridondanti, espandendole e riducendole?
Le operazioni di routine, ad hoc e i carichi di lavoro d'emergenza possono gestire la ridondanza?

Soluzioni in più aree

Il diagramma seguente mostra un'applicazione in più aree che usa Gestione traffico di Azure per gestire il failover.

Diagramma dell'utilizzo di Azure Traffic Manager per il failover

Se si usa Gestione Traffico o Azure Front Door in una soluzione multi-area come meccanismo di routing di failover, considerare le raccomandazioni seguenti:

Sincronizzare il failover front-end e back-end. Usare il meccanismo di routing per eseguire il failover del front-end. Se il front-end non è raggiungibile in un'area, il failover instrada le nuove richieste all'area secondaria. A seconda dei componenti back-end e della soluzione di database, potrebbe essere necessario coordinare il failover dei servizi back-end e dei database.

Usare il failover automatico e il failback manuale. Usare l'automazione per il failover, ma non per il failback. Il failback automatico è infatti rischioso perché il passaggio all'area primaria potrebbe avvenire prima che l'area sia completamente integra. Verificare invece che tutti i sottosistemi dell'applicazione siano integri prima di eseguire il failback manuale. È anche consigliabile verificare la coerenza dei dati prima del failback.

A tale scopo, disabilitare l'endpoint primario dopo il failover. Se l'intervallo di monitoraggio dei probe è breve e il numero tollerato di errori è ridotto, il failover e il failback si verificheranno in breve tempo. In alcuni casi, la disabilitazione non verrà completata in tempo. Per evitare il failback non confermato, è consigliabile implementare anche un endpoint di integrità in grado di verificare che tutti i sottosistemi siano integri. Per ulteriori informazioni, consulta il modello di monitoraggio degli endpoint della salute .

Includere la ridondanza per la soluzione di routing. Valutare la possibilità di progettare una soluzione di ridondanza del routing globale per applicazioni Web cruciali.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-04-21