Progettazione per la disponibilità elevata con ExpressRoute

ExpressRoute è progettato per la disponibilità elevata per fornire connettività di rete privata di livello carrier alle risorse Microsoft. In altre parole, non esiste un singolo punto di errore nel percorso ExpressRoute all'interno della rete Microsoft. Per ottimizzare la disponibilità, è necessario progettare anche il segmento del cliente e del provider di servizi del circuito ExpressRoute per la disponibilità elevata. In questo articolo verranno esaminate innanzitutto le considerazioni sull'architettura di rete per la creazione di una connettività di rete affidabile tramite ExpressRoute, quindi verranno esaminate le funzionalità di ottimizzazione che consentono di migliorare la disponibilità elevata del circuito ExpressRoute.

Nota

I concetti descritti in questo articolo si applicano allo stesso modo sia che il circuito ExpressRoute venga creato nella rete WAN virtuale o all'esterno di essa.

Considerazioni sull'architettura

La figura seguente illustra il modo consigliato per connettersi usando un circuito ExpressRoute per ottimizzare la disponibilità di un circuito ExpressRoute.

1

Per la disponibilità elevata, è essenziale mantenere la ridondanza del circuito ExpressRoute in tutta la rete end-to-end. In altre parole, è necessario mantenere la ridondanza all'interno della rete locale e non compromettere la ridondanza all'interno della rete del provider di servizi. Mantenere la ridondanza al minimo implica l'evitare singoli punti di errore di rete. L'alimentazione e il raffreddamento ridondanti per i dispositivi di rete migliorano ulteriormente la disponibilità elevata.

Considerazioni sulla progettazione del livello fisico del primo miglio

Se si terminano sia le connessioni primarie che secondarie di un circuito ExpressRoute nella stessa attrezzatura locale (CPE), si compromette la disponibilità elevata all'interno della rete locale. Inoltre, se si configurano sia le connessioni primarie che secondarie usando la stessa porta di un CPE, si impone al partner di compromettere anche la disponibilità elevata nel segmento di rete. Questo evento può verificarsi terminando le due connessioni in sottointerfazioni diverse o unendo le due connessioni all'interno della rete partner. Questa compromissione è illustrata nella figura seguente.

2

D'altra parte, se si terminano le connessioni primarie e secondarie di un circuito ExpressRoute in posizioni geografiche diverse, è possibile compromettere le prestazioni di rete della connettività. Se il traffico viene attivamente bilanciato tra le connessioni primarie e secondarie che vengono terminate in posizioni geografiche diverse, la potenziale differenza nella latenza di rete tra i due percorsi comporta prestazioni di rete non ottimali.

Per considerazioni sulla progettazione con ridondanza geografica, vedere Progettazione per il ripristino di emergenza con ExpressRoute.

Connessioni attive

La rete Microsoft è configurata per il funzionamento delle connessioni primarie e secondarie dei circuiti ExpressRoute in modalità attivo-attivo. Tuttavia, tramite gli annunci della route, è possibile forzare il funzionamento delle connessioni ridondanti di un circuito ExpressRoute in modalità attivo-passivo. Annunciare percorsi più specifici e anteporre il percorso AS BGP è alla base delle comuni tecniche usate per rendere un percorso preferito rispetto all'altro.

Per migliorare la disponibilità elevata, è consigliabile usare entrambe le connessioni di un circuito ExpressRoute in modalità attivo-attivo. Se si consente il funzionamento delle connessioni in modalità attivo/attivo, la rete Microsoft bilancerà il carico del traffico tra le connessioni in base al flusso.

L'esecuzione delle connessioni primarie e secondarie di un circuito ExpressRoute in modalità attivo/passivo comporta il rischio che entrambe le connessioni non riescano a causa di un errore nel percorso attivo. Le cause comuni dell'errore di commutazione sono la mancanza di gestione attiva della connessione passiva e le route non aggiornate della connessione passiva.

In alternativa, l'esecuzione delle connessioni primarie e secondarie di un circuito ExpressRoute in modalità attivo/attivo comporta solo circa la metà dei flussi con esito negativo e reindirizzamento. Pertanto, una connessione attiva/attiva contribuisce significativamente a migliorare il tempo medio di recupero (MTTR).

Nota

Durante un'attività di manutenzione o in caso di eventi non pianificati che incidono su una delle connessioni, Microsoft preferisce usare l'anteposizione del percorso AS per trasferire il traffico sulla connessione integra. È necessario assicurarsi che il traffico possa essere instradato sul percorso integro quando è configurata l'anteposizione del percorso da Microsoft e che gli annunci di route necessari siano configurati in modo appropriato per evitare interruzioni del servizio.

NAT per il peering Microsoft

Il peering Microsoft è progettato per la comunicazione tra endpoint pubblici. Pertanto, in genere, gli endpoint privati locali sono Network Address Translated (NATed) con indirizzo IP pubblico nel cliente o nella rete partner prima di comunicare tramite peering Microsoft. Supponendo di usare sia le connessioni primarie che secondarie in una configurazione attiva-attiva. Dove e come NAT influisce sulla velocità di ripristino in seguito a un errore in una delle connessioni ExpressRoute. Nella figura seguente sono illustrate due diverse opzioni NAT:

3

Opzione 1:

NAT viene applicato dopo la suddivisione del traffico tra le connessioni primarie e secondarie del circuito ExpressRoute. Per soddisfare i requisiti con stato di NAT, vengono usati pool NAT indipendenti per i dispositivi primari e secondari. Il traffico di ritorno arriva sullo stesso dispositivo perimetrale attraverso il quale il flusso è in uscita.

Se la connessione ExpressRoute non riesce, la possibilità di raggiungere il pool NAT corrispondente viene interrotta. Pertanto, tutti i flussi di rete interrotti devono essere ristabiliti da TCP o dal livello applicazione dopo il timeout della finestra corrispondente. Durante l'errore, Azure non riesce a raggiungere i server locali usando il nat corrispondente fino a quando non viene ripristinata la connettività per le connessioni primarie o secondarie del circuito ExpressRoute.

Opzione 2:

Un pool NAT comune viene usato prima di suddividere il traffico tra le connessioni primarie e secondarie del circuito ExpressRoute. È importante fare la distinzione che il pool NAT comune prima di suddividere il traffico non significa che introduce un singolo punto di errore, ad esempio compromettendo la disponibilità elevata.

Il pool NAT è raggiungibile anche dopo l'esito negativo della connessione primaria o secondaria. Quindi il livello di rete stesso può reindirizzare i pacchetti e aiutare a recuperare più velocemente dopo un errore.

Nota

  • Se si usa l'opzione NAT 1 (pool NAT indipendenti per le connessioni ExpressRoute primarie e secondarie) e si esegue il mapping di una porta di un indirizzo IP da uno del pool NAT a un server locale, il server non sarà raggiungibile tramite il circuito ExpressRoute quando la connessione corrispondente non riesce.
  • L'interruzione delle connessioni BGP ExpressRoute nei dispositivi con stato può causare problemi con il failover durante le operazioni di manutenzione pianificate o non pianificate da Microsoft o dal provider ExpressRoute. È consigliabile testare la configurazione per assicurarsi che il failover del traffico venga eseguito correttamente e, quando possibile, terminare le sessioni BGP nei dispositivi senza stato.

Ottimizzazione delle funzionalità per il peering privato

In questa sezione verrà esaminata l'opzione facoltativa (a seconda della distribuzione di Azure e della sensibilità delle funzionalità MTTR) che consentono di migliorare la disponibilità elevata del circuito ExpressRoute. In particolare, esaminiamo la distribuzione con riconoscimento della zona dei gateway di rete virtuale ExpressRoute e il rilevamento dell'inoltro bidirezionale (BFD).

Gateway di rete virtuale ExpressRoute con riconoscimento della zona di disponibilità

Una zona di disponibilità in un'area di Azure è una combinazione di un dominio di errore e un dominio di aggiornamento. Per ottenere la massima resilienza e disponibilità, è necessario configurare un gateway di rete virtuale ExpressRoute con ridondanza della zona. Per altre informazioni, vedere Informazioni sui gateway di rete virtuale con ridondanza della zona in Azure zone di disponibilità. Per configurare un gateway di rete virtuale con ridondanza della zona, vedere Creare un gateway di rete virtuale con ridondanza della zona in Azure zone di disponibilità.

Miglioramento del tempo di rilevamento degli errori

ExpressRoute supporta BFD tramite peering privato. BFD riduce il tempo di rilevamento dell'errore sulla rete di livello 2 tra Microsoft Enterprise Edge (M edizione Standard Es) e i relativi vicini BGP sul lato locale da circa 3 minuti (impostazione predefinita) a meno di un secondo. Il tempo di rilevamento rapido degli errori consente di accelerare il ripristino degli errori. Per altre informazioni, vedere Configurare BFD su ExpressRoute.

Passaggi successivi

In questo articolo è stato illustrato come progettare per la disponibilità elevata di una connettività del circuito ExpressRoute. Un punto di peering del circuito ExpressRoute viene aggiunto a una posizione geografica e quindi viene influenzato da un errore irreversibile che influisce sull'intera posizione.

Per considerazioni sulla progettazione per la creazione di connettività di rete con ridondanza geografica al backbone Microsoft che può resistere a errori irreversibili, che interessano un'intera area, vedere Progettazione per il ripristino di emergenza con il peering privato di ExpressRoute.