Projetando para alta disponibilidade com o ExpressRoute

O ExpressRoute foi concebido para elevada disponibilidade para oferecer conectividade de rede privada de nível de operadora aos recursos da Microsoft. Por outras palavras, não há um ponto único de falha no caminho do ExpressRoute na rede da Microsoft. Para maximizar a disponibilidade, o segmento do cliente e do fornecedor de serviços do seu circuito de ExpressRoute também deve ser arquitetado para elevada disponibilidade. Neste artigo, primeiro vamos examinar as considerações de arquitetura de rede para criar conectividade de rede robusta usando uma Rota Expressa e, em seguida, vamos examinar os recursos de ajuste fino que ajudam você a melhorar a alta disponibilidade do seu circuito de Rota Expressa.

Nota

Os conceitos descritos neste artigo se aplicam igualmente quando um circuito de Rota Expressa é criado em WAN Virtual ou fora dela.

Considerações sobre arquitetura

A figura a seguir ilustra a maneira recomendada de se conectar usando um circuito ExpressRoute para maximizar a disponibilidade de um circuito ExpressRoute.

1

Para alta disponibilidade, é essencial manter a redundância do circuito ExpressRoute em toda a rede de ponta a ponta. Em outras palavras, você precisa manter a redundância em sua rede local e não deve comprometer a redundância em sua rede de provedor de serviços. Manter a redundância no mínimo implica evitar falhas de ponto único de rede. Ter alimentação e refrigeração redundantes para os dispositivos de rede melhora ainda mais a alta disponibilidade.

Considerações sobre o projeto da camada física da primeira milha

Se você encerrar as conexões primária e secundária de um circuito de Rota Expressa no mesmo CPE (Customer Premises Equipment), estará comprometendo a alta disponibilidade em sua rede local. Além disso, se você configurar as conexões primária e secundária usando a mesma porta de um CPE, estará forçando o parceiro a comprometer a alta disponibilidade em seu segmento de rede também. Esse evento pode acontecer encerrando as duas conexões em subinterfaces diferentes ou mesclando as duas conexões dentro da rede de parceiros. Este compromisso é ilustrado na figura seguinte.

2

Por outro lado, se você encerrar as conexões primária e secundária de um circuito de Rota Expressa em diferentes localizações geográficas, poderá estar comprometendo o desempenho de rede da conectividade. Se o tráfego estiver ativamente com balanceamento de carga entre as conexões primária e secundária que são terminadas em locais geográficos diferentes, a diferença substancial potencial na latência da rede entre os dois caminhos resultaria em um desempenho de rede abaixo do ideal.

Para obter considerações de design com redundância geográfica, consulte Projetando para recuperação de desastres com a Rota Expressa.

Conexões ativo-ativo

A rede Microsoft está configurada para operar as ligações primárias e secundárias dos circuitos ExpressRoute no modo ativo-ativo. No entanto, através dos anúncios de rota, pode forçar as ligações redundantes de um circuito ExpressRoute a operar no modo ativo-passivo. Anunciar rotas mais específicas e a preferência do caminho AS do BGP são as técnicas comuns utilizadas para tornar um caminho preferido em relação a outro.

Para melhorar a elevada disponibilidade, recomenda-se operar ambas as ligações de um circuito ExpressRoute em modo ativo-ativo. Se deixar que as ligações funcionem em modo ativo-ativo, o balanceamento de carga na rede da Microsoft vai balancear o tráfego entre as ligações com base em fluxo.

A execução das ligações primária e secundária de um circuito do ExpressRoute no modo ativo-passivo enfrenta o risco de ambas as ligações falharem após uma falha no caminho ativo. As causas comuns para a falha na mudança são a falta de gestão ativa da ligação passiva e a ligação passiva a anunciar rotas obsoletas.

Como alternativa, a execução das ligações primária e secundária de um circuito do ExpressRoute no modo ativo-ativo resulta em apenas cerca de metade dos fluxos a falhar e a ser redirecionados. Portanto, uma ligação ativo-ativo ajuda significativamente a melhorar o Tempo Médio de Recuperação (MTTR).

Nota

Durante uma atividade de manutenção ou em caso de eventos não planejados que afetem uma das conexões, a Microsoft preferirá usar o caminho AS pendente para drenar o tráfego para a conexão íntegra. Você precisará garantir que o tráfego seja capaz de rotear pelo caminho íntegro quando a previsão de caminho for configurada pela Microsoft e os anúncios de rota necessários forem configurados adequadamente para evitar qualquer interrupção do serviço.

NAT para emparelhamento da Microsoft

O emparelhamento da Microsoft foi projetado para comunicação entre pontos de extremidade públicos. Assim, comumente, os pontos de extremidade privados locais são NATed (Network Address Converted) com IP público na rede do cliente ou parceiro antes de se comunicarem por emparelhamento da Microsoft. Supondo que você use as conexões primária e secundária em uma configuração ativa-ativa. Onde e como seu NAT tem um efeito sobre a rapidez com que você se recupera após uma falha em uma das conexões da Rota Expressa. Duas opções diferentes de NAT são ilustradas na figura a seguir:

3

Opção 1:

O NAT é aplicado depois de dividir o tráfego entre as conexões primária e secundária do circuito ExpressRoute. Para atender aos requisitos de estado do NAT, pools NAT independentes são usados para os dispositivos primários e secundários. O tráfego de retorno chega no mesmo dispositivo de borda pelo qual o fluxo saiu.

Se a conexão da Rota Expressa falhar, a capacidade de alcançar o pool de NAT correspondente será interrompida. Portanto, todos os fluxos de rede quebrados têm que ser restabelecidos pelo TCP ou pela camada de aplicativo após o tempo limite da janela correspondente. Durante a falha, o Azure não pode acessar os servidores locais usando o NAT correspondente até que a conectividade tenha sido restaurada para as conexões primárias ou secundárias do circuito de Rota Expressa.

Opção 2:

Um pool NAT comum é usado antes de dividir o tráfego entre as conexões primária e secundária do circuito ExpressRoute. É importante fazer a distinção de que o pool NAT comum antes de dividir o tráfego não significa que ele introduz um único ponto de falha como tal, comprometendo a alta disponibilidade.

O pool NAT pode ser acessado mesmo após a falha da conexão primária ou secundária. Assim, a própria camada de rede pode redirecionar os pacotes e ajudar a recuperar mais rapidamente após uma falha.

Nota

  • Se você usar a opção NAT 1 (pools NAT independentes para conexões ExpressRoute primárias e secundárias) e mapear uma porta de um endereço IP de um pool de NAT para um servidor local, o servidor não poderá ser acessado pelo circuito ExpressRoute quando a conexão correspondente falhar.
  • Encerrar as ligações BGP do ExpressRoute em dispositivos com monitorização de estado pode causar problemas na ativação pós-falha durante as manutenções planeadas ou não planeadas pela Microsoft ou pelo Fornecedor do ExpressRoute. Deverá testar a configuração para garantir que o tráfego fará a ativação pós-falha corretamente e, quando possível, encerrar as sessões BGP nos dispositivos sem monitorização de estado.

Recursos de ajuste fino para emparelhamento privado

Nesta seção, vamos analisar os recursos opcionais (dependendo da sua implantação do Azure e de quão sensível você é ao MTTR) que ajudam a melhorar a alta disponibilidade do seu circuito de Rota Expressa. Especificamente, vamos analisar a implantação com reconhecimento de zona de gateways de rede virtual ExpressRoute e BFD (Bidirectional Forwarding Detection).

Gateways de rede virtual ExpressRoute com reconhecimento de zona de disponibilidade

Uma zona de disponibilidade em uma região do Azure é uma combinação de um domínio de falha e um domínio de atualização. Para obter a mais alta resiliência e disponibilidade, você deve configurar um gateway de rede virtual ExpressRoute com redundância de zona. Para saber mais, consulte Sobre gateways de rede virtual com redundância de zona nas Zonas de Disponibilidade do Azure. Para configurar um gateway de rede virtual com redundância de zona, consulte Criar um gateway de rede virtual com redundância de zona nas Zonas de Disponibilidade do Azure.

Melhorar o tempo de deteção de falhas

O ExpressRoute suporta BFD sobre emparelhamento privado. O BFD reduz o tempo de deteção de falha na rede de Camada 2 entre Microsoft Enterprise Edge (MSEEs) e seus vizinhos BGP no lado local de cerca de 3 minutos (padrão) para menos de um segundo. O rápido tempo de deteção de falhas ajuda a acelerar a recuperação de falhas. Para saber mais, consulte Configurar o BFD sobre a Rota Expressa.

Próximos passos

Neste artigo, discutimos como projetar para alta disponibilidade de uma conectividade de circuito de Rota Expressa. Um ponto de emparelhamento de circuito de Rota Expressa é fixado a uma localização geográfica e, portanto, é afetado por uma falha catastrófica que afeta todo o local.

Para obter considerações de design para criar conectividade de rede com redundância geográfica para o backbone da Microsoft que pode resistir a falhas catastróficas, que afetam uma região inteira, consulte Projetando para recuperação de desastres com emparelhamento privado da Rota Expressa.