Projektowanie pod kątem wysokiej dostępności za pomocą usługi ExpressRoute

Usługa ExpressRoute została zaprojektowana pod kątem wysokiej dostępności, aby zapewnić prywatną łączność sieciową klasy operatora z zasobami firmy Microsoft. Innymi słowy, w ścieżce usługi ExpressRoute w sieci firmy Microsoft nie ma jednego punktu awarii. Aby zmaksymalizować dostępność, klient i segment usługodawcy obwodu usługi ExpressRoute powinny być również zaprojektowane pod kątem wysokiej dostępności. W tym artykule przyjrzyjmy się najpierw zagadnieniom dotyczącym architektury sieci na potrzeby tworzenia niezawodnej łączności sieciowej przy użyciu usługi ExpressRoute, a następnie przyjrzyjmy się funkcjom dostrajania, które pomagają poprawić wysoką dostępność obwodu usługi ExpressRoute.

Uwaga

Pojęcia opisane w tym artykule mają zastosowanie również w przypadku utworzenia obwodu usługi ExpressRoute w usłudze Virtual WAN lub poza nim.

Zagadnienia dotyczące architektury

Na poniższej ilustracji przedstawiono zalecany sposób nawiązywania połączenia przy użyciu obwodu usługi ExpressRoute w celu zmaksymalizowania dostępności obwodu usługi ExpressRoute.

1

W celu zapewnienia wysokiej dostępności niezbędne jest zachowanie nadmiarowości obwodu usługi ExpressRoute w całej sieci kompleksowej. Innymi słowy, należy zachować nadmiarowość w sieci lokalnej i nie powinna naruszać nadmiarowości w sieci dostawcy usług. Utrzymywanie nadmiarowości co najmniej oznacza uniknięcie pojedynczych awarii sieci. Posiadanie nadmiarowego zasilania i chłodzenia dla urządzeń sieciowych dodatkowo zwiększa wysoką dostępność.

Zagadnienia dotyczące projektowania warstwy fizycznej w pierwszej mili

Jeśli zakończysz połączenia podstawowe i pomocnicze obwodów usługi ExpressRoute w tym samym sprzęcie lokalnym klienta (CPE), narażasz się na wysoką dostępność w sieci lokalnej. Ponadto, jeśli skonfigurujesz zarówno połączenia podstawowe, jak i pomocnicze przy użyciu tego samego portu CPE, zmuszasz partnera do naruszenia wysokiej dostępności w segmencie sieci. To zdarzenie może wystąpić, przerywając dwa połączenia w różnych podpowierzchniach lub scalając dwa połączenia w sieci partnera. Ten kompromis przedstawiono na poniższej ilustracji.

2

Z drugiej strony, jeśli zakończysz połączenia podstawowe i pomocnicze obwodów usługi ExpressRoute w różnych lokalizacjach geograficznych, może to spowodować naruszenie wydajności sieci łączności. Jeśli ruch jest aktywnie zrównoważony dla połączeń podstawowych i pomocniczych, które są przerywane w różnych lokalizacjach geograficznych, potencjalna znacząca różnica w opóźnieniu sieci między dwiema ścieżkami spowoduje nieoptymalną wydajność sieci.

Aby zapoznać się z zagadnieniami dotyczącymi projektowania geograficznie nadmiarowego, zobacz Projektowanie pod kątem odzyskiwania po awarii za pomocą usługi ExpressRoute.

Połączenia aktywne-aktywne

Sieć firmy Microsoft jest skonfigurowana do obsługi podstawowych i pomocniczych połączeń obwodów usługi ExpressRoute w trybie aktywny-aktywny. Jednak za pomocą anonsów tras można wymusić działanie nadmiarowych połączeń obwodu usługi ExpressRoute w trybie aktywny-pasywny. Anonsowanie bardziej określonych tras i dołączanie ścieżki AS do protokołu BGP to typowe techniki, które służą do tego, aby jedna ścieżka była preferowana względem innych.

Aby zwiększyć wysoką dostępność, zaleca się obsługę obu połączeń obwodu usługi ExpressRoute w trybie aktywny-aktywny. Jeśli pozwolisz na działanie połączeń w trybie aktywny-aktywny, sieć firmy Microsoft będzie równoważyć obciążenie ruchu między połączeniami dla poszczególnych przepływów.

Uruchomienie podstawowych i pomocniczych połączeń obwodu usługi ExpressRoute w trybie aktywny-pasywny jest narażone na ryzyko wystąpienia awarii obu połączeń po awarii w aktywnej ścieżce. Typowe przyczyny niepowodzenia przełączania to brak aktywnego zarządzania pasywnym połączeniem i ogłaszanie nieaktywnych tras przez pasywne połączenia.

Alternatywnie uruchomienie podstawowych i pomocniczych połączeń obwodu usługi ExpressRoute w trybie aktywny-aktywny powoduje niepowodzenie tylko około połowy przepływów i przekierowanie. W związku z tym połączenie aktywne-aktywne znacznie pomaga poprawić średni czas odzyskiwania (MTTR).

Uwaga

Podczas działania konserwacyjnego lub w przypadku nieplanowanych zdarzeń wpływających na jedno z połączeń firma Microsoft woli używać ścieżki AS poprzedzającej ruch do połączenia w dobrej kondycji. Należy upewnić się, że ruch jest w stanie kierować przez ścieżkę w dobrej kondycji, gdy prepend ścieżki jest konfigurowany z firmy Microsoft, a wymagane anonse tras są odpowiednio skonfigurowane, aby uniknąć zakłóceń w działaniu usługi.

Translator adresów sieciowych dla komunikacji równorzędnej firmy Microsoft

Komunikacja równorzędna firmy Microsoft jest przeznaczona do komunikacji między publicznymi punktami końcowymi. Tak często lokalne prywatne punkty końcowe to przetłumaczone adresy sieciowe (NATed) z publicznym adresem IP w sieci klienta lub partnera przed komunikacją równorzędną firmy Microsoft. Zakładając, że używasz zarówno połączeń podstawowych, jak i pomocniczych w konfiguracji aktywne-aktywne. Gdzie i jak translator adresów sieciowych ma wpływ na szybkość odzyskiwania po awarii w jednym z połączeń usługi ExpressRoute. Na poniższej ilustracji przedstawiono dwie różne opcje NAT:

3

Opcja 1:

Translator adresów sieciowych jest stosowany po podzieleniu ruchu między połączeniami podstawowymi i pomocniczymi obwodu usługi ExpressRoute. Aby spełnić wymagania stanowe translatora adresów sieciowych, niezależne pule nat są używane dla urządzeń podstawowych i pomocniczych. Ruch powrotny dociera do tego samego urządzenia brzegowego, za pośrednictwem którego przepływ jest wychodzący.

Jeśli połączenie usługi ExpressRoute zakończy się niepowodzeniem, połączenie z odpowiednią pulą translatora adresów sieciowych zostanie przerwane. W związku z tym wszystkie przerwane przepływy sieciowe muszą być ponownie ustanowione przez protokół TCP lub przez warstwę aplikacji po odpowiednim przekroczeniu limitu czasu okna. Podczas awarii platforma Azure nie może nawiązać połączenia z serwerami lokalnymi przy użyciu odpowiedniego translatora adresów sieciowych, dopóki łączność nie zostanie przywrócona dla połączeń podstawowych lub pomocniczych obwodu usługi ExpressRoute.

Opcja 2.

Wspólna pula translatora adresów sieciowych jest używana przed podzieleniem ruchu między połączeniami podstawowymi i pomocniczymi obwodu usługi ExpressRoute. Ważne jest, aby rozróżnić wspólną pulę translatorów adresów sieciowych przed podzieleniem ruchu, nie oznacza to, że wprowadza pojedynczy punkt awarii, taki jak naruszenie wysokiej dostępności.

Pula translatora adresów sieciowych jest osiągalna nawet po awarii połączenia podstawowego lub pomocniczego. Dlatego sama warstwa sieciowa może przekierować pakiety i pomóc w szybszym odzyskiwaniu po awarii.

Uwaga

  • Jeśli używasz opcji TRANSLATOR adresów sieciowych 1 (niezależnych pul translatora adresów sieciowych dla połączeń podstawowych i pomocniczych usługi ExpressRoute) i zamapujesz port adresu IP z jednej puli translatora adresów sieciowych na serwer lokalny, serwer nie będzie dostępny za pośrednictwem obwodu usługi ExpressRoute, gdy odpowiednie połączenie zakończy się niepowodzeniem.
  • Kończenie połączeń BGP usługi ExpressRoute na urządzeniach stanowych może powodować problemy z trybem failover podczas planowanych lub nieplanowanych konserwacji przez firmę Microsoft lub dostawcę usługi ExpressRoute. Należy przetestować konfigurację, aby upewnić się, że ruch będzie działać prawidłowo w trybie failover i jeśli to możliwe, zakończyć sesje protokołu BGP na urządzeniach bezstanowych.

Precyzyjne dostrajanie funkcji prywatnej komunikacji równorzędnej

W tej sekcji przejrzyjmy opcjonalne (w zależności od wdrożenia platformy Azure i tego, jak wrażliwe są funkcje MTTR), które pomagają zwiększyć wysoką dostępność obwodu usługi ExpressRoute. W szczególności przejrzyjmy wdrożenie bram sieci wirtualnej usługi ExpressRoute z obsługą stref i dwukierunkowe wykrywanie przekazywania (BFD).

Bramy sieci wirtualnej usługi ExpressRoute obsługujące strefę dostępności

Strefa dostępności w regionie świadczenia usługi Azure jest kombinacją domeny błędów i domeny aktualizacji. Aby uzyskać najwyższą odporność i dostępność, należy skonfigurować strefowo nadmiarową bramę sieci wirtualnej usługi ExpressRoute. Aby dowiedzieć się więcej, zobacz About zone-redundant virtual network gateways in Azure Strefy dostępności (Informacje o strefowo nadmiarowych bramach sieci wirtualnych na platformie Azure Strefy dostępności). Aby skonfigurować strefowo nadmiarową bramę sieci wirtualnej, zobacz Tworzenie strefowo nadmiarowej bramy sieci wirtualnej w usłudze Azure Strefy dostępności.

Skracanie czasu wykrywania błędów

Usługa ExpressRoute obsługuje BFD za pośrednictwem prywatnej komunikacji równorzędnej. BFD skraca czas wykrywania awarii w sieci warstwy 2 między microsoft Enterprise Edge (MSEE) i ich sąsiadami BGP po stronie lokalnej z około 3 minut (ustawienie domyślne) do mniej niż sekundy. Szybki czas wykrywania błędów pomaga przyspieszyć odzyskiwanie po awarii. Aby dowiedzieć się więcej, zobacz Konfigurowanie BFD za pośrednictwem usługi ExpressRoute.

Następne kroki

W tym artykule omówiono sposób projektowania pod kątem wysokiej dostępności łączności obwodu usługi ExpressRoute. Punkt komunikacji równorzędnej obwodu usługi ExpressRoute jest przypięty do lokalizacji geograficznej i w związku z tym może mieć wpływ na katastrofalne awarie wpływające na całą lokalizację.

Aby zapoznać się z zagadnieniami projektowymi dotyczącymi tworzenia geograficznie nadmiarowej łączności sieciowej z siecią szkieletową firmy Microsoft, która może wytrzymać katastrofalne awarie, które mają wpływ na cały region, zobacz Projektowanie pod kątem odzyskiwania po awarii za pomocą prywatnej komunikacji równorzędnej usługi ExpressRoute.