Projektowanie pod kątem wysokiej dostępności za pomocą usługi ExpressRoute

Usługa ExpressRoute została zaprojektowana pod kątem wysokiej dostępności, aby zapewnić łączność sieci prywatnej klasy przewoźnika z zasobami firmy Microsoft. Innymi słowy, w ścieżce usługi ExpressRoute w sieci firmy Microsoft nie ma pojedynczego punktu awarii. Aby zmaksymalizować dostępność, klient i segment dostawcy usług obwodu usługi ExpressRoute powinny być również zaprojektowane pod kątem wysokiej dostępności. W tym artykule najpierw przyjrzyjmy się zagadnieniom dotyczącym architektury sieci na potrzeby tworzenia niezawodnej łączności sieciowej przy użyciu usługi ExpressRoute, a następnie przyjrzyjmy się funkcjom dostrajania, które pomagają zwiększyć wysoką dostępność obwodu usługi ExpressRoute.

Uwaga

Pojęcia opisane w tym artykule mają jednak zastosowanie w przypadku utworzenia obwodu usługi ExpressRoute w ramach Virtual WAN lub poza nim.

Zagadnienia dotyczące architektury

Na poniższej ilustracji przedstawiono zalecany sposób nawiązywania połączenia przy użyciu obwodu usługi ExpressRoute w celu zmaksymalizowania dostępności obwodu usługi ExpressRoute.

1

Aby zapewnić wysoką dostępność, należy zachować nadmiarowość obwodu usługi ExpressRoute w całej sieci kompleksowej. Innymi słowy, należy zachować nadmiarowość w sieci lokalnej i nie powinna naruszać nadmiarowości w sieci dostawcy usług. Utrzymywanie nadmiarowości na minimalnym poziomie oznacza uniknięcie pojedynczych awarii sieci. Nadmiarowe zasilanie i chłodzenie dla urządzeń sieciowych jeszcze bardziej poprawi wysoką dostępność.

Zagadnienia dotyczące projektowania warstwy fizycznej o pierwszej mili

W przypadku przerwania zarówno podstawowych, jak i pomocniczych połączeń obwodów usługi ExpressRoute w tym samym sprzęcie klienta (CPE), narażasz się na wysoką dostępność w sieci lokalnej. Ponadto w przypadku skonfigurowania zarówno połączeń podstawowych, jak i pomocniczych za pośrednictwem tego samego portu cpe (albo przez zakończenie dwóch połączeń w różnych podinterfaces lub scalając dwa połączenia w sieci partnera), zmuszasz partnera do naruszenia wysokiej dostępności w segmencie sieci. Ten kompromis przedstawiono na poniższej ilustracji.

2

Z drugiej strony w przypadku przerwania połączenia podstawowego i pomocniczego obwodów usługi ExpressRoute w różnych lokalizacjach geograficznych może to spowodować naruszenie wydajności sieci łączności. Jeśli ruch jest aktywnie obciążony między połączeniami podstawowymi i pomocniczymi, które są przerywane w różnych lokalizacjach geograficznych, potencjalnie znacząca różnica w opóźnieniu sieci między dwiema ścieżkami spowoduje nieoptymalną wydajność sieci.

Aby zapoznać się z zagadnieniami dotyczącymi projektowania geograficznie nadmiarowego, zobacz Projektowanie pod kątem odzyskiwania po awarii za pomocą usługi ExpressRoute.

Połączenia aktywne-aktywne

Sieć firmy Microsoft jest skonfigurowana do obsługi podstawowych i pomocniczych połączeń obwodów usługi ExpressRoute w trybie aktywny-aktywny. Jednak za pomocą anonsów tras można wymusić działanie nadmiarowych połączeń obwodu usługi ExpressRoute w trybie aktywny-pasywny. Anonsowanie bardziej określonych tras i dołączanie ścieżki AS do protokołu BGP to typowe techniki, które służą do tego, aby jedna ścieżka była preferowana względem innych.

Aby zwiększyć wysoką dostępność, zaleca się obsługę obu połączeń obwodu usługi ExpressRoute w trybie aktywny-aktywny. Jeśli pozwolisz na działanie połączeń w trybie aktywny-aktywny, sieć firmy Microsoft będzie równoważyć obciążenie ruchu między połączeniami dla poszczególnych przepływów.

Uruchomienie podstawowych i pomocniczych połączeń obwodu usługi ExpressRoute w trybie aktywny-pasywny ma ryzyko wystąpienia awarii obu połączeń po awarii w aktywnej ścieżce. Typowe przyczyny niepowodzenia przełączania to brak aktywnego zarządzania pasywnym połączeniem i pasywne anonsowanie nieaktywnych tras połączenia.

Alternatywnie uruchomienie podstawowych i pomocniczych połączeń obwodu usługi ExpressRoute w trybie aktywny-aktywny powoduje niepowodzenie tylko około połowy przepływów i przekierowanie po awarii połączenia usługi ExpressRoute. W związku z tym tryb aktywny-aktywny znacznie pomoże poprawić średni czas odzyskiwania (MTTR).

Uwaga

Podczas działania konserwacyjnego lub w przypadku nieplanowanych zdarzeń wpływających na jedno z połączeń firma Microsoft woli używać ścieżki AS poprzedzającej ruch do połączenia w dobrej kondycji. Należy upewnić się, że ruch jest w stanie kierować przez ścieżkę w dobrej kondycji, gdy prepend ścieżki jest skonfigurowany od firmy Microsoft, a wymagane anonse tras są odpowiednio skonfigurowane, aby uniknąć zakłóceń w działaniu usługi.

Translator adresów sieciowych dla komunikacji równorzędnej firmy Microsoft

Komunikacja równorzędna firmy Microsoft jest przeznaczona do komunikacji między publicznymi punktami końcowymi. Tak często lokalne prywatne punkty końcowe to Translator adresów sieciowych (NATed) z publicznym adresem IP w sieci klienta lub partnera przed komunikacją za pośrednictwem komunikacji równorzędnej firmy Microsoft. Zakładając, że używasz zarówno połączeń podstawowych, jak i pomocniczych w trybie aktywny-aktywny, gdzie i jak translator adresów sieciowych ma wpływ na szybkość odzyskiwania po awarii w jednym z połączeń usługi ExpressRoute. Na poniższym rysunku przedstawiono dwie różne opcje translatora adresów sieciowych:

translatora adresów sieciowych

Opcja 1.

Translator adresów sieciowych jest stosowany po podzieleniu ruchu między połączenia podstawowe i pomocnicze obwodu usługi ExpressRoute. Aby spełnić wymagania stanowe translatora adresów sieciowych, niezależne pule translatorów adresów sieciowych są używane dla urządzeń podstawowych i pomocniczych. Ruch powrotny pojawi się na tym samym urządzeniu brzegowym, za pośrednictwem którego przepływ jest wychodzący.

Jeśli połączenie usługi ExpressRoute nie powiedzie się, możliwość nawiązania połączenia z odpowiednią pulą translatora adresów sieciowych zostanie przerwana. Dlatego wszystkie przerwane przepływy sieciowe muszą zostać ponownie ustanowione za pomocą protokołu TCP lub warstwy aplikacji po odpowiednim przekroczeniu limitu czasu okna. Podczas awarii platforma Azure nie może nawiązać połączenia z serwerami lokalnymi przy użyciu odpowiedniego translatora adresów sieciowych, dopóki łączność nie zostanie przywrócona dla podstawowych lub pomocniczych połączeń obwodu usługi ExpressRoute.

Opcja 2.

Wspólna pula translatora adresów sieciowych jest używana przed podzieleniem ruchu między połączenia podstawowe i pomocnicze obwodu usługi ExpressRoute. Ważne jest, aby rozróżnić wspólną pulę translatora adresów sieciowych przed podzieleniem ruchu nie oznacza, że wprowadzi pojedynczy punkt awarii, ponieważ takie naruszenie wysokiej dostępności.

Pula translatora adresów sieciowych jest dostępna nawet po awarii połączenia podstawowego lub pomocniczego. Dlatego sama warstwa sieci może przekierować pakiety i przyspieszyć odzyskiwanie po awarii.

Uwaga

  • Jeśli używasz opcji TRANSLATOR adresów sieciowych 1 (niezależnych pul translatora adresów sieciowych dla połączeń podstawowych i pomocniczych usługi ExpressRoute) i zamapujesz port adresu IP z jednej puli translatora adresów sieciowych na serwer lokalny, serwer nie będzie dostępny za pośrednictwem obwodu usługi ExpressRoute, gdy odpowiednie połączenie nie powiedzie się.
  • Zakończenie połączeń BGP usługi ExpressRoute na urządzeniach stanowych może spowodować problemy z trybem failover podczas planowanych lub nieplanowanych konserwacji przez firmę Microsoft lub dostawcę usługi ExpressRoute. Należy przetestować konfigurację, aby upewnić się, że ruch będzie działać prawidłowo w trybie failover, a jeśli to możliwe, zakończ sesje protokołu BGP na urządzeniach bezstanowych.

Funkcje dostrajania dla prywatnej komunikacji równorzędnej

W tej sekcji zapoznamy się z opcjonalnymi funkcjami (w zależności od wdrożenia platformy Azure i wrażliwymi funkcjami MTTR), które pomagają zwiększyć wysoką dostępność obwodu usługi ExpressRoute. W szczególności zapoznajmy się z wdrożeniem sieci wirtualnej usługi ExpressRoute obsługującym strefy oraz wykrywaniem przekazywania dwukierunkowego (BFD).

Bramy sieci wirtualnej usługi ExpressRoute obsługujące strefę dostępności

Strefa dostępności w regionie świadczenia usługi Azure jest kombinacją domeny błędów i domeny aktualizacji. Jeśli zdecydujesz się na strefowo nadmiarowe wdrożenie IaaS platformy Azure, możesz również skonfigurować strefowo nadmiarowe bramy sieci wirtualnej, które zakończą prywatną komunikację równorzędną usługi ExpressRoute. Aby dowiedzieć się więcej, zobacz About zone-redundant virtual network gateways in Azure Strefy dostępności (Informacje o strefowo nadmiarowych bramach sieci wirtualnych w usłudze Azure Strefy dostępności). Aby skonfigurować strefowo nadmiarową bramę sieci wirtualnej, zobacz Tworzenie strefowo nadmiarowej bramy sieci wirtualnej w usłudze Azure Strefy dostępności.

Skracanie czasu wykrywania błędów

Usługa ExpressRoute obsługuje BFD za pośrednictwem prywatnej komunikacji równorzędnej. BFD skraca czas wykrywania awarii sieci warstwy 2 między microsoft Enterprise Edge (MSEE) i ich sąsiadami BGP po stronie lokalnej z około 3 minut (ustawienie domyślne) do mniej niż sekundy. Szybki czas wykrywania błędów pomaga przyspieszyć odzyskiwanie po awarii. Aby dowiedzieć się więcej, zobacz Konfigurowanie systemu BFD za pośrednictwem usługi ExpressRoute.

Następne kroki

W tym artykule omówiono sposób projektowania pod kątem wysokiej dostępności łączności obwodu usługi ExpressRoute. Punkt komunikacji równorzędnej obwodu usługi ExpressRoute jest przypięty do lokalizacji geograficznej, co może mieć wpływ na katastrofalną awarię, która ma wpływ na całą lokalizację.

Aby zapoznać się z zagadnieniami projektowymi dotyczącymi tworzenia geograficznie nadmiarowej łączności sieciowej z siecią szkieletową firmy Microsoft, która może wytrzymać katastrofalne awarie, które mają wpływ na cały region, zobacz Projektowanie pod kątem odzyskiwania po awarii za pomocą prywatnej komunikacji równorzędnej usługi ExpressRoute.