Udostępnij za pośrednictwem


Niezawodność w szkoleniach społeczności

Community Training to oparte na platformie Azure rozwiązanie oparte na chmurze, które może dostarczać na dużą skalę, daleko rozłożone programy szkoleniowe o wysokiej jakości i wydajności. Dzięki szkoleniu społeczności organizacje wszystkich rozmiarów i typów mogą uruchamiać programy szkoleniowe na dużą skalę dla swoich społeczności wewnętrznych i zewnętrznych. Społeczności mogą obejmować pracowników pierwszej linii, rozszerzonych pracowników, ekosystem partnerski, sieć wolontariuszy i beneficjentów programu.

W tym artykule opisano obsługę niezawodności w ramach szkolenia społeczności oraz omówiono zarówno odporność regionalną ze strefami dostępności, jak i odzyskiwaniem po awarii oraz ciągłością działania. Aby uzyskać bardziej szczegółowe omówienie zasady niezawodności na platformie Azure, zobacz Niezawodność platformy Azure.

Obsługa strefy dostępności

Strefy dostępności platformy Azure to co najmniej trzy fizycznie oddzielne grupy centrów danych w każdym regionie świadczenia usługi Azure. Centra danych w każdej strefie są wyposażone w niezależną infrastrukturę zasilania, chłodzenia i sieci. W przypadku awarii strefy lokalnej strefy strefy dostępności są zaprojektowane tak, aby w przypadku wystąpienia problemu z jedną strefą usługi regionalne, pojemność i wysoka dostępność są obsługiwane przez pozostałe dwie strefy.

Awarie mogą wahać się od awarii oprogramowania i sprzętu po zdarzenia, takie jak trzęsienia ziemi, powodzie i pożary. Tolerancja awarii jest osiągana z nadmiarowością i logiczną izolacją usług platformy Azure. Aby uzyskać bardziej szczegółowe informacje na temat stref dostępności na platformie Azure, zobacz Regiony i strefy dostępności.

Usługi z obsługą stref dostępności platformy Azure zostały zaprojektowane w celu zapewnienia odpowiedniego poziomu niezawodności i elastyczności. Można je skonfigurować na dwa sposoby. Mogą być strefowo nadmiarowe, z automatyczną replikacją między strefami lub strefami, z wystąpieniami przypiętymi do określonej strefy. Możesz również połączyć te podejścia. Aby uzyskać więcej informacji na temat architektury strefowej i strefowo nadmiarowej, zobacz Rekomendacje na potrzeby korzystania ze stref dostępności i regionów.

Szkolenie społeczności korzysta ze stref dostępności platformy Azure w celu zapewnienia wysokiej dostępności i odporności na uszkodzenia w regionie świadczenia usługi Azure. Szkolenia społeczności oferują obsługę strefy dostępności płaszczyzny danych i kontroli:

  • Płaszczyzna sterowania jest strefowo nadmiarowa w podstawowych regionach dostępności.

  • Płaszczyzna danych może być strefowo lub strefowo nadmiarowa, w zależności od tego, co wybierzesz dla Twoich potrzeb. Zdecydowanie zaleca się jednak wybranie wdrożenia strefowo nadmiarowego w celu uniknięcia utraty danych i utrzymania dostępności usługi podczas przestoju strefy.

Wymagania wstępne

  • Strefy dostępności są obsługiwane dla następujących jednostek SKU szkolenia społeczności:

    • Standardowa (niższa skala użytkowników)
    • Premium (duża skala użytkowników)
  • Szkolenie społeczności jest obsługiwane tylko w sparowanych regionach. Każdy region pomocniczy jest wdrażany z konfiguracją strefową. W poniższej tabeli przedstawiono wszystkie regiony, które obsługują strefy dostępności na potrzeby szkolenia społeczności, wraz z sparowanym regionem.

Region podstawowy Sparowany region
UKSouth UKWest
AustraliaEast AustraliaSoutheast
EastUS WestUS
EastUS2 CentralUS
NorthEurope WestEurope
WestUS3 EastUS
SzwecjaCentral SzwecjaSouth

Obsługa trybu failover strefowego

Szkolenie społeczności korzysta z wielu usług platformy Azure zależności, takich jak App Service i Azure SQL. Po wybraniu strefowo nadmiarowego wdrożenia usługa Community Training tworzy również strefowo nadmiarowe oferty tych podstawowych zasobów usługi platformy Azure. Jeśli jedna strefa ulegnie awarii, wszystkie zasoby, w tym zasoby zależności, przełączą się w tryb failover do jednej ze stref w dobrej kondycji.

Tworzenie zasobu z włączoną strefą dostępności

Szkolenie społeczności zapewnia konfigurację stref dostępności tylko w momencie tworzenia wystąpienia. Jeśli chcesz zmienić konfigurację strefy dostępności po utworzeniu wystąpienia, musisz utworzyć nowe wystąpienie. Aby dowiedzieć się, jak utworzyć wystąpienie szkolenia społeczności, zobacz Tworzenie szkolenia społeczności.

Środowisko strefowe w dół

  • Strefowe. Podczas awarii całej strefy szkolenie społeczności może mieć pełne lub częściowe przerwy w działaniu usługi. Zakres, w jakim jest dostępny, zależy od różnych czynników, takich jak to, czy całe centrum danych nie działa, czy określona usługa zależności nie jest już dostępna w tej strefie.

  • Strefowo nadmiarowy. Podczas awarii całej strefy nie należy mieć żadnego wpływu na aprowizowane zasoby. Należy jednak przygotować się na krótką przerwę w komunikacji z tymi zasobami. W sytuacji w dół strefy klienci zazwyczaj otrzymują kody błędów 409, a także logikę ponawiania prób ponownego nawiązywania połączeń w odpowiednich odstępach czasu. Nowe żądania są kierowane do węzłów w dobrej kondycji z zerowym wpływem na użytkownika. Podczas awarii obejmujących całą strefę użytkownicy mogą tworzyć nowe zasoby i pomyślnie skalować istniejące.

Ciągłość biznesowa i odzyskiwanie po awarii

Odzyskiwanie po awarii dotyczy odzyskiwania po wystąpieniu zdarzeń o dużym wpływie, takich jak klęski żywiołowe lub nieudane wdrożenia, które powodują przestoje i utratę danych. Niezależnie od przyczyny najlepszym rozwiązaniem dla awarii jest dobrze zdefiniowany i przetestowany plan odzyskiwania po awarii oraz projekt aplikacji, który aktywnie obsługuje odzyskiwanie po awarii. Zanim zaczniesz myśleć o tworzeniu planu odzyskiwania po awarii, zobacz Rekomendacje na potrzeby projektowania strategii odzyskiwania po awarii.

Jeśli chodzi o odzyskiwanie po awarii, firma Microsoft korzysta z modelu wspólnej odpowiedzialności. W modelu wspólnej odpowiedzialności firma Microsoft zapewnia dostępność infrastruktury bazowej i usług platformy. Jednocześnie wiele usług platformy Azure nie replikuje automatycznie danych ani nie wraca z regionu, w którym wystąpił błąd, aby przeprowadzić replikację krzyżową do innego regionu z włączoną obsługą. W przypadku tych usług ponosisz odpowiedzialność za skonfigurowanie planu odzyskiwania po awarii, który działa dla obciążenia. Większość usług uruchamianych na platformie Azure jako usługa (PaaS) oferuje funkcje i wskazówki dotyczące obsługi odzyskiwania po awarii. Funkcje specyficzne dla usługi umożliwiają szybkie odzyskiwanie w celu ułatwienia opracowania planu odzyskiwania po awarii.

Zespół szkoleniowy społeczności firmy Microsoft zarządza całą procedurą odzyskiwania po awarii na potrzeby szkolenia społeczności. Odzyskiwanie po awarii nie jest aktywne lub aktywne pasywne, ale jest oparte na odzyskiwaniu z najnowszej dostępnej kopii zapasowej usług platformy Azure. Zespół szkoleniowy społeczności ręcznie tworzy wszystkie zasoby w sparowanym regionie z kopii zapasowej danych.

Uwaga

Odzyskiwanie po awarii szkolenia społeczności jest obsługiwane tylko w sparowanych regionach.

Odzyskiwanie po awarii w lokalizacji geograficznej obejmującej wiele regionów

  • W przypadku awarii regionalnej płaszczyzna sterowania jest ręcznie przełączona w tryb failover do sparowanego regionu. Przed zakończeniem pracy w trybie failover należy spodziewać się obniżenia poziomu usług. Po przejściu w tryb failover obsługiwane są tylko operacje tylko do odczytu, dopóki region awarii nie wróci do trybu online. Usługa jest ręcznie przywracana po awarii do oryginalnego regionu po powrocie do trybu online i wznowieniu wszystkich operacji. Cel punktu odzyskiwania (RPO) powinien wynosić 10 minut; Cel czasu odzyskiwania (RTO), 24 godziny.

  • W przypadku płaszczyzny danych usługa Community Training oferuje zarządzane przez firmę Microsoft odzyskiwanie po awarii. Aby korzystać z zarządzanego odzyskiwania po awarii, należy włączyć odzyskiwanie po awarii podczas tworzenia wystąpienia usługi Community Training na platformie Azure. Po włączeniu odzyskiwania po awarii firma Microsoft przechowuje kopię zapasową magazynu i bazy danych w sparowanym regionie. Cel punktu odzyskiwania (RPO) powinien wynosić 12 godzin; Cel czasu odzyskiwania (RTO), 48 godzin.

Uwaga

Cel czasu odzyskiwania zależy od rozmiaru bazy danych i magazynu, opóźnienia między sparowanym regionem. Pojemność bazy danych lub magazynu maszyny wirtualnej (SKU). Cel punktu odzyskiwania zależy od podstawowych zasobów platformy Azure, takich jak Azure SQL i Azure Storage. Aby uzyskać więcej informacji na temat celu czasu odzyskiwania i celu punktu odzyskiwania, zobacz Omówienie odzyskiwania po awarii.

Wykrywanie, powiadamianie i zarządzanie awariami

Gdy kontrola kondycji szkolenia społeczności wykryje awarię dowolnej usługi i w dowolnym regionie, firma Microsoft zażąda zgody na przejście w tryb failover do sparowanego regionu. Firma Microsoft informuje, które funkcje są dostępne podczas procedury odzyskiwania po awarii. Po otrzymaniu zgody przez firmę Microsoft zespół szkoleniowy społeczności może następnie uruchomić procedurę odzyskiwania po awarii.

Ważne

Osoby uczące się nie będą mogły korzystać z funkcji audio/wideo, dopóki region podstawowy nie będzie działać. Zaleca się unikanie operacji przekazywania multimediów do momentu działania lokacji głównej.

Wydajność i proaktywna odporność odzyskiwania po awarii

Firma Microsoft i jej klienci działają w ramach modelu wspólnej odpowiedzialności. Gdy dowolny region nie działa, nie tylko wystąpienie szkolenia społeczności jest migrowane do sparowanego regionu, ale także wszystkie obciążenia produktów i klientów są również migrowane do sparowanego regionu. Ta procedura może spowodować niedobór zasobów w sparowanym regionie lub centrum danych. W związku z tym dostępność odzyskiwania po awarii zależy od dostępnej pojemności bazowych zasobów platformy Azure.

Następne kroki