Udostępnij za pośrednictwem


Niezawodność w usłudze Azure HDInsight w usłudze Azure Kubernetes Service

W tym artykule opisano obsługę niezawodności w usłudze Azure HDInsight w usłudze Azure Kubernetes Service (AKS) oraz omówiono zarówno konkretne zalecenia dotyczące niezawodności, jak i odzyskiwanie po awarii oraz ciągłość działania. Aby uzyskać bardziej szczegółowe omówienie zasad niezawodności na platformie Azure, zobacz Niezawodność platformy Azure.

Zalecenia dotyczące niezawodności

Ta sekcja zawiera zalecenia dotyczące uzyskiwania odporności i dostępności. Każde zalecenie należy do jednej z dwóch kategorii:

  • Elementy kondycji obejmują obszary, takie jak elementy konfiguracji i właściwa funkcja głównych składników tworzących obciążenie platformy Azure, takie jak ustawienia konfiguracji zasobów platformy Azure, zależności od innych usług itd.

  • Elementy ryzyka obejmują obszary, takie jak wymagania dotyczące dostępności i odzyskiwania, testowanie, monitorowanie, wdrażanie i inne elementy, które, jeśli nie zostały rozwiązane, zwiększają szanse na problemy w środowisku.

Macierz priorytetów zaleceń dotyczących niezawodności

Każde zalecenie jest oznaczone zgodnie z następującą macierzą priorytetów:

Obraz Priorytet opis
Wys. Wymagana jest natychmiastowa poprawka.
Śred. Poprawka w ciągu 3–6 miesięcy.
Niski Należy przejrzeć.

Podsumowanie zaleceń dotyczących niezawodności

Kategoria Priorytet Zalecenie
Dostępność Zalecenia dotyczące domyślnego i minimalnego rozmiaru maszyny wirtualnej
Automatyczne skalowanie usługi HDInsight w klastrach usługi AKS
Monitorowanie Jak zintegrować się z usługą Log Analytics
Monitorowanie za pomocą rozwiązań Prometheus i Grafana zarządzanych przez platformę Azure
Zabezpieczenia Ograniczanie ruchu do usługi HDInsight w usłudze AKS przy użyciu sieciowej grupy zabezpieczeń

Obsługa strefy dostępności

Strefy dostępności platformy Azure to co najmniej trzy fizycznie oddzielne grupy centrów danych w każdym regionie świadczenia usługi Azure. Centra danych w każdej strefie są wyposażone w niezależną infrastrukturę zasilania, chłodzenia i sieci. W przypadku awarii strefy lokalnej strefy strefy dostępności są zaprojektowane tak, aby w przypadku wystąpienia problemu z jedną strefą usługi regionalne, pojemność i wysoka dostępność są obsługiwane przez pozostałe dwie strefy.

Awarie mogą wahać się od awarii oprogramowania i sprzętu po zdarzenia, takie jak trzęsienia ziemi, powodzie i pożary. Tolerancja awarii jest osiągana z nadmiarowością i logiczną izolacją usług platformy Azure. Aby uzyskać bardziej szczegółowe informacje na temat stref dostępności na platformie Azure, zobacz Regiony i strefy dostępności.

Usługi z obsługą stref dostępności platformy Azure zostały zaprojektowane w celu zapewnienia odpowiedniego poziomu niezawodności i elastyczności. Można je skonfigurować na dwa sposoby. Mogą być strefowo nadmiarowe, z automatyczną replikacją między strefami lub strefami, z wystąpieniami przypiętymi do określonej strefy. Możesz również połączyć te podejścia. Aby uzyskać więcej informacji na temat architektury strefowej i strefowo nadmiarowej, zobacz Zalecenia dotyczące korzystania ze stref dostępności i regionów.

Usługa Azure HDInsight w usłudze AKS obsługuje strefę dostępności dzięki możliwości tworzenia strefowo nadmiarowych pul węzłów usługi Azure Kubernetes Service. Podczas tworzenia można wybrać strefy dostępności do wdrożenia puli klastrów i klastra. Po utworzeniu puli klastra lub klastra nie można zmienić stref dostępności.

Wymagania wstępne

  • Strefy dostępności są obsługiwane tylko w przypadku wersji >puli klastrów = 1.2 i wersji klastra >= 1.2.1.

  • Usługa Azure HDInsight w usłudze AKS ma tylko jedną domyślną jednostkę SKU i obsługuje az, o ile region świadczenia usługi Azure ma obsługę az.

    Poniższe regiony nie obsługują az:

    Ameryka Północna i Południowa Europa Bliski Wschód Afryka Azja i Pacyfik
    Zachodnie stany USA Niemcy Północne
  • Niektóre jednostki SKU maszyn wirtualnych mogą nie obsługiwać wszystkich stref dostępności w regionie. W przypadku wybrania tych jednostek SKU usługa HDInsight w pulach klastrów lub klastrach usługi AKS nie obsługuje odpowiednich stref dostępności.

Ulepszenia umowy SLA

Nie ma żadnych zwiększonych umów SLA dla usługi Azure HDInsight w klastrach usługi AKS z włączonymi strefami dostępności.

Tworzenie zasobu z włączoną strefą dostępności

  • Pule klastrów Możesz wybrać co najmniej jedną strefę dostępności podczas tworzenia puli klastrów po wybraniu regionu.

  • Klastry Można wybrać co najmniej jedną strefę dostępności podczas tworzenia klastra.

Odporność na uszkodzenia

Aby przygotować się do awarii strefy dostępności, zaleca się nadmierną aprowizację pojemności usługi w celu zapewnienia, że klaster może tolerować utratę pojemności z jednej strefy dostępności w dół i nadal działać bez obniżonej wydajności podczas awarii całego obszaru strefy. Jeśli na przykład włączysz 3 strefy dostępności, klaster powinien tolerować 1/3 węzłów w dół (zaokrąglić do najbliższej liczby całkowitej).

Środowisko strefowe w dół

Usługa Azure HDInsight w usłudze AKS jest strefowo nadmiarowa. Podczas awarii całej strefy klient powinien oczekiwać spadku wydajności z powodu spadku pojemności. Klienci nadal mogą tworzyć nowe pule klastrów i klastry w strefach dostępności, które nie mają wpływu. Istniejące klastry mogą działać z ograniczoną pojemnością. Poszczególne zalecenia i najlepsze rozwiązania dotyczące obciążeń typu open source znajdują się w dokumentacji.

Ciągłość biznesowa i odzyskiwanie po awarii

Odzyskiwanie po awarii dotyczy odzyskiwania po wystąpieniu zdarzeń o dużym wpływie, takich jak klęski żywiołowe lub nieudane wdrożenia, które powodują przestoje i utratę danych. Niezależnie od przyczyny najlepszym rozwiązaniem dla awarii jest dobrze zdefiniowany i przetestowany plan odzyskiwania po awarii oraz projekt aplikacji, który aktywnie obsługuje odzyskiwanie po awarii. Zanim zaczniesz myśleć o tworzeniu planu odzyskiwania po awarii, zobacz Zalecenia dotyczące projektowania strategii odzyskiwania po awarii.

Jeśli chodzi o odzyskiwanie po awarii, firma Microsoft korzysta z modelu wspólnej odpowiedzialności. W modelu wspólnej odpowiedzialności firma Microsoft zapewnia dostępność infrastruktury bazowej i usług platformy. Jednocześnie wiele usług platformy Azure nie replikuje automatycznie danych ani nie wraca z regionu, w którym wystąpił błąd, aby przeprowadzić replikację krzyżową do innego regionu z włączoną obsługą. W przypadku tych usług ponosisz odpowiedzialność za skonfigurowanie planu odzyskiwania po awarii, który działa dla obciążenia. Większość usług uruchamianych na platformie Azure jako usługa (PaaS) oferuje funkcje i wskazówki dotyczące obsługi odzyskiwania po awarii. Funkcje specyficzne dla usługi umożliwiają szybkie odzyskiwanie w celu ułatwienia opracowania planu odzyskiwania po awarii.

Usługa Azure HDInsight w usłudze AKS płaszczyzny sterowania i bazy danych są wdrażane w różnych regionach świadczenia usługi Azure. Wśród tych regionów usługa Azure HDInsight w wystąpieniach usługi AKS i wystąpieniach bazy danych jest izolowana. Gdy wystąpi awaria na poziomie regionu, jeden region nie działa. Wszystkie zasoby w tym regionie, w tym rp (dostawca zasobów) usługi Azure HDInsight na płaszczyźnie sterowania usługi AKS, baza danych usługi Azure HDInsight na płaszczyźnie sterowania usługi AKS i wszystkie klastry klientów w tym regionie. W takim przypadku możemy poczekać tylko na zakończenie regionalnej awarii. Gdy awaria strefowa zostanie w pełni odzyskana, usługa Azure HDInsight w usłudze AKS powraca, a wszystkie klastry klientów wracają do normalności. Istnieje możliwość wystąpienia niektórych problemów z powodu niespójności danych po awarii i może być konieczne ręczne naprawienie na podstawie obciążeń aplikacji.

Odzyskiwanie po awarii w wielu regionach

Usługa Azure HDInsight w usłudze AKS obecnie nie obsługuje trybu failover między regionami. Zwiększenie ciągłości działalności biznesowej przy użyciu odzyskiwania po awarii o wysokiej dostępności między regionami wymaga projektów architektury o większej złożoności i wyższych kosztach. Klienci mogą zdecydować się na zaprojektowanie własnego rozwiązania w celu utworzenia kopii zapasowej kluczowych danych i stanu zadania w różnych regionach.

Wykrywanie, powiadamianie i zarządzanie awariami

  • Użyj narzędzi do monitorowania platformy Azure w usłudze HDInsight w usłudze AKS, aby wykryć nietypowe zachowanie w klastrze i ustawić odpowiednie powiadomienia o alertach. Usługę Log Analytics można włączyć na różne sposoby i używać zarządzanej usługi Prometheus z pulpitami nawigacyjnymi usługi Azure Grafana do monitorowania. Aby uzyskać więcej informacji, zobacz Integracja z usługą Azure Monitor.

  • Subskrybuj alerty dotyczące kondycji platformy Azure, aby otrzymywać powiadomienia o problemach z usługą, planowanej konserwacji, kondycji i biuletynach zabezpieczeń dla subskrypcji, usługi lub regionu. Powiadomienia o kondycji, które obejmują przyczynę problemu i zdecydowaną ETA, pomagają lepiej wykonywać tryb failover i powroty po awarii. Aby uzyskać więcej informacji, zobacz Zarządzanie kondycją usługi i dokumentacją usługi Azure Service Health.

Odzyskiwanie po awarii w jednym regionie

Obecnie usługa Azure HDInsight w usłudze AKS ma tylko jedną standardową ofertę usług, a klastry są tworzone w lokalizacji geograficznej z jednym regionem. Klienci są odpowiedzialni za ustawienia odzyskiwania diasterów na podstawie wymagań aplikacji.

Wydajność i proaktywna odporność odzyskiwania po awarii

Usługa Azure HDInsight w usłudze AKS i jej klienci działają w ramach modelu wspólnej odpowiedzialności, co oznacza, że klient musi spełnić wymagania dotyczące odzyskiwania po awarii dla wdrażanej i kontrolującej usługę. Aby zapewnić proaktywne odzyskiwanie, klienci powinni zawsze wstępnie wdrażać pomocnicze, ponieważ nie ma gwarancji pojemności w czasie wpływu na tych, którzy nie wstępnie przydzielili przydziału.

W przeciwieństwie do usługi HDInsight maszyny wirtualne używane w usłudze HDInsight w klastrach usługi AKS wymagają tego samego limitu przydziału co maszyny wirtualne platformy Azure. Aby uzyskać więcej informacji, zobacz Planowanie pojemności.

Aby dowiedzieć się więcej o elementach omówionych w tym artykule, zobacz: