Niezawodność w usłudze Azure HDInsight w usłudze Azure Kubernetes Service
W tym artykule opisano obsługę niezawodności w usłudze Azure HDInsight w usłudze Azure Kubernetes Service (AKS) oraz omówiono zarówno konkretne zalecenia dotyczące niezawodności, jak i odzyskiwanie po awarii oraz ciągłość działania. Aby uzyskać bardziej szczegółowe omówienie zasad niezawodności na platformie Azure, zobacz Niezawodność platformy Azure.
Zalecenia dotyczące niezawodności
Ta sekcja zawiera zalecenia dotyczące uzyskiwania odporności i dostępności. Każde zalecenie należy do jednej z dwóch kategorii:
Elementy kondycji obejmują obszary, takie jak elementy konfiguracji i właściwa funkcja głównych składników tworzących obciążenie platformy Azure, takie jak ustawienia konfiguracji zasobów platformy Azure, zależności od innych usług itd.
Elementy ryzyka obejmują obszary, takie jak wymagania dotyczące dostępności i odzyskiwania, testowanie, monitorowanie, wdrażanie i inne elementy, które, jeśli nie zostały rozwiązane, zwiększają szanse na problemy w środowisku.
Macierz priorytetów zaleceń dotyczących niezawodności
Każde zalecenie jest oznaczone zgodnie z następującą macierzą priorytetów:
Obraz | Priorytet | opis |
---|---|---|
Wys. | Wymagana jest natychmiastowa poprawka. | |
Śred. | Poprawka w ciągu 3–6 miesięcy. | |
Niski | Należy przejrzeć. |
Podsumowanie zaleceń dotyczących niezawodności
Obsługa strefy dostępności
Strefy dostępności platformy Azure to co najmniej trzy fizycznie oddzielne grupy centrów danych w każdym regionie świadczenia usługi Azure. Centra danych w każdej strefie są wyposażone w niezależną infrastrukturę zasilania, chłodzenia i sieci. W przypadku awarii strefy lokalnej strefy strefy dostępności są zaprojektowane tak, aby w przypadku wystąpienia problemu z jedną strefą usługi regionalne, pojemność i wysoka dostępność są obsługiwane przez pozostałe dwie strefy.
Awarie mogą wahać się od awarii oprogramowania i sprzętu po zdarzenia, takie jak trzęsienia ziemi, powodzie i pożary. Tolerancja awarii jest osiągana z nadmiarowością i logiczną izolacją usług platformy Azure. Aby uzyskać bardziej szczegółowe informacje na temat stref dostępności na platformie Azure, zobacz Regiony i strefy dostępności.
Usługi z obsługą stref dostępności platformy Azure zostały zaprojektowane w celu zapewnienia odpowiedniego poziomu niezawodności i elastyczności. Można je skonfigurować na dwa sposoby. Mogą być strefowo nadmiarowe, z automatyczną replikacją między strefami lub strefami, z wystąpieniami przypiętymi do określonej strefy. Możesz również połączyć te podejścia. Aby uzyskać więcej informacji na temat architektury strefowej i strefowo nadmiarowej, zobacz Zalecenia dotyczące korzystania ze stref dostępności i regionów.
Usługa Azure HDInsight w usłudze AKS obsługuje strefę dostępności dzięki możliwości tworzenia strefowo nadmiarowych pul węzłów usługi Azure Kubernetes Service. Podczas tworzenia można wybrać strefy dostępności do wdrożenia puli klastrów i klastra. Po utworzeniu puli klastra lub klastra nie można zmienić stref dostępności.
Wymagania wstępne
Strefy dostępności są obsługiwane tylko w przypadku wersji >puli klastrów =
1.2
i wersji klastra >=1.2.1
.Usługa Azure HDInsight w usłudze AKS ma tylko jedną domyślną jednostkę SKU i obsługuje az, o ile region świadczenia usługi Azure ma obsługę az.
Poniższe regiony nie obsługują az:
Ameryka Północna i Południowa Europa Bliski Wschód Afryka Azja i Pacyfik Zachodnie stany USA Niemcy Północne Niektóre jednostki SKU maszyn wirtualnych mogą nie obsługiwać wszystkich stref dostępności w regionie. W przypadku wybrania tych jednostek SKU usługa HDInsight w pulach klastrów lub klastrach usługi AKS nie obsługuje odpowiednich stref dostępności.
Ulepszenia umowy SLA
Nie ma żadnych zwiększonych umów SLA dla usługi Azure HDInsight w klastrach usługi AKS z włączonymi strefami dostępności.
Tworzenie zasobu z włączoną strefą dostępności
Pule klastrów Możesz wybrać co najmniej jedną strefę dostępności podczas tworzenia puli klastrów po wybraniu regionu.
Klastry Można wybrać co najmniej jedną strefę dostępności podczas tworzenia klastra.
Odporność na uszkodzenia
Aby przygotować się do awarii strefy dostępności, zaleca się nadmierną aprowizację pojemności usługi w celu zapewnienia, że klaster może tolerować utratę pojemności z jednej strefy dostępności w dół i nadal działać bez obniżonej wydajności podczas awarii całego obszaru strefy. Jeśli na przykład włączysz 3 strefy dostępności, klaster powinien tolerować 1/3 węzłów w dół (zaokrąglić do najbliższej liczby całkowitej).
Środowisko strefowe w dół
Usługa Azure HDInsight w usłudze AKS jest strefowo nadmiarowa. Podczas awarii całej strefy klient powinien oczekiwać spadku wydajności z powodu spadku pojemności. Klienci nadal mogą tworzyć nowe pule klastrów i klastry w strefach dostępności, które nie mają wpływu. Istniejące klastry mogą działać z ograniczoną pojemnością. Poszczególne zalecenia i najlepsze rozwiązania dotyczące obciążeń typu open source znajdują się w dokumentacji.
Ciągłość biznesowa i odzyskiwanie po awarii
Odzyskiwanie po awarii dotyczy odzyskiwania po wystąpieniu zdarzeń o dużym wpływie, takich jak klęski żywiołowe lub nieudane wdrożenia, które powodują przestoje i utratę danych. Niezależnie od przyczyny najlepszym rozwiązaniem dla awarii jest dobrze zdefiniowany i przetestowany plan odzyskiwania po awarii oraz projekt aplikacji, który aktywnie obsługuje odzyskiwanie po awarii. Zanim zaczniesz myśleć o tworzeniu planu odzyskiwania po awarii, zobacz Zalecenia dotyczące projektowania strategii odzyskiwania po awarii.
Jeśli chodzi o odzyskiwanie po awarii, firma Microsoft korzysta z modelu wspólnej odpowiedzialności. W modelu wspólnej odpowiedzialności firma Microsoft zapewnia dostępność infrastruktury bazowej i usług platformy. Jednocześnie wiele usług platformy Azure nie replikuje automatycznie danych ani nie wraca z regionu, w którym wystąpił błąd, aby przeprowadzić replikację krzyżową do innego regionu z włączoną obsługą. W przypadku tych usług ponosisz odpowiedzialność za skonfigurowanie planu odzyskiwania po awarii, który działa dla obciążenia. Większość usług uruchamianych na platformie Azure jako usługa (PaaS) oferuje funkcje i wskazówki dotyczące obsługi odzyskiwania po awarii. Funkcje specyficzne dla usługi umożliwiają szybkie odzyskiwanie w celu ułatwienia opracowania planu odzyskiwania po awarii.
Usługa Azure HDInsight w usłudze AKS płaszczyzny sterowania i bazy danych są wdrażane w różnych regionach świadczenia usługi Azure. Wśród tych regionów usługa Azure HDInsight w wystąpieniach usługi AKS i wystąpieniach bazy danych jest izolowana. Gdy wystąpi awaria na poziomie regionu, jeden region nie działa. Wszystkie zasoby w tym regionie, w tym rp (dostawca zasobów) usługi Azure HDInsight na płaszczyźnie sterowania usługi AKS, baza danych usługi Azure HDInsight na płaszczyźnie sterowania usługi AKS i wszystkie klastry klientów w tym regionie. W takim przypadku możemy poczekać tylko na zakończenie regionalnej awarii. Gdy awaria strefowa zostanie w pełni odzyskana, usługa Azure HDInsight w usłudze AKS powraca, a wszystkie klastry klientów wracają do normalności. Istnieje możliwość wystąpienia niektórych problemów z powodu niespójności danych po awarii i może być konieczne ręczne naprawienie na podstawie obciążeń aplikacji.
Odzyskiwanie po awarii w wielu regionach
Usługa Azure HDInsight w usłudze AKS obecnie nie obsługuje trybu failover między regionami. Zwiększenie ciągłości działalności biznesowej przy użyciu odzyskiwania po awarii o wysokiej dostępności między regionami wymaga projektów architektury o większej złożoności i wyższych kosztach. Klienci mogą zdecydować się na zaprojektowanie własnego rozwiązania w celu utworzenia kopii zapasowej kluczowych danych i stanu zadania w różnych regionach.
Wykrywanie, powiadamianie i zarządzanie awariami
Użyj narzędzi do monitorowania platformy Azure w usłudze HDInsight w usłudze AKS, aby wykryć nietypowe zachowanie w klastrze i ustawić odpowiednie powiadomienia o alertach. Usługę Log Analytics można włączyć na różne sposoby i używać zarządzanej usługi Prometheus z pulpitami nawigacyjnymi usługi Azure Grafana do monitorowania. Aby uzyskać więcej informacji, zobacz Integracja z usługą Azure Monitor.
Subskrybuj alerty dotyczące kondycji platformy Azure, aby otrzymywać powiadomienia o problemach z usługą, planowanej konserwacji, kondycji i biuletynach zabezpieczeń dla subskrypcji, usługi lub regionu. Powiadomienia o kondycji, które obejmują przyczynę problemu i zdecydowaną ETA, pomagają lepiej wykonywać tryb failover i powroty po awarii. Aby uzyskać więcej informacji, zobacz Zarządzanie kondycją usługi i dokumentacją usługi Azure Service Health.
Odzyskiwanie po awarii w jednym regionie
Obecnie usługa Azure HDInsight w usłudze AKS ma tylko jedną standardową ofertę usług, a klastry są tworzone w lokalizacji geograficznej z jednym regionem. Klienci są odpowiedzialni za ustawienia odzyskiwania diasterów na podstawie wymagań aplikacji.
Wydajność i proaktywna odporność odzyskiwania po awarii
Usługa Azure HDInsight w usłudze AKS i jej klienci działają w ramach modelu wspólnej odpowiedzialności, co oznacza, że klient musi spełnić wymagania dotyczące odzyskiwania po awarii dla wdrażanej i kontrolującej usługę. Aby zapewnić proaktywne odzyskiwanie, klienci powinni zawsze wstępnie wdrażać pomocnicze, ponieważ nie ma gwarancji pojemności w czasie wpływu na tych, którzy nie wstępnie przydzielili przydziału.
W przeciwieństwie do usługi HDInsight maszyny wirtualne używane w usłudze HDInsight w klastrach usługi AKS wymagają tego samego limitu przydziału co maszyny wirtualne platformy Azure. Aby uzyskać więcej informacji, zobacz Planowanie pojemności.
Powiązana zawartość
Aby dowiedzieć się więcej o elementach omówionych w tym artykule, zobacz: