Sdílet prostřednictvím


Spolehlivost ve službě Azure HDInsight ve službě Azure Kubernetes Service

Tento článek popisuje podporu spolehlivosti ve službě Azure HDInsight ve službě Azure Kubernetes Service (AKS) a popisuje konkrétní doporučení ke spolehlivosti a zotavení po havárii a provozní kontinuitu. Podrobnější přehled principů spolehlivosti v Azure najdete v tématu Spolehlivost Azure.

Doporučení pro spolehlivost

Tato část obsahuje doporučení pro dosažení odolnosti a dostupnosti. Každé doporučení spadá do jedné ze dvou kategorií:

  • Položky stavu pokrývají oblasti, jako jsou položky konfigurace a správnou funkci hlavních komponent, které tvoří vaši úlohu Azure, jako jsou nastavení konfigurace prostředků Azure, závislosti na jiných službách atd.

  • Rizikové položky pokrývají oblasti, jako jsou požadavky na dostupnost a obnovení, testování, monitorování, nasazení a další položky, které v případě nevyřešeného stavu zvyšují pravděpodobnost problémů v prostředí.

Matice priorit doporučení pro spolehlivost

Každé doporučení je označeno v souladu s následující maticí priority:

Image Priorita Popis
Vysoká Je potřeba okamžitě opravit.
Střední Oprava do 3-6 měsíců.
Nízká Je potřeba zkontrolovat.

Souhrn doporučení pro spolehlivost

Kategorie Priorita Doporučení
Dostupnost Doporučení pro výchozí a minimální velikost virtuálních počítačů
Automatické škálování SLUŽBY HDInsight v clusterech AKS
Sledování Integrace se službou Log Analytics
Monitorování s využitím systému Azure Managed Prometheus a Grafana
Zabezpečení Použití skupiny zabezpečení sítě k omezení provozu do SLUŽBY HDInsight v AKS

Podpora zón dostupnosti

Zóny dostupnosti Azure jsou aspoň tři fyzicky oddělené skupiny datacenter v rámci každé oblasti Azure. Datová centra v každé zóně jsou vybavena nezávislou infrastrukturou napájení, chlazení a sítě. V případě selhání místní zóny jsou zóny dostupnosti navrženy tak, aby v případě ovlivnění jedné zóny, regionální služby, kapacity a vysoké dostupnosti podporovaly zbývající dvě zóny.

Selhání můžou být v rozsahu od selhání softwaru a hardwaru až po události, jako jsou zemětřesení, záplavy a požáry. Odolnost vůči selháním se dosahuje redundancí a logickou izolací služeb Azure. Podrobnější informace o zónách dostupnosti v Azure najdete v tématu Oblasti a zóny dostupnosti.

Služby s podporou zón dostupnosti Azure jsou navržené tak, aby poskytovaly správnou úroveň spolehlivosti a flexibility. Dají se nakonfigurovat dvěma způsoby. Můžou být buď zónově redundantní, s automatickou replikací napříč zónami, nebo zónově, s instancemi připnutými ke konkrétní zóně. Tyto přístupy můžete také kombinovat. Další informace o zónové a zónově redundantní architektuře najdete v tématu Doporučení pro použití zón dostupnosti a oblastí.

Azure HDInsight v AKS podporuje zónu dostupnosti s využitím schopnosti služby Azure Kubernetes Service vytvářet zónově redundantní fondy uzlů. Můžete vybrat, které zóny dostupnosti se mají během vytváření nasadit do fondu clusteru a clusteru. Po vytvoření fondu clusteru nebo clusteru nemůžete změnit zóny dostupnosti.

Požadavky

  • Zóny dostupnosti jsou podporovány pouze pro verzi >fondu clusterů = 1.2 a verzi >clusteru = 1.2.1.

  • Azure HDInsight v AKS má jenom jednu výchozí skladovou položku a podporuje AZ, pokud oblast Azure podporuje AZ.

    Následující oblasti nepodporují AZ:

    Amerika Evropě Střední východ Afrika Asie a Tichomoří
    USA – západ Německo – sever
  • Některé skladové položky virtuálních počítačů nemusí podporovat všechny zóny dostupnosti v oblasti. Pokud vyberete tyto skladové položky, HDInsight ve fondech clusterů AKS ani clustery nepodporují odpovídající zóny dostupnosti.

Vylepšení smlouvy SLA

V clusterech AKS s povolenými zónami dostupnosti nejsou žádné zvýšené smlouvy SLA pro Azure HDInsight.

Vytvoření prostředku s povolenou zónou dostupnosti

  • Fondy clusterů Můžete vybrat jednu nebo více zón dostupnosti během vytváření fondu clusterů po výběru oblasti.

  • Clustery Můžete vybrat jednu nebo více zón dostupnosti během vytváření clusteru.

Odolnost proti chybám

Pokud se chcete připravit na selhání zóny dostupnosti, doporučuje se zajistit, aby cluster mohl tolerovat ztrátu kapacity z jedné zóny dostupnosti a pokračovat v fungování bez snížení výkonu během výpadků v rámci zóny. Pokud například povolíte 3 zóny dostupnosti, měl by cluster tolerovat 1/3 uzlů dolů (zaokrouhlení nahoru na nejbližší celé číslo).

Prostředí pro zónu dolů

Azure HDInsight ve službě AKS je zónově redundantní. Během výpadku v celé zóně by zákazník měl očekávat snížení výkonu kvůli poklesu kapacity. Zákazníci stále můžou vytvářet nové fondy clusterů a clustery v zónách dostupnosti, které nejsou ovlivněné. Existující clustery můžou fungovat se sníženou kapacitou. Doporučení a osvědčené postupy jednotlivých opensourcových úloh jsou k dispozici v dokumentaci.

Zotavení po havárii a provozní kontinuita

Zotavení po havárii (DR) se týká zotavení z událostí s vysokým dopadem, jako jsou přírodní katastrofy nebo neúspěšná nasazení, která vedou k výpadkům a ztrátě dat. Bez ohledu na příčinu je nejlepším řešením havárie dobře definovaný a otestovaný plán zotavení po havárii a návrh aplikace, který aktivně podporuje zotavení po havárii. Než začnete přemýšlet o vytvoření plánu zotavení po havárii, přečtěte si doporučení pro návrh strategie zotavení po havárii.

Pokud jde o zotavení po havárii, Microsoft používá model sdílené odpovědnosti. V modelu sdílené odpovědnosti Microsoft zajišťuje, aby byly dostupné základní služby infrastruktury a platformy. Současně mnoho služeb Azure automaticky nereplikuje data nebo se vrátí z oblasti, která selhala, aby se křížově replikovala do jiné povolené oblasti. Za tyto služby zodpovídáte za nastavení plánu zotavení po havárii, který funguje pro vaši úlohu. Většina služeb, které běží na nabídkách PaaS (Platforma jako služba) Azure, poskytuje funkce a pokyny pro podporu zotavení po havárii a pomocí funkcí specifických pro služby můžete podporovat rychlé obnovení , které vám pomůže s vývojem plánu zotavení po havárii.

Azure HDInsight ve službě a databázích řídicí roviny AKS se nasazují napříč oblastmi Azure. Mezi těmito oblastmi je služba Azure HDInsight v instancích AKS a databázových instancích izolovaná. Když dojde k výpadku na úrovni oblasti, jedna oblast je mimo provoz. Všechny prostředky v této oblasti, včetně poskytovatele prostředků Azure HDInsight v řídicí rovině AKS, databáze Azure HDInsight v řídicí rovině AKS a všech clusterů zákazníků v této oblasti. V tomto případě můžeme počkat pouze na ukončení regionálního výpadku. Když je zónový výpadek plně obnovený, azure HDInsight ve službě AKS se vrátí zpět a všechny clustery zákazníků se vrátí do normálu. Je možné, že po výpadku může dojít k nějakým problémům kvůli nekonzistence dat a možná budete potřebovat ruční opravu na základě úloh vaší aplikace.

Zotavení po havárii ve více oblastech

Azure HDInsight v AKS v současné době nepodporuje převzetí služeb při selhání mezi oblastmi. Zlepšení kontinuity podnikových procesů s využitím zotavení po havárii napříč oblastmi vyžaduje návrh architektury s vyšší složitostí a vyššími náklady. Zákazníci se můžou rozhodnout navrhnout vlastní řešení pro zálohování klíčových dat a stavu úloh v různých oblastech.

Detekce výpadků, oznámení a správa

  • Pomocí monitorovacích nástrojů Azure ve službě HDInsight v AKS můžete detekovat neobvyklé chování v clusteru a nastavit odpovídající oznámení výstrah. Log Analytics můžete povolit různými způsoby a používat spravovanou službu Prometheus s řídicími panely Azure Grafana pro monitorování. Další informace najdete v tématu Integrace služby Azure Monitor.

  • Přihlaste se k odběru upozornění služby Azure Health, abyste dostávali upozornění na problémy se službami, plánovanou údržbu, stav a poradce pro zabezpečení předplatného, služby nebo oblasti. Oznámení o stavu, která zahrnují příčinu problému a resolute ETA, vám pomůžou lépe spouštět převzetí služeb při selhání a navrácení služeb po obnovení. Další informace najdete v dokumentaci ke správě stavu služeb a služby Azure Service Health.

Zotavení po havárii v jedné oblasti

Azure HDInsight v AKS má v současné době pouze jednu standardní nabídku služeb a clustery se vytvářejí v geografické oblasti s jednou oblastí. Zákazníci zodpovídají za nastavení obnovení diaster na základě požadavků aplikace.

Odolnost proti zotavení po havárii a proaktivní kapacita

Azure HDInsight v AKS a jeho zákazníci pracují v modelu sdílené odpovědnosti, což znamená, že zákazník musí řešit požadavky na zotavení po havárii pro službu, kterou nasazuje a řídí. Aby bylo zajištěno, že obnovení je proaktivní, měli by zákazníci vždy předem připravit sekundární soubory, protože v době dopadu na uživatele, kteří nejsou předem přiděleni, není zaručena kapacita.

Na rozdíl od SLUŽBY HDInsight vyžadují virtuální počítače používané v HDInsight v clusterech AKS stejnou kvótu jako virtuální počítače Azure. Další informace najdete v tématu Plánování kapacity.

Další informace o položkách probíraných v tomto článku najdete tady: