Sdílet prostřednictvím


Spolehlivost ve službě Azure HDInsight

Tento článek popisuje podporu spolehlivosti ve službě Azure HDInsight a zabývá se zónami dostupnosti a obnovením mezi oblastmi a provozní kontinuitou. Podrobnější přehled spolehlivosti v Azure najdete v tématu Spolehlivost Azure.

Podpora zón dostupnosti

Zóny dostupnosti Azure jsou aspoň tři fyzicky oddělené skupiny datacenter v rámci každé oblasti Azure. Datová centra v každé zóně jsou vybavena nezávislou infrastrukturou napájení, chlazení a sítě. V případě selhání místní zóny jsou zóny dostupnosti navrženy tak, aby v případě ovlivnění jedné zóny, regionální služby, kapacity a vysoké dostupnosti podporovaly zbývající dvě zóny.

Selhání můžou být v rozsahu od selhání softwaru a hardwaru až po události, jako jsou zemětřesení, záplavy a požáry. Odolnost vůči selháním se dosahuje redundancí a logickou izolací služeb Azure. Podrobnější informace o zónách dostupnosti v Azure najdete v tématu Oblasti a zóny dostupnosti.

Služby s podporou zón dostupnosti Azure jsou navržené tak, aby poskytovaly správnou úroveň spolehlivosti a flexibility. Dají se nakonfigurovat dvěma způsoby. Můžou být buď zónově redundantní, s automatickou replikací napříč zónami, nebo zónově, s instancemi připnutými ke konkrétní zóně. Tyto přístupy můžete také kombinovat. Další informace o zónové a zónově redundantní architektuře najdete v tématu Doporučení pro použití zón dostupnosti a oblastí.

Azure HDInsight podporuje konfiguraci zónového nasazení. Uzly clusteru Azure HDInsight se umístí do jedné zóny, kterou vyberete ve vybrané oblasti. Zónový cluster HDInsight je izolovaný od jakýchkoli výpadků, ke kterým dochází v jiných zónách. Pokud ale výpadek ovlivní konkrétní zónu zvolenou pro cluster HDInsight, cluster nebude dostupný. Tento model nasazení poskytuje levné síťové připojení s nízkou latencí v rámci clusteru. Replikace tohoto modelu nasazení do několika zón dostupnosti může poskytnout vyšší úroveň dostupnosti, aby byla zajištěna ochrana před selháním hardwaru.

Důležité

U nasazení, kde uživatelé nezadávají konkrétní zónu, nejsou typy uzlů odolné vůči zónám a můžou během výpadku v jakékoli zóně v dané oblasti dojít k výpadku.

Požadavky

  • Zóny dostupnosti se podporují jenom pro clustery vytvořené po 15. červnu 2023. Po vytvoření clusteru není možné aktualizovat nastavení zóny dostupnosti. Nemůžete také aktualizovat existující cluster se zónou dostupnosti, aby používal zóny dostupnosti.

  • Clustery musí být vytvořeny ve vlastní virtuální síti.

  • Potřebujete použít vlastní databázi SQL pro databázi Ambari a externí metastore, jako je metastor Hive, abyste mohli tyto databáze nakonfigurovat ve stejné zóně dostupnosti.

  • Clustery HDInsight se musí vytvořit s možností zóny dostupnosti v jedné z následujících oblastí:

    • Austrálie – východ
    • Brazílie – jih
    • Střední Kanada
    • Střední USA
    • East US
    • USA – východ 2
    • Francie – střed
    • Německo – středozápad
    • Japonsko – východ
    • Jižní Korea – střed
    • Severní Evropa
    • Střední Katar
    • Southeast Asia
    • Středojižní USA
    • Velká Británie – jih
    • US Gov – Virginie
    • Západní Evropa
    • Západní USA 2

Vytvoření clusteru HDInsight pomocí zóny dostupnosti

Pomocí šablony Azure Resource Manageru (ARM) můžete spustit cluster HDInsight do zadané zóny dostupnosti.

V části prostředky je potřeba přidat oddíl zóny a určit, do které zóny dostupnosti chcete tento cluster nasadit.

   "resources": [
        {
            "type": "Microsoft.HDInsight/clusters",
            "apiVersion": "2021-06-01",
            "name": "[parameters('cluster name')]",
            "location": "East US 2",
            "zones": [
                "1"
            ],
        }
   ]

Ověření uzlů v rámci jedné zóny dostupnosti napříč zónami

Až bude cluster HDInsight připravený, můžete zkontrolovat umístění a zjistit, ve které zóně dostupnosti jsou nasazené.

Snímek obrazovky znázorňující informace o zóně dostupnosti v přehledu clusteru

Získání odpovědi rozhraní API:

 [
        {
            "location": "East US 2",
            "zones": [
                "1"
            ],
        }
 ]

Vertikální navýšení kapacity clusteru

Cluster HDInsight můžete vertikálně navýšit s více pracovními uzly. Nově přidané pracovní uzly budou umístěny ve stejné zóně dostupnosti tohoto clusteru.

Migrace zóny dostupnosti

Clustery Azure HDInsight v současné době nepodporují místní migraci existujících instancí clusteru do podpory zóny dostupnosti. Můžete se ale rozhodnout cluster znovu vytvořit a během vytváření clusteru zvolit jinou zónu dostupnosti nebo oblast. Sekundární pohotovostní cluster v jiné oblasti a jinou zónu dostupnosti je možné použít ve scénářích zotavení po havárii.

Prostředí pro zónu dolů

Když dojde k výpadku zóny dostupnosti:

  • Do tohoto clusteru nemůžete ssh.
  • Tento cluster nejde odstranit, vertikálně navýšit nebo snížit kapacitu.
  • Úlohy nemůžete odesílat ani zobrazit historii úloh.
  • Stále můžete odeslat novou žádost o vytvoření clusteru v jiné oblasti.

Zotavení po havárii napříč oblastmi a provozní kontinuita

Zotavení po havárii (DR) se týká zotavení z událostí s vysokým dopadem, jako jsou přírodní katastrofy nebo neúspěšná nasazení, která vedou k výpadkům a ztrátě dat. Bez ohledu na příčinu je nejlepším řešením havárie dobře definovaný a otestovaný plán zotavení po havárii a návrh aplikace, který aktivně podporuje zotavení po havárii. Než začnete přemýšlet o vytvoření plánu zotavení po havárii, přečtěte si doporučení pro návrh strategie zotavení po havárii.

Pokud jde o zotavení po havárii, Microsoft používá model sdílené odpovědnosti. V modelu sdílené odpovědnosti Microsoft zajišťuje, aby byly dostupné základní služby infrastruktury a platformy. Současně mnoho služeb Azure automaticky nereplikuje data nebo se vrátí z oblasti, která selhala, aby se křížově replikovala do jiné povolené oblasti. Za tyto služby zodpovídáte za nastavení plánu zotavení po havárii, který funguje pro vaši úlohu. Většina služeb, které běží na nabídkách PaaS (Platforma jako služba) Azure, poskytuje funkce a pokyny pro podporu zotavení po havárii a pomocí funkcí specifických pro služby můžete podporovat rychlé obnovení , které vám pomůže s vývojem plánu zotavení po havárii.

Clustery Azure HDInsight závisí na mnoha službách Azure, jako jsou úložiště, databáze, Active Directory, Doména služby Active Directory Services, sítě a Key Vault. Dobře navržená, vysoce dostupná a analytická aplikace odolná proti chybám by měla být navržena s dostatečnou redundancí, aby v jedné nebo více těchto službách vydržela regionální nebo místní přerušení. V této části najdete přehled osvědčených postupů, dostupnosti jedné a více oblastí a možností optimalizace pro plánování kontinuity podnikových procesů.

Zotavení po havárii v geografické oblasti s více oblastmi

Zlepšení kontinuity podnikových procesů s využitím zotavení po havárii napříč oblastmi vyžaduje návrh architektury s vyšší složitostí a vyššími náklady. Následující tabulky podrobně uvádějí některé technické oblasti, které můžou zvýšit celkové náklady na vlastnictví.

Optimalizace nákladů

Plocha Příčina eskalace nákladů Strategie optimalizace
Úložiště dat Duplikování primárních dat nebo tabulek v sekundární oblasti Replikace pouze kurátorovaných dat
Výchozí přenos dat Odchozí přenosy dat mezi oblastmi mají cenu. Projděte si pokyny k cenám šířky pásma. Replikace pouze kurátorovaných dat za účelem snížení výchozích nároků na oblast
Výpočetní prostředky clusteru Další cluster HDInsight / s v sekundární oblasti Pomocí automatizovaných skriptů nasaďte sekundární výpočetní prostředky po primárním selhání. Automatické škálování použijte k zachování minimální velikosti sekundárního clusteru. Používejte levnější skladové položky virtuálních počítačů. V oblastech, ve kterých se můžou skladové položky virtuálních počítačů zlevnit, se můžou lišit.
Ověřování Scénáře s více uživateli v sekundární oblasti účtují další nastavení služby Microsoft Entra Domain Services. Vyhněte se nastavení více uživatelů v sekundární oblasti.

Optimalizace složitosti

Plocha Příčina eskalace složitosti Strategie optimalizace
Vzory čtení zápisu Vyžadování povolení primárního i sekundárního čtení a zápisu Návrh sekundárního jen pro čtení
Nula RPO a RTO Vyžadování nulové ztráty dat (RPO=0) a nulové výpadky (RTO=0) Navrhujte RPO a RTO způsoby, abyste snížili počet komponent, které potřebují převzít služby při selhání. Další informace o cílech obnovení (RTO) a RPO najdete v tématu Cíle obnovení.
Obchodní funkce Vyžadování úplné obchodní funkce primárního v sekundárním Vyhodnoťte, jestli můžete spustit s minimální minimální kritickou podmnožinou obchodních funkcí v sekundární oblasti.
Připojení Vyžadování všech nadřazených a podřízených systémů z primárního systému pro připojení k sekundárnímu Omezte sekundární připojení na holou minimální kritickou podmnožinu.

Při vytváření plánu zotavení po havárii ve více oblastech zvažte následující doporučení:

  • Určete minimální obchodní funkce, které potřebujete, pokud dojde k havárii a proč. Vyhodnoťte například, jestli potřebujete funkce převzetí služeb při selhání pro vrstvu transformace dat (zobrazená žlutě) a vrstvu obsluhující data (zobrazenou modře), nebo pokud potřebujete převzetí služeb při selhání jenom pro vrstvu datové služby.

    transformace dat a obslužné vrstvy dat

  • Segmentujte clustery na základě úloh, životního cyklu vývoje a oddělení. Když máte více clusterů, sníží se pravděpodobnost jednoho velkého selhání ovlivňujícího více různých obchodních procesů.

  • Nastavení sekundárních oblastí jen pro čtení Oblasti převzetí služeb při selhání s funkcemi čtení i zápisu můžou vést ke složitým architekturám.

  • Přechodné clustery se snadněji spravují, když dojde k havárii. Navrhněte úlohy tak, aby bylo možné clustery cyklovat a v clusterech se neudržuje žádný stav.

  • Úlohy se často nedokončí, pokud dojde k havárii a je potřeba je restartovat v nové oblasti. Navrhněte úlohy tak, aby byly idempotentní v přírodě.

  • Použijte automatizaci během nasazení clusteru a ujistěte se, že nastavení konfigurace clusteru je co nejvíce skriptované, aby se zajistilo rychlé a plně automatizované nasazení, pokud dojde k havárii.

Detekce výpadků, oznámení a správa

  • Pomocí monitorovacích nástrojů Azure ve službě HDInsight můžete detekovat neobvyklé chování v clusteru a nastavit odpovídající oznámení výstrah. Můžete nasadit předem nakonfigurovaná řešení pro správu specifické pro cluster HDInsight, která shromažďují důležité metriky výkonu konkrétního typu clusteru. Další informace najdete v tématu Monitorování Azure pro HDInsight.

  • Přihlaste se k odběru upozornění služby Azure Health, abyste dostávali upozornění na problémy se službami, plánovanou údržbu, stav a poradce pro zabezpečení předplatného, služby nebo oblasti. Oznámení o stavu, která zahrnují příčinu problému a resolute ETA, vám pomůžou lépe spouštět převzetí služeb při selhání a navrácení služeb po obnovení. Další informace najdete v dokumentaci ke službě Azure Service Health.

Zotavení po havárii v geografické oblasti s jednou oblastí

Každá komponenta v základním systému HDInsight má vlastní mechanismy odolnosti proti chybám v jedné oblasti. Mějte na paměti, že ne vždy trvá katastrofická událost, aby ovlivnila obchodní funkce. Servisní incidenty v jedné nebo více následujících službách v jedné oblasti můžou také vést ke ztrátě očekávaných obchodních funkcí.

  • Výpočetní prostředky (virtuální počítače): Cluster Azure HDInsight HDInsight nabízí smlouvu SLA o dostupnosti 99,9 %. K zajištění vysoké dostupnosti v jednom nasazení je hdInsight doprovázeno mnoha službami, které jsou ve výchozím nastavení v režimu vysoké dostupnosti. Mechanismy odolnosti proti chybám ve službě HDInsight poskytují služby s vysokou dostupností ekosystému Microsoftu i Apache OSS.

    Následující komponenty infrastruktury jsou navržené tak, aby byly vysoce dostupné:

    • Aktivní a pohotovostní hlavní uzly
    • Několik uzlů brány
    • Tři uzly kvora Zookeeper
    • Pracovní uzly distribuované podle domén selhání a aktualizačních domén

    Následující služby jsou také navrženy tak, aby byly vysoce dostupné:

    • Apache Ambari Server
    • Časové osy aplikací pro YARN
    • Server historie úloh pro Hadoop MapReduce
    • Apache Livy
    • HDFS
    • YARN Resource Manager
    • Hlavní server HBase

    Další informace najdete v tématu Služby s vysokou dostupností podporované službou Azure HDInsight.

  • Metastory: Azure SQL Database. HDInsight používá Azure SQL Database jako metastore, který poskytuje smlouvu SLA 99,99 %. Tři repliky dat se uchovávají v rámci datacentra s synchronní replikací. Pokud dojde ke ztrátě repliky, bude se bez problémů obsluhovat alternativní replika. Aktivní geografická replikace je podporována mimo tuto možnost s maximálně čtyřmi datovými centry. Když dojde k převzetí služeb při selhání, ať už ruční, nebo datové centrum, první replika v hierarchii se automaticky stane podporující čtení i zápis. Další informace najdete v tématu Provozní kontinuita služby Azure SQL Database.

  • Úložiště: Azure Data Lake Gen2 nebo Blob Storage. HDInsight doporučuje Azure Data Lake Storage Gen2 jako podkladovou vrstvu úložiště. Azure Storage, včetně Azure Data Lake Storage Gen2, poskytuje smlouvu SLA o 99,9 %. HDInsight používá službu LRS, ve které tři repliky dat zůstávají v datovém centru a replikace je synchronní. Pokud dojde ke ztrátě repliky, replika se bez problémů obsluhuje.

  • Ověřování: Microsoft Entra ID, Microsoft Entra Domain Services, Enterprise Security Package.

  • Volitelné služby, jako je Azure Key Vault a Azure Data Factory.

Komponenty HDInsight