Spolehlivost v Azure Databricks

Azure Databricks je kolaborativní platforma pro data a AI, založená na Apache Sparku a optimalizovaná pro Microsoft Azure. Poskytuje jednotné prostředí pro úlohy s velkými objemy dat a AI a kombinuje to nejlepší z Databricks a Azure za účelem zjednodušení přípravy dat, datových věd a strojového učení.

Při používání Azure je spolehlivost sdílenou odpovědností. Microsoft nabízí celou řadu možností, které podporují odolnost a obnovení. Zodpovídáte za pochopení toho, jak tyto možnosti fungují ve všech službách, které používáte, a výběrem možností, které potřebujete ke splnění vašich obchodních cílů a cílů dostupnosti.

Tento článek popisuje, jak Azure Databricks udržuje odolnost proti různým potenciálním výpadkům a problémům a jak můžete nakonfigurovat odolnost tak, aby splňovala vaše požadavky. Pokyny se týkají přechodných chyb, výpadků zón dostupnosti, výpadků oblastí a údržby služeb. Tento článek také popisuje, jak použít zálohy k zotavení z jiných problémů a zvýrazňuje klíčové informace o smlouvě o úrovni služeb (SLA) Azure Databricks.

Doporučení pro nasazení do produkčního prostředí

Informace o nasazení Azure Databricks pro podporu požadavků na spolehlivost vašeho řešení a o tom, jak spolehlivost ovlivňuje další aspekty architektury, najdete v tématu Osvědčené postupy architektury pro Azure Databricks.

Přehled architektury spolehlivosti

Musíte porozumět spolehlivosti jednotlivých primárních komponent v Azure Databricks:

Řídicí rovina je kolekce bezstavových služeb, která spravuje metadata pracovního prostoru, uživatelský přístup, plánování úloh a správu clusteru. Tyto služby jsou podporovány databázemi, které se replikují napříč zónami dostupnosti v podporovaných oblastech.
Kořen systému souborů Databricks (DBFS) je účet úložiště, který Azure Databricks automaticky zřizuje při vytváření pracovního prostoru Azure Databricks ve vašem cloudovém účtu. Doporučujeme, abyste neukládali data do kořenového adresáře DBFS a pokud je to možné, tento účet úložiště zakažte.
Úložiště Katalogu Unity obsahuje jeden nebo více účtů úložiště, které ukládají data katalogu Unity do cloudového účtu. Další informace najdete v tématu Přehled katalogu Unity.
Výpočetní rovina spouští úlohy zpracování dat pomocí clusterů virtuálních počítačů. Výpočetní rovina zpracovává přechodné chyby a automaticky nahrazuje neúspěšné uzly bez zásahu uživatele. Můžete si vybrat z několika typů výpočetních prostředků. Další informace najdete v tématu Výpočty.

Dostupnost pracovního prostoru závisí na dostupnosti řídicí roviny, ale výpočetní clustery můžou dál zpracovávat úlohy i během přerušení řídicí roviny.

Odolnost proti přechodným chybám

Přechodné chyby jsou krátká, přerušovaná selhání ve složkách. V distribuovaném prostředí, jako je cloud, se vyskytují často a jsou normální součástí provozu. Přechodné chyby se opravují po krátké době. Je důležité, aby vaše aplikace mohly zpracovávat přechodné chyby, obvykle opakováním ovlivněných požadavků.

Všechny aplikace hostované v cloudu by měly při komunikaci se všemi cloudovými rozhraními API, databázemi a dalšími komponentami postupovat podle pokynů pro zpracování přechodných chyb Azure. Další informace najdete v tématu Doporučení pro zpracování přechodných chyb.

Opakování úloh v rámci úloh Lakeflow můžete řídit , abyste se mohli zotavit z přechodných chyb.

U aplikací, které běží v Azure Databricks, implementujte logiku opakování s exponenciálním zpochybněním, když se připojujete k externím službám nebo službám Azure, jako je Storage, Azure SQL Database nebo Azure Event Hubs. Databricks Runtime zahrnuje integrovanou odolnost pro mnoho služeb Azure, ale kód aplikace by měl zpracovávat přechodné chyby specifické pro službu.

Odolnost proti chybám zóny dostupnosti

Zóny dostupnosti jsou fyzicky oddělené skupiny datacenter v rámci oblasti Azure. Když jedna zóna selže, mohou služby přejít na jednu ze zbývajících zón.

Azure Databricks podporuje redundanci zón pro každou komponentu:

Řídicí rovina: V oblastech, které podporují zóny dostupnosti, běží řídicí rovina ve více zónách dostupnosti. Řídicí rovina systému zpracovává selhání zóny automaticky s minimálním dopadem a není potřeba žádný zásah uživatele.

Data pracovního prostoru řídicí roviny jsou uložená v databázích. V oblastech, které podporují zóny dostupnosti, se databáze replikují napříč několika zónami v dané oblasti. Účty úložiště, které obsluhují image Databricks Runtime, jsou také redundantní uvnitř oblasti. Všechny oblasti mají sekundární účty úložiště, které se používají při výpadku primárního účtu úložiště.
Kořenový adresář DBFS: V oblastech, které podporují zóny dostupnosti, můžete nakonfigurovat účet úložiště pro kořen DBFS tak, aby používal zónově redundantní úložiště (ZRS). Ve spárovaných oblastech, které podporují zóny dostupnosti, můžete volitelně použít geograficky zónově redundantní úložiště (GZRS).
Rovina výpočetních prostředků: Databricks podporuje automatickou distribuci zón pro výpočetní prostředky, což znamená, že vaše prostředky se distribuují napříč několika zónami dostupnosti. Tato distribuce pomáhá produkčním úlohám dosáhnout odolnosti vůči výpadkům zón.

Pokud používáte bezserverové výpočetní prostředky, nevybírejte explicitně zóny pro výpočetní prostředky. Databricks spravuje výběr zón virtuálních počítačů a náhradu virtuálních počítačů, které můžou být ztraceny kvůli výpadkům zón.

Požadavky

Pokud chcete používat podporu zón dostupnosti v Azure Databricks, potřebujete následující požadavky:

Podpora oblastí: Podpora zón dostupnosti Azure Databricks je dostupná ve všech oblastech Azure, které podporují Azure Databricks a poskytují zóny dostupnosti. Seznam oblastí, které podporují Azure Databricks, najdete v tématu Produkty dostupné v jednotlivých oblastech. Úplný seznam oblastí, které podporují zóny dostupnosti, najdete v oblastech Azure, které podporují zóny dostupnosti.
Replikace úložiště: Nakonfigurujte účty úložiště pracovního prostoru tak, aby používaly ZRS nebo GZRS (pokud jsou k dispozici).
Výpočetní kapacita: Ujistěte se, že ve vaší cílové oblasti existuje dostatečná výpočetní kapacita napříč více zónami. Azure Databricks automaticky distribuuje uzly clusteru napříč zónami, ale měli byste ověřit, že vybrané typy instancí jsou dostupné ve všech cílových zónách.

Úvahy

Azure Databricks automaticky distribuuje uzly clusteru mezi zóny dostupnosti. Distribuce závisí na dostupné kapacitě v každé zóně. Během období s vysokou poptávkou se uzly clusteru můžou soustředit do méně zón. Když používáte bezserverové výpočetní prostředky, Azure Databricks spravuje výběr zón virtuálních počítačů a nahrazení virtuálních počítačů, které můžou být kvůli výpadkům zón ztraceny.

Náklady

Distribuce zón nemá vliv na náklady na výpočetní prostředky, protože platíte za stejný počet virtuálních počítačů bez ohledu na jejich umístění zóny dostupnosti. Další informace najdete v tématu o cenách výpočetních prostředků Azure Databricks.

Výchozí redundance spravovaného účtu úložiště nebo kořenového adresáře DBFS je geograficky redundantní úložiště (GRS). Změna na ZRS nebo GZRS může ovlivnit náklady na úložiště. Pro více informací se podívejte na ceny úložiště Azure Blob.

Konfigurujte podporu zón dostupnosti

Řídicí rovina: Řídicí rovina automaticky podporuje redundanci zón v oblastech, ve kterých jsou zóny dostupnosti. Nemusíte nic konfigurovat.
Kořenový adresář DBFS: Redundanci zón pro kořenové úložiště DBFS můžete nakonfigurovat při vytváření nového pracovního prostoru nebo úpravě existujícího pracovního prostoru:
- Vytvořte nový pracovní prostor s zónově redundantním kořenovým úložištěm DBFS: Když vytvoříte nový pracovní prostor Azure Databricks, můžete volitelně nakonfigurovat přidružený účet úložiště tak, aby místo výchozího grS používal ZRS nebo GZRS. Další informace najdete v tématu Změna možností redundance úložiště pracovního prostoru.
- Povolení redundance zón v kořenovém úložišti DBFS: U existujících pracovních prostorů můžete změnit konfiguraci redundance účtu úložiště pracovního prostoru na ZRS nebo GZRS. Další informace o povolení redundance zón najdete v tématu Změna nastavení replikace pro účet úložiště.
Rovina výpočetních prostředků: Uzly clusteru se automaticky distribuují napříč zónami dostupnosti. Pro distribuci zóny není nutná žádná konfigurace zákazníka.

Chování, když jsou všechny zóny v pořádku

Tato část popisuje, co očekávat, když je pracovní prostor nakonfigurovaný s podporou zóny dostupnosti a všechny zóny dostupnosti jsou funkční.

Replikace dat mezi zónami: Replikace dat pro úložiště pracovního prostoru probíhá synchronně napříč zónami, když kořen DBFS používá účet ZRS nebo GZRS. Tento přístup zajišťuje silnou konzistenci s minimálním dopadem na výkon.
Směrování provozu mezi zónami: Azure Databricks během vytváření clusteru automaticky distribuuje uzly clusteru mezi zóny. Služba vyrovnává zatížení výpočetních prostředků napříč zónami, zatímco udržuje umístění dat pro optimální výkon.

Chování při selhání zóny

Tato část popisuje, co očekávat, když je pracovní prostor nakonfigurovaný s podporou zóny dostupnosti a dojde k výpadku zóny dostupnosti.

Detekce a odpověď: Microsoft automaticky rozpozná selhání zóny a zahájí postupy odezvy. Pro převzetí služeb při selhání na úrovni zóny nemusíte provádět žádnou akci.
Oznámení: Microsoft vás při výpadku zóny automaticky neoznámí. Na stránce stavu Azure Databricks ale můžete zobrazit přehled všech základních služeb Azure Databricks. Můžete se také přihlásit k odběru aktualizací stavu jednotlivých součástí služby a dostávat upozornění, když se stav služby, kterou přihlásíte k odběru změn.
Aktivní požadavky: Spuštěné clustery můžou ztratit uzly v ovlivněné zóně. Správce clusteru automaticky požaduje náhradní uzly ze zbývajících zón. Pokud je ztracen uzel ovladače, celý cluster i úloha se restartují.
Očekávaná ztráta dat:
- Řídicí rovina: Během výpadku zóny neočekávejte žádnou ztrátu dat.
- Kořenový adresář DBFS: Data pracovního prostoru zůstanou dostupná, pokud používají konfiguraci úložiště ZRS nebo GZRS.
- Rovina výpočetních prostředků: Data uložená v mezipaměti na virtuálních počítačích jsou dočasné. Veškerá data ztracená z virtuálních počítačů během selhání zóny se obnoví z úložiště. Pokud dojde ke ztrátě uzlu ovladače, úloha se restartuje a znovu zkompiuje výsledky.
Očekávaný výpadek:
- Řídicí rovina: Řídicí rovina Databricks provádí automatické převzetí služeb při selhání do zón v pořádku během přibližně 15 minut.
- Kořenový adresář DBFS: U účtů úložiště, které používají ZRS nebo GZRS, neočekávejte žádné výpadky.
- Rovina výpočetních prostředků: Pokud dojde ke ztrátě uzlů, protože jejich virtuální počítače se nacházejí v ovlivněné zóně dostupnosti, správce clusteru Azure požádá o náhradní uzly od poskytovatele výpočetních prostředků Azure. Pokud mají zbývající zóny v pořádku dostatečnou kapacitu pro splnění požadavku, poskytovatel výpočetních prostředků načte uzly z zón, které jsou v pořádku, aby nahradil ztracené uzly. Tento proces může trvat několik minut.
  
  Pokud dojde ke ztrátě řídícího uzlu kvůli výpadku zóny, celý klastr se restartuje, což může vést k delší době obnovení v porovnání se ztrátou pracovních uzlů. Naplánujte toto chování ve strategiích plánování a monitorování úloh.
  
  Abyste zkrátili tento čas, můžete použít bezserverové výpočetní služby nebo skupiny instancí.
Přesměrování provozu:
- Řídicí rovina: Řídicí rovina Databricks provádí automatické převzetí služeb při selhání do zdravých zón během přibližně 15 minut.
- Kořenový adresář DBFS: Azure Storage automaticky přesměruje požadavky na clustery úložiště v zónách, které jsou v pořádku.
- Výpočetní rovina: Správce clusteru automaticky přepne na uzly ve zdravých zónách.

Obnovení zóny

Když se zóna dostupnosti zotaví, Azure Databricks automaticky obnoví běžné operace ve všech zónách. Správce clusteru může během následných vytváření uzlů obnovit rovnováhu distribuce uzlů, ale stávající uzly se budou dál spouštět v jejich aktuálních zónách, dokud nebudou ukončeny.

Pro operace návratu k primárnímu stavu nemusíte provádět žádnou akci. Normální distribuce zóny se obnoví pro nová nasazení clusteru.

Testování poruch zón

Azure Databricks je spravovaná služba, ve které Microsoft zpracovává převzetí služeb při selhání zón automaticky a provádí pravidelné testy výpadků zón. Pro samotnou službu nemusíte testovat scénáře selhání zón.

U aplikací, které běží v Azure Databricks, otestujte odolnost úloh simulací selhání uzlů ovladačů a monitorováním chování restartování clusteru. Ověřte, že vaše úlohy zpracování dat mohou zpracovávat restartování clusteru a pokračovat z příslušných kontrolních bodů.

Odolnost proti selháním v celé oblasti

Azure Databricks je služba s jednou oblastí. Pokud oblast není dostupná, váš pracovní prostor je také nedostupný. Pokud potřebujete nasazení ve více oblastech, přečtěte si téma Zotavení po havárii Azure Databricks.

Vlastní řešení pro více regionů pro odolnost systémů

Azure Databricks neposkytuje integrované funkce pro více oblastí. Pro komplexní ochranu analytických úloh ve více oblastech musíte implementovat vlastní přístup.

Typická řešení s více oblastmi zahrnují dva nebo více pracovních prostorů. Můžete si vybrat z několika strategií, včetně architektur typu aktivní-pasivní a aktivní-aktivní.

Pokud chcete zvolit architekturu, zvažte následující faktory:

Důležitost úlohy pro vaši firmu
Potenciální doba přerušení (hodiny nebo případně celý den)
Úsilí potřebné k zajištění plného provozu pracovního prostoru
Úsilí potřebné k obnovení nebo navrácení do primární oblasti

Úlohy, které vyžadují ochranu více oblastí, najdete v tématu Zotavení po havárii Azure Databricks.

Zálohování a obnovování

Azure Databricks automaticky zálohuje databáze jako součást operací spravovaných službou. Tento proces zahrnuje obsah poznámkového bloku, definice úloh, konfigurace clusteru a nastavení řízení přístupu.

Poznámka:

Pokud dojde k selhání zóny, Azure Databricks očekává, že nedojde ke ztrátě dat.

Doporučujeme ukládat data do úložiště katalogu Unity. Data můžete replikovat prostřednictvím replikace úložiště nebo rozdílového klonování.

Možnosti zálohování a obnovení na úrovni pracovního prostoru nejsou přímo dostupné. Naplánujte si rekreační postupy pracovního prostoru, které zahrnují obnovení konfigurací, uživatelů a řízení přístupu z procesů synchronizace.

Odolnost vůči údržbě služeb

Azure Databricks provádí automatickou údržbu platformy, která používá aktualizace zabezpečení, nasazuje nové funkce a zlepšuje spolehlivost služeb. Časové intervaly údržby clusteru můžete nakonfigurovat tak, aby se snížila pravděpodobnost údržby ovlivňující vaše produkční úlohy. Další informace naleznete v tématu Automatická aktualizace clusteru.

Smlouva o úrovni služeb

Smlouva o úrovni služeb (SLA) pro služby Azure popisuje očekávanou dostupnost každé služby a podmínky, které musí vaše řešení splnit, aby bylo dosaženo očekávané dostupnosti. Další informace najdete v tématu Smlouvy SLA pro online služby.

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-12-10