Konfigurace fondu Apache Sparku v Azure Synapse Analytics

Fond Sparku je sada metadat, která definují požadavky na výpočetní prostředky a přidružené charakteristiky chování při vytvoření instance Sparku. Mezi tyto charakteristiky patří mimo jiné název, počet uzlů, velikost uzlu, chování škálování a doba živého provozu. Samotný fond Sparku nevyužívají žádné prostředky. Při vytváření fondů Sparku se neúčtují žádné náklady. Poplatky se účtují jenom po spuštění úlohy Sparku v cílovém fondu Sparku a instance Sparku se vytvoří na vyžádání.

Můžete si přečíst, jak vytvořit fond Sparku a zobrazit všechny jejich vlastnosti tady: Začínáme s fondy Spark ve službě Synapse Analytics

Izolované výpočetní prostředky

Možnost Izolované výpočetní prostředky poskytuje větší zabezpečení výpočetních prostředků Sparku z nedůvěryhodných služeb tím, že oddělí fyzický výpočetní prostředek jednomu zákazníkovi. Izolovaná výpočetní možnost je nejvhodnější pro úlohy, které vyžadují vysokou míru izolace od úloh jiných zákazníků z důvodů, které zahrnují dodržování předpisů a zákonné požadavky. Možnost Izolované výpočetní prostředky je k dispozici pouze s velikostí uzlu XXXLarge (80 vCPU / 504 GB) a k dispozici pouze v následujících oblastech. Možnost izolovaného výpočetního prostředí je možné povolit nebo zakázat po vytvoření fondu, i když může být instance potřeba restartovat. Pokud očekáváte, že tuto funkci v budoucnu povolíte, ujistěte se, že se váš pracovní prostor Synapse vytvoří v izolované podporované oblasti výpočetních prostředků.

  • East US
  • Západní USA 2
  • Středojižní USA
  • USA (Gov) – Arizona
  • USA (Gov) – Virginia

Uzly

Instance fondu Apache Spark se skládá z jednoho hlavního uzlu a dvou nebo více pracovních uzlů s minimálně třemi uzly v instanci Sparku. Hlavní uzel spouští další služby pro správu, jako jsou Livy, Yarn Resource Manager, Zookeeper a ovladač Sparku. Všechny uzly spouštějí služby, jako je agent node a Yarn Node Manager. Všechny pracovní uzly spouští službu Spark Executor.

Velikosti uzlů

Fond Sparku je možné definovat s velikostmi uzlů, které se liší od malého výpočetního uzlu s 4 virtuálními jádry a 32 GB paměti až po výpočetní uzel XXLarge s 64 virtuálními jádry a 512 GB paměti na uzel. Velikosti uzlů je možné po vytvoření fondu změnit, i když může být instance potřeba restartovat.

Velikost Virtuální jádro Memory (Paměť)
Malá 4 32 GB
Střední 8 64 GB
Velká 16 128 GB
XLarge 32 256 GB
XXLarge 64 512 GB
XXX Large (izolované výpočetní prostředky) 80 504 GB

Automatické škálování

Automatické škálování fondů Apache Spark umožňuje automatické vertikální navýšení a snížení kapacity výpočetních prostředků na základě množství aktivity. Když je funkce automatického škálování povolená, nastavíte minimální a maximální počet uzlů, které se mají škálovat. Když je funkce automatického škálování zakázaná, počet nastavených uzlů zůstane pevný. Toto nastavení lze po vytvoření fondu změnit, i když může být instance potřeba restartovat.

Úložiště elastického fondu

Fondy Apache Spark teď podporují úložiště elastických fondů. Úložiště elastického fondu umožňuje modulu Spark monitorovat dočasné úložiště pracovních uzlů a v případě potřeby připojovat další disky. Fondy Apache Sparku využívají dočasné diskové úložiště při vytváření instancí fondu. Úlohy Sparku zapisují výstupy mapování shuffle, shuffle data a přelévají data na místní disky virtuálních počítačů. Příklady operací, které mohou využívat místní disk, jsou řazení, ukládání do mezipaměti a trvalé. Pokud dojde k vypršení místa na disku dočasného virtuálního počítače, úlohy Sparku můžou selhat kvůli chybě Nedostatek místa na disku (java.io.IOException: Žádné místo na zařízení). Při chybách Nedostatek místa na disku je velká část zátěže, která brání selhání úloh, aby zákazník překonfiguruje úlohy Sparku (například upravte počet oddílů) nebo clusterů (například přidejte do clusteru další uzly). Tyto chyby nemusí být konzistentní a uživatel může experimentovat silně spuštěním produkčních úloh. Tento proces může být pro uživatele nákladný v několika dimenzích:

  • Vyhozená doba. Zákazníci musí experimentovat s konfiguracemi úloh prostřednictvím zkušební verze a chyby a očekává se, že budou rozumět interním metrikám Sparku, aby udělali správné rozhodnutí.
  • Plýtvání zdroji. Vzhledem k tomu, že produkční úlohy můžou zpracovávat různá množství dat, můžou úlohy Sparku selhat nedeteristicky, pokud prostředky nejsou příliš zřízené. Zvažte například problém nerovnoměrné distribuce dat, což může vést k několika uzlům, které vyžadují více místa na disku než jiné. V současné době v Synapse každý uzel v clusteru získává stejnou velikost místa na disku a zvýšení místa na disku ve všech uzlech není ideálním řešením a vede k obrovskému plýtvání.
  • Zpomalení při provádění úlohy V hypotetické situaci, kdy problém řešíme automatickým škálováním uzlů (za předpokladu, že náklady nejsou problémem koncového zákazníka), je přidání výpočetního uzlu stále nákladné (trvá několik minut) a ne přidání úložiště (trvá několik sekund).

Vy nemusíte provádět žádnou akci a v důsledku toho byste měli vidět méně selhání úloh.

Poznámka

Azure Synapse úložiště elastického fondu je aktuálně ve verzi Public Preview. Během verze Public Preview se neúčtují žádné poplatky za použití úložiště elastického fondu.

Automatické pozastavení

Funkce automatického pozastavení uvolní prostředky po nastavené nečinné době, což snižuje celkové náklady na fond Apache Spark. Po povolení této funkce je možné nastavit počet minut nečinnosti. Funkce automatického pozastavení je nezávislá na funkci automatického škálování. Prostředky se dají pozastavit bez ohledu na to, jestli je povolené nebo zakázané automatické škálování. Toto nastavení je možné po vytvoření fondu změnit, i když bude potřeba restartovat aktivní relace.

Další kroky