Konfigurace fondu Apache Sparku ve službě Azure Synapse Analytics

Článek
07/16/2024

Fond Sparku je sada metadat, která definují požadavky na výpočetní prostředky a přidružené charakteristiky chování při vytvoření instance instance Sparku. Mezi tyto charakteristiky patří název, počet uzlů, velikost uzlu, chování škálování a doba provozu. Samotný fond Sparku nevyužívají žádné prostředky. Vytváření fondů Sparku neúčtují žádné náklady. Poplatky se účtují až po provedení úlohy Spark na cílovém fondu úloh Spark a vytvoření instance Spark na vyžádání.

Tady si můžete přečíst, jak vytvořit fond Sparku a zobrazit všechny jejich vlastnosti v tématu Začínáme s fondy Sparku ve službě Synapse Analytics.

Izolované výpočetní prostředky

Možnost Izolované výpočetní prostředky poskytuje větší zabezpečení výpočetních prostředků Sparku z nedůvěryhodných služeb tím, že fyzické výpočetní prostředky oddělí jednomu zákazníkovi. Izolovaná výpočetní možnost je nejvhodnější pro úlohy, které vyžadují vysokou míru izolace od úloh jiných zákazníků z důvodů, které zahrnují splnění požadavků na dodržování předpisů a zákonné požadavky. Možnost Izolované výpočetní prostředky je k dispozici pouze s velikostí uzlu XXXLarge (80 vCPU / 504 GB) a k dispozici pouze v následujících oblastech. Možnost izolovaného výpočetního prostředí je možné povolit nebo zakázat po vytvoření fondu, i když může být potřeba restartovat instanci. Pokud očekáváte, že tuto funkci v budoucnu povolíte, ujistěte se, že se váš pracovní prostor Synapse vytvoří v izolované podporované oblasti výpočetních prostředků.

USA – východ
Západní USA 2
Středojižní USA
US Gov – Arizona
US Gov – Virginie

Uzly

Instance fondu Apache Spark se skládá z jednoho hlavního uzlu a dvou nebo více pracovních uzlů s minimálně třemi uzly v instanci Sparku. Hlavní uzel spouští další služby pro správu, jako je Livy, Yarn Resource Manager, Zookeeper a ovladač Spark. Všechny uzly spouštějí služby, jako je agent node a Yarn Node Manager. Všechny pracovní uzly spouští službu Spark Executor.

Velikosti uzlů

Fond Sparku je možné definovat s velikostmi uzlů v rozsahu od malého výpočetního uzlu se 4 virtuálními jádry a 32 GB paměti až do výpočetního uzlu XXLarge s 64 virtuálními jádry a 432 GB paměti na uzel. Velikosti uzlů je možné po vytvoření fondu změnit, i když může být potřeba restartovat instanci.

Velikost	Virtuální jádro	Memory (Paměť)
Malá	4	32 GB
Střední	8	64 GB
Velká	16	128 GB
XLarge	32	256 GB
XXLarge	64	432 GB
XXX Large (izolované výpočty)	80	504 GB

Automatické škálování

Automatické škálování fondů Apache Spark umožňuje automatické vertikální navýšení a snížení kapacity výpočetních prostředků na základě množství aktivity. Když je funkce automatického škálování povolená, nastavíte minimální a maximální počet uzlů, které se mají škálovat. Když je funkce automatického škálování zakázaná, počet uzlů zůstane pevný. Toto nastavení lze po vytvoření fondu změnit, i když může být nutné restartovat instanci.

Úložiště elastického fondu

Fondy Apache Sparku teď podporují úložiště elastického fondu. Úložiště elastického fondu umožňuje modulu Spark monitorovat dočasné úložiště pracovních uzlů a v případě potřeby připojit další disky. Fondy Apache Sparku využívají dočasné diskové úložiště při vytváření instancí fondu. Úlohy Sparku zapisují výstupy mapování náhodného prohazování, prohazování dat a přelévání dat na místní disky virtuálních počítačů. Příklady operací, které by mohly využívat místní disk, jsou řazení, ukládání do mezipaměti a trvalé. Pokud dojde k vyčerpání dočasného místa na disku virtuálního počítače, úlohy Sparku můžou selhat kvůli chybě Nedostatek místa na disku (java.io.IOException: Na zařízení nezůstalo žádné místo). Při chybách Nedostatek místa na disku je velká část zátěže, která brání selhání úloh zákazníkovi, aby překonfigurovat úlohy Sparku (například upravit počet oddílů) nebo clusterů (například přidat do clusteru další uzly). Tyto chyby nemusí být konzistentní a uživatel může do značné míry experimentovat spouštěním produkčních úloh. Tento proces může být pro uživatele nákladný v několika dimenzích:

Promarněný čas. Zákazníci se musí intenzivně experimentovat s konfiguracemi úloh prostřednictvím zkušební verze a chyby a očekává se, že pochopí interní metriky Sparku, aby se správně rozhodli.
Plýtvání zdroji. Vzhledem k tomu, že produkční úlohy můžou zpracovávat různá množství dat, můžou úlohy Sparku selhat nedeterministicky, pokud se prostředky nezřídí. Představte si například problém nerovnoměrné distribuce dat, což může vést k tomu, že několik uzlů vyžaduje více místa na disku než jiné. V současné době v Synapse každý uzel v clusteru získá stejnou velikost místa na disku a zvýšení místa na disku ve všech uzlech není ideálním řešením a vede k obrovskému plýtvání.
Zpomalení při provádění úlohy V hypotetické situaci, kdy problém řešíme automatickým škálováním uzlů (za předpokladu, že náklady nejsou problémem pro koncového zákazníka), je přidání výpočetního uzlu stále nákladné (trvá několik minut) místo přidání úložiště (trvá několik sekund).

Vy nemusíte provádět žádnou akci a v důsledku toho byste měli vidět méně selhání úloh.

Poznámka:

Úložiště elastického fondu Azure Synapse je aktuálně ve verzi Public Preview. Ve verzi Public Preview se neúčtují žádné poplatky za použití úložiště elastického fondu.

Automatické pozastavení

Funkce automatického pozastavení uvolní prostředky po nastavené době nečinnosti, což snižuje celkové náklady na fond Apache Spark. Po povolení této funkce je možné nastavit počet minut nečinnosti. Funkce automatického pozastavení je nezávislá na funkci automatického škálování. Prostředky je možné pozastavit bez ohledu na to, jestli je povolené nebo zakázané automatické škálování. Toto nastavení je možné po vytvoření fondu změnit, i když je potřeba restartovat aktivní relace.

Sdílet prostřednictvím