Sdílet prostřednictvím


Co je výpočetní prostředí Apache Spark v Microsoft Fabricu?

Platí pro:✅ Datoví technici ing a Datová Věda v Microsoft Fabric

Prostředí Microsoft Fabric Datoví technici a Datová Věda fungují na plně spravované výpočetní platformě Apache Spark. Tato platforma je navržená tak, aby poskytovala jedinečnou rychlost a efektivitu. U počátečních fondů můžete očekávat rychlé inicializace relace Apache Sparku, obvykle do 5 až 10 sekund, bez nutnosti ručního nastavení. Získáte také flexibilitu při přizpůsobení fondů Apache Sparku podle vašich specifických požadavků na datové vědy a datové vědy. Platforma umožňuje optimalizované a přizpůsobené analytické prostředí.

Obrázek výpočetní platformy Spark s počátečními fondy a vlastními fondy Sparku

Úvodní fondy

Úvodní fondy představují rychlý a snadný způsob použití Sparku na platformě Microsoft Fabric během několika sekund. Relace Sparku můžete hned používat, a nemusíte čekat, až Spark nastaví uzly za vás, což vám pomůže s daty dělat víc a rychleji získat přehledy.

Obrázek tabulky znázorňující konfiguraci počátečního fondu

Úvodní fondy mají clustery Apache Spark, které jsou vždy zapnuté a připravené pro vaše požadavky. Používají střední uzly, které se dynamicky škálují na základě vašich potřeb úloh Sparku.

Diagram znázorňující základní návrh úvodních fondů

Úvodní fondy mají také výchozí nastavení, která umožňují rychle instalovat knihovny, aniž by se zpomalovaly čas spuštění relace. Pokud ale chcete použít další vlastní vlastnosti Nebo knihovny Apache Sparku z vašeho pracovního prostoru nebo nastavení kapacity, trvá spark déle, než získá uzly za vás. Pokud jde o fakturaci a spotřebu kapacity, účtuje se vám spotřeba kapacity při spuštění poznámkového bloku nebo definice úlohy Apache Spark. Za dobu nečinnosti clusterů ve fondu se vám neúčtují poplatky.

Diagram znázorňující základní fáze fakturace počátečních fondů

Pokud například odešlete úlohu poznámkového bloku do počátečního fondu, účtuje se vám jenom časové období, ve kterém je relace poznámkového bloku aktivní. Fakturovaný čas nezahrnuje dobu nečinnosti ani čas potřebný k přizpůsobení relace s kontextem Sparku.

Fondy úloh Sparku

Fond Sparku je způsob, jak sparku sdělit, jaký druh prostředků potřebujete pro úlohy analýzy dat. Fond Sparku můžete pojmenovat a zvolit, kolik a kolik uzlů (počítačů, které dělají práci) jsou. Sparku také můžete říct, jak upravit počet uzlů v závislosti na tom, kolik práce máte. Vytvoření fondu Sparku je zdarma; platíte jenom v případě, že ve fondu spustíte úlohu Sparku a pak Spark nastaví uzly za vás.

Pokud fond Sparku nepoužíváte 2 minuty po vypršení platnosti relace, váš fond Sparku se uvolní. Toto výchozí časové období vypršení platnosti relace je nastavené na 20 minut a pokud chcete, můžete ho změnit. Pokud jste správcem pracovního prostoru, můžete také vytvořit vlastní fondy Sparku pro váš pracovní prostor a nastavit je jako výchozí pro ostatní uživatele. Díky tomu můžete ušetřit čas a vyhnout se nastavení nového fondu Spark při každém spuštění poznámkového bloku nebo úlohy Sparku. Spuštění vlastních fondů Sparku trvá přibližně tři minuty, protože Spark musí získat uzly z Azure.

Můžete dokonce vytvořit fondy Spark s jedním uzlem nastavením minimálního počtu uzlů na jeden, takže ovladač a exekutor běží v jednom uzlu, který je součástí obnovitelné vysoké dostupnosti a je vhodný pro malé úlohy.

Velikost a počet uzlů, které můžete mít ve vlastním fondu Sparku, závisí na vaší kapacitě Microsoft Fabric. Kapacita je míra výpočetního výkonu, který můžete použít v Azure. Jedním ze způsobů, jak si to představit, je, že dvě virtuální jádra Apache Sparku (jednotka výpočetního výkonu Sparku) se rovná jedné kapacitní jednotce. Skladová položka kapacity Infrastruktury F64 má například 64 jednotek kapacity, což odpovídá 128 virtuálním jádrům Sparku. Pomocí těchto virtuálních jader Sparku můžete vytvořit uzly různých velikostí pro vlastní fond Sparku, pokud celkový počet virtuálních jader Sparku nepřekračuje 128.

Fondy Sparku se účtují jako počáteční fondy; Za vlastní fondy Sparku, které jste vytvořili, neplatíte, pokud nemáte vytvořenou aktivní relaci Sparku pro spuštění poznámkového bloku nebo definice úlohy Sparku. Účtuje se vám jenom doba trvání spuštění úlohy. Po dokončení úlohy se vám neúčtují fáze, jako je vytvoření clusteru a uvolnění.

Diagram znázorňující fáze vysoké úrovně fakturace vlastních fondů

Pokud například odešlete úlohu poznámkového bloku do vlastního fondu Sparku, bude se vám účtovat jenom časové období, kdy je relace aktivní. Fakturace pro danou relaci poznámkového bloku se zastaví, jakmile se relace Sparku zastaví nebo vyprší jeho platnost. Za dobu potřebnou k získání instancí clusteru z cloudu ani za dobu potřebnou k inicializaci kontextu Sparku se vám neúčtují poplatky.

Možné vlastní konfigurace fondu pro F64 na základě předchozího příkladu:

Skladová položka kapacity infrastruktury Jednotky kapacity Virtuální jádra Sparku Velikost uzlu Maximální počet uzlů
F64 64 384 Malá 96
F64 64 384 Střední 48
F64 64 384 Velká 24
F64 64 384 X -Large 12
F64 64 384 XX-Large 6

Poznámka:

Pokud chcete vytvořit vlastní fondy, potřebujete oprávnění správce pro pracovní prostor. A správce kapacity Microsoft Fabric musí udělit oprávnění, aby správci pracovního prostoru mohli měnit velikost vlastních fondů Sparku. Další informace najdete v tématu Začínáme s vlastními fondy Sparku v prostředcích infrastruktury.

Uzly

Instance fondu Apache Spark se skládá z jednoho hlavního uzlu a pracovních uzlů, může v instanci Sparku spustit minimálně jeden uzel. Hlavní uzel spouští další služby pro správu, jako jsou Livy, Yarn Resource Manager, Zookeeper a ovladač Apache Spark. Všechny uzly spouštějí služby, jako je agent node a Yarn Node Manager. Všechny pracovní uzly spouští službu Apache Spark Executor.

Velikosti uzlů

Fond Sparku je možné definovat s velikostmi uzlů v rozsahu od malého výpočetního uzlu (se 4 virtuálními jádry a 32 GB paměti) až po dvojitý velký výpočetní uzel (s 64 virtuálními jádry a 512 GB paměti na uzel). Velikosti uzlů je možné po vytvoření fondu změnit, i když by se aktivní relace musela restartovat.

Velikost Virtuální jádro Memory (Paměť)
Malá 4 32 GB
Střední 8 64 GB
Velká 16 128 GB
X -Large 32 256 GB
XX-Large 64 512 GB

Automatické škálování

Automatické škálování fondů Apache Spark umožňuje automatické vertikální navýšení a snížení kapacity výpočetních prostředků na základě množství aktivity. Když povolíte funkci automatického škálování, nastavíte minimální a maximální počet uzlů, které se mají škálovat. Když funkci automatického škálování zakážete, počet nastavených uzlů zůstane pevný. Toto nastavení můžete po vytvoření fondu změnit, i když možná budete muset instanci restartovat.

Poznámka:

Ve výchozím nastavení je spark.yarn.executor.decommission.enabled nastaven na hodnotu true a umožňuje automatické vypnutí nevyužitých uzlů za účelem optimalizace efektivity výpočetních prostředků. Pokud je upřednostňované méně agresivní vertikální snížení kapacity, může být tato konfigurace nastavená na false.

Dynamické přidělování

Dynamické přidělování umožňuje aplikaci Apache Spark požadovat více exekutorů, pokud úlohy překračují zatížení, které můžou aktuální exekutory nést. Po dokončení úloh také uvolní exekutory a pokud se aplikace Spark přesune do stavu nečinnosti. Podnikoví uživatelé často obtížně ladí konfigurace exekutoru, protože se výrazně liší v různých fázích procesu provádění úloh Sparku. Tyto konfigurace jsou také závislé na objemu zpracovaných dat, které se mění od času do času. Jako součást konfigurace fondu můžete povolit dynamické přidělování exekutorů, což umožňuje automatické přidělování exekutorů do aplikace Spark na základě uzlů dostupných ve fondu Spark.

Když povolíte možnost dynamického přidělování pro každou odeslanou aplikaci Spark, systém si během kroku odeslání úlohy rezervuje exekutory na základě minimálních uzlů. Zadáte maximální počet uzlů pro podporu úspěšných scénářů automatického škálování.