Zdieľať cez


Režim vysokej súbežnosti v Apache Spark for Fabric

Režim vysokej súbežnosti umožňuje používateľom zdieľať rovnaké relácie Spark v službe Spark for Fabric pre dátové inžinierstvo a vyťaženie dátovej vedy. Položka ako notebook používa na vykonanie štandardnú reláciu služby Spark. V režime vysokej súbežnosti môže relácia Spark podporovať nezávislé spúšťanie viacerých položiek v rámci jednotlivých jadier slučky čítania a eval tlače (REPL), ktoré existujú v aplikácii Spark. Tieto jadrá REPL poskytujú izoláciu pre každú položku a zabraňujú prepísaniu premenných lokálneho poznámkového bloku premennými rovnakým názvom v iných poznámkových blokoch, ktoré zdieľajú rovnakú reláciu.

Keďže relácia je už spustená, poskytuje používateľom okamžité spustenie pri opätovnom použití relácie vo viacerých poznámkových blokoch.

Poznámka

V prípade vlastných fondov s režimom vysokej súbežnosti získajú používatelia 36x rýchlejšie spúšťacie prostredie relácie v porovnaní so štandardnou reláciou Spark.

Diagram znázorňujúci fungovanie režimu vysokej súbežnosti v službe Fabric.

Dôležité

Podmienky zdieľania relácií zahŕňajú:

  • Relácie by mali byť v rámci jednej hranice používateľa.
  • Relácie by mali mať rovnakú predvolenú konfiguráciu služby lakehouse.
  • Relácie by mali mať rovnaké výpočtové vlastnosti služby Spark.

V rámci inicializácie relácie Spark sa vytvorí jadro REPL. Zakaždým, keď nová položka začne zdieľať rovnaké zasadnutí a vykonávatelia sú pridelené spôsobom FAIR na základe týchto notebookov beží v týchto REPL jadier vnútri aplikácie Spark zabrániť hladu scenáre.