Sdílet prostřednictvím


Režim vysoké souběžnosti v Apache Sparku for Fabric

Režim vysoké souběžnosti umožňuje uživatelům sdílet stejné relace Sparku ve Sparku for Fabric pro úlohy přípravy dat a datových věd. Položka, jako je poznámkový blok, používá ke spuštění standardní relaci Sparku. V režimu vysoké souběžnosti může relace Sparku podporovat nezávislé spouštění více položek v rámci jednotlivých jader repl (read-eval-print), které existují v rámci aplikace Spark. Tato jádra REPL poskytují izolaci pro každou položku a brání přepsání místních proměnných poznámkového bloku proměnnými se stejným názvem z jiných poznámkových bloků, které sdílejí stejnou relaci.

Vzhledem k tomu, že už relace běží, poskytuje uživatelům okamžité prostředí pro spuštění při opakovaném použití relace napříč několika poznámkovými bloky.

Poznámka:

V případě vlastních fondů s režimem vysoké souběžnosti získají uživatelé 36X rychlejší spouštění relací v porovnání se standardní relací Sparku.

Diagram znázorňující práci režimu vysoké souběžnosti v prostředcích infrastruktury

Důležité

Mezi podmínky sdílení relací patří:

  • Relace by měly být v rámci jedné hranice uživatele.
  • Relace by měly mít stejnou výchozí konfiguraci lakehouse.
  • Relace by měly mít stejné výpočetní vlastnosti Sparku.

V rámci inicializace relace Sparku se vytvoří jádro REPL. Pokaždé, když nová položka začne sdílet stejnou relaci a exekutory se přidělují spravedlivým způsobem těmto poznámkovým blokům spuštěným v těchto jádrech REPL v aplikaci Spark, aby se zabránilo scénářům hladovění.

Fakturace relací vysoké souběžnosti

Při použití režimu vysoké souběžnosti se fakturuje pouze iniciační relace , která spouští sdílenou aplikaci Spark. U všech následných relací, které sdílejí stejnou relaci Sparku, nejsou účtovány žádné další poplatky. Tento přístup umožňuje optimalizaci nákladů pro týmy a uživatele, kteří používají více souběžných úloh ve sdíleném kontextu.

📌 Příklad:

  • Uživatel spustí Notebook 1, který zahájí relaci Spark v režimu vysoké souběžnosti.
  • Stejnou relaci pak sdílí Poznámkový blok 2, Poznámkový blok 3, Poznámkový blok 4 a Poznámkový blok 5.
  • V takovém případě bude za využití výpočetních prostředků Sparku účtován pouze Notebook 1.
  • Sdílené poznámkové bloky (2 až 5) se nebudou fakturovat jednotlivě.

Toto chování fakturace se také odráží v metrikách kapacity – používání bude hlášeno pouze u výchozího sešitu (v tomto případě sešit 1).

Poznámka:

Stejné chování při fakturaci platí při použití režimu vysoké souběžnosti v rámci aktivit potrubí – je účtován pouze poznámkový blok nebo aktivita, jež zahájí relaci Sparku.