Sdílet prostřednictvím


Režim vysoké souběžnosti v Apache Sparku for Fabric

Režim vysoké souběžnosti umožňuje uživatelům sdílet stejné relace Sparku ve Sparku for Fabric pro úlohy přípravy dat a datových věd. Položka, jako je poznámkový blok, používá ke spuštění standardní relaci Sparku. V režimu vysoké souběžnosti může relace Sparku podporovat nezávislé spouštění více položek v rámci jednotlivých jader repl (read-eval-print), které existují v rámci aplikace Spark. Tato jádra REPL poskytují izolaci pro každou položku a brání přepsání místních proměnných poznámkového bloku proměnnými se stejným názvem z jiných poznámkových bloků, které sdílejí stejnou relaci.

Vzhledem k tomu, že už relace běží, poskytuje uživatelům okamžité prostředí pro spuštění při opakovaném použití relace napříč několika poznámkovými bloky.

Poznámka:

V případě vlastních fondů s režimem vysoké souběžnosti získají uživatelé 36X rychlejší spouštění relací v porovnání se standardní relací Sparku.

Diagram znázorňující práci režimu vysoké souběžnosti v prostředcích infrastruktury

Důležité

Mezi podmínky sdílení relací patří:

  • Relace by měly být v rámci jedné hranice uživatele.
  • Relace by měly mít stejnou výchozí konfiguraci lakehouse.
  • Relace by měly mít stejné výpočetní vlastnosti Sparku.

V rámci inicializace relace Sparku se vytvoří jádro REPL. Pokaždé, když nová položka začne sdílet stejnou relaci a exekutory se přidělují spravedlivým způsobem těmto poznámkovým blokům spuštěným v těchto jádrech REPL v aplikaci Spark, aby se zabránilo scénářům hladovění.