Läge för hög samtidighet i Apache Spark för Infrastrukturresurser

Med läget hög samtidighet kan användarna dela samma Spark-sessioner i Spark för Infrastruktur för datateknik och datavetenskapsarbetsbelastningar. Ett objekt som en notebook-fil använder en Standard Spark-session för dess körning. I hög samtidighetsläge kan Spark-sessionen stödja oberoende körning av flera objekt i enskilda REPL-kärnor (read-eval-print loop) som finns i Spark-programmet. Dessa REPL-kärnor ger isolering för varje objekt och förhindrar att lokala notebook-variabler skrivs över av variabler med samma namn från andra notebook-filer som delar samma session.

Eftersom sessionen redan körs ger detta användarna en omedelbar körningsupplevelse när de återanvänder sessionen över flera notebook-filer.

Kommentar

När det gäller anpassade pooler med hög samtidighetsläge får användarna 36 X snabbare startupplevelse för sessioner jämfört med en Spark-standardsession.

Diagram som visar hur hög samtidighetsläge fungerar i Infrastrukturresurser.

Viktigt!

Villkor för sessionsdelning omfattar:

  • Sessioner bör ligga inom en enskild användargräns.
  • Sessioner bör ha samma standardkonfiguration för lakehouse.
  • Sessioner bör ha samma Spark-beräkningsegenskaper.

Som en del av Spark-sessionsinitiering skapas en REPL-kärna. Varje gång ett nytt objekt börjar dela samma session och utförarna allokeras på FAIR-baserat sätt till dessa notebook-filer som körs i dessa REPL-kärnor i Spark-programmet som förhindrar svältscenarier.

Fakturering av sessioner med hög samtidighet

När du använder läge för hög samtidighet debiteras endast den inledande sessionen som startar det delade Spark-programmet. Alla efterföljande sessioner som delar samma Spark-session medför inte ytterligare fakturering. Den här metoden möjliggör kostnadsoptimering för team och användare som kör flera samtidiga arbetsbelastningar i en delad kontext.

📌 Exempel:

  • En användare startar Notebook 1, som initierar en Spark-session i hög samtidighetsläge.
  • Samma session delas sedan av Notebook 2, Notebook 3, Notebook 4 och Notebook 5.
  • I det här fallet debiteras endast Notebook 1 för Spark-beräkningsanvändningen.
  • De delade anteckningsböckerna (2 till 5) debiteras inte individuellt.

Det här faktureringsbeteendet återspeglas också i Kapacitetsmått – användningen rapporteras endast mot den inledande notebooken (Notebook 1 i det här fallet).

Kommentar

Samma faktureringsbeteende gäller när läget för hög samtidighet används i pipelineaktiviteter – endast notebook eller aktivitet som initierar Spark-sessionen debiteras.