Administrationsinställningar för Spark-arbetsytor i Microsoft Fabric

Gäller för: Datateknik och Datavetenskap i Microsoft Fabric

När du skapar en arbetsyta i Microsoft Fabric skapas automatiskt en startpool som är associerad med arbetsytan. Med den förenklade installationen i Microsoft Fabric behöver du inte välja nod- eller datorstorlekar eftersom de här alternativen hanteras för dig i bakgrunden. Den här konfigurationen ger en snabbare startupplevelse (5–10 sekunder) för Spark-sessioner så att användarna kan komma igång och köra dina Spark-jobb i många vanliga scenarier utan att behöva oroa sig för att konfigurera beräkningen. För avancerade scenarier med specifika beräkningskrav kan användarna skapa en anpassad Spark-pool och storleksanpassa noderna baserat på deras prestandabehov.

Om du vill göra ändringar i Spark-inställningarna på en arbetsyta bör du ha administratörsrollen för den arbetsytan. Mer information finns i Roller på arbetsytor.

Så här hanterar du Spark-inställningarna för poolen som är associerad med din arbetsyta:

  1. Gå till inställningarna för arbetsytan på arbetsytan och välj alternativet Datateknik/Vetenskap för att expandera menyn:

    Screenshot showing where to select Data Engineering in the Workspace settings menu.

  2. Du ser alternativet Spark Compute i den vänstra menyn:

    Gif showing different sections of the spark compute in workspace settings.

    Kommentar

    Om du ändrar standardpoolen från startpoolen till en anpassad Spark-pool kan du se längre sessionsstart (~3 minuter).

Pool

Standardpool för arbetsytan

Du kan använda den automatiskt skapade startpoolen eller skapa anpassade pooler för arbetsytan.

  • Startpool: Förhydrerade livepooler skapas automatiskt för din snabbare upplevelse. Dessa kluster är medelstora. Startpoolen är inställd på en standardkonfiguration baserat på den SKU för infrastrukturkapacitet som köpts. Administratörer kan anpassa maximalt antal noder och utförare baserat på deras krav på Spark-arbetsbelastningsskalning. Mer information finns i Konfigurera startpooler

  • Anpassad Spark-pool: Du kan storleksanpassa noderna, autoskalning och dynamiskt allokera exekutorer baserat på dina Krav för Spark-jobb. Om du vill skapa en anpassad Spark-pool bör kapacitetsadministratören aktivera alternativet Anpassade arbetsytepooler i avsnittet Spark Compute i Inställningar för kapacitetsadministratör.

Kommentar

Kapacitetsnivåkontrollen för anpassade arbetsytepooler är aktiverad som standard. Mer information finns i Spark Compute Inställningar for Fabric-kapaciteter.

Administratörer kan skapa anpassade Spark-pooler baserat på deras beräkningskrav genom att välja alternativet Ny pool .

Screenshot showing custom pool creation options.

Microsoft Fabric Spark har stöd för kluster med en nod, vilket gör att användarna kan välja en minsta nodkonfiguration på 1, vilket innebär att drivrutinen och kören körs i en enda nod. Dessa kluster med en nod erbjuder återställningsbar hög tillgänglighet vid nodfel och bättre tillförlitlighet för arbetsbelastningar med mindre beräkningskrav. Du kan också aktivera eller inaktivera alternativet automatisk skalning för dina anpassade Spark-pooler. När den är aktiverad med autoskalning hämtar poolen nya noder inom den maximala nodgräns som angetts av användaren och drar tillbaka dem efter jobbkörningen för bättre prestanda.

Du kan också välja alternativet att dynamiskt allokera köre till poolen automatiskt optimalt antal utförare inom den maximala gränsen som anges baserat på datavolymen för bättre prestanda.

Screenshot showing custom pool creation options for autoscaling and dynamic allocation.

Läs mer om Spark Compute for Fabric.

  • Anpassa beräkningskonfigurationen för objekt: Som arbetsyteadministratör kan du tillåta användare att justera beräkningskonfigurationer (egenskaper på sessionsnivå som omfattar Driver/Executor Core, Driver/Executor Memory) för enskilda objekt, till exempel notebook-filer, spark-jobbdefinitioner med hjälp av miljö.

Screenshot showing switch to customize compute for items.

Om inställningen inaktiveras av arbetsyteadministratören används standardpoolen och dess beräkningskonfigurationer för alla miljöer på arbetsytan.

Environment

Miljön innehåller flexibla konfigurationer för att köra dina Spark-jobb (notebook-filer, spark-jobbdefinitioner). I en miljö kan du konfigurera beräkningsegenskaper, välja olika körningsfunktioner och konfigurera beroenden för bibliotekspaket baserat på dina arbetsbelastningskrav.

På fliken Miljö har du möjlighet att ange standardmiljön. Du kan välja vilken version av Spark du vill använda för arbetsytan.

Som administratör för infrastrukturarbetsytan kan du välja en miljö som standardmiljö för arbetsytan.

Du kan också skapa en ny via listrutan Miljö .

Environment creation through attachment dropdown in WS setting

Om du inaktiverar alternativet för att ha en standardmiljö kan du välja körningsversionen för infrastrukturresurser från de tillgängliga körningsversioner som anges i listrutan.

Screenshot showing where to select runtime version.

Läs mer om Spark-körningar

Hög samtidighet

Med läget hög samtidighet kan användarna dela samma Spark-sessioner i Fabric Spark för datateknik och datavetenskapsarbetsbelastningar. Ett objekt som en notebook-fil använder en Spark-session för dess körning och när det är aktiverat kan användare dela en enda Spark-session över flera notebook-filer.

Screenshot showing high concurrency settings page.

Läs mer om hög samtidighet i Fabric Spark

Automatisk loggning för Machine Learning-modeller och experiment

Administratörer kan nu aktivera automatisk loggning för sina maskininlärningsmodeller och experiment. Det här alternativet samlar automatiskt in värdena för indataparametrar, utdatamått och utdataobjekt i en maskininlärningsmodell när den tränas. Läs mer om automatisk loggning.

Screenshot showing autolog settings page.