Skapa anpassade Spark-pooler i Microsoft Fabric

I det här dokumentet förklarar vi hur du skapar anpassade Apache Spark-pooler i Microsoft Fabric för dina analysarbetsbelastningar. Apache Spark-pooler gör det möjligt för användare att skapa skräddarsydda beräkningsmiljöer baserat på deras specifika krav, vilket säkerställer optimal prestanda och resursanvändning.

Du anger de minsta och högsta noderna för automatisk skalning. Baserat på dessa värden hämtar systemet dynamiskt och drar tillbaka noder när jobbets beräkningskrav ändras, vilket resulterar i effektiv skalning och bättre prestanda. Den dynamiska allokeringen av exekutorer i Spark-pooler minskar också behovet av manuell körkonfiguration. I stället justerar systemet antalet utförare beroende på datavolym och beräkningsbehov på jobbnivå. Med den här processen kan du fokusera på dina arbetsbelastningar utan att behöva oroa dig för prestandaoptimering och resurshantering.

Kommentar

Om du vill skapa en anpassad Spark-pool behöver du administratörsåtkomst till arbetsytan. Kapacitetsadministratören måste aktivera alternativet Anpassade arbetsytepooler i avsnittet Spark Compute i inställningarna för kapacitetsadministratör. Mer information finns i Spark Compute Inställningar for Fabric-kapaciteter.

Skapa anpassade Spark-pooler

Så här skapar eller hanterar du Spark-poolen som är associerad med din arbetsyta:

  1. Gå till din arbetsyta och välj Inställningar för arbetsyta.

    Screenshot showing where to select Data Engineering in the Workspace settings menu.

  2. Välj alternativet Datateknik/Vetenskap för att expandera menyn och välj sedan Spark Compute.

    Screenshot showing Spark Settings detail view.

  3. Välj alternativet Ny pool. Ge Spark-poolen namnet på skärmen Skapa pool. Välj även nodfamiljen och välj en Nodstorlek från de tillgängliga storlekarna (små, medelstora, stora, X-stora och XX-stora) baserat på beräkningskraven för dina arbetsbelastningar.

    Screenshot showing custom pool creation options.

  4. Du kan ange den minsta nodkonfigurationen för dina anpassade pooler till 1. Eftersom Fabric Spark ger återställningsbar tillgänglighet för kluster med en enda nod behöver du inte bekymra dig om jobbfel, förlust av session under fel eller över att betala för beräkning för mindre Spark-jobb.

  5. Du kan aktivera eller inaktivera automatisk skalning för dina anpassade Spark-pooler. När autoskalning är aktiverat hämtar poolen dynamiskt nya noder upp till den maximala nodgräns som användaren har angett och drar sedan tillbaka dem efter jobbkörningen. Den här funktionen ger bättre prestanda genom att justera resurser baserat på jobbkraven. Du får storleksanpassa noderna, som passar i de kapacitetsenheter som köpts som en del av SKU:n för infrastrukturkapacitet.

    Screenshot showing custom pool creation options for autoscaling and dynamic allocation.

  6. Du kan också välja att aktivera dynamisk körallokering för Spark-poolen, vilket automatiskt avgör det optimala antalet köre inom den användardefinierade maximala gränsen. Den här funktionen justerar antalet utförare baserat på datavolym, vilket resulterar i bättre prestanda och resursanvändning.

Dessa anpassade pooler har en standardtid på 2 minuter för autopaus. När varaktigheten för autopaus har nåtts upphör sessionen att gälla och klustren är oallokerade. Du debiteras baserat på antalet noder och hur länge de anpassade Spark-poolerna används.