Sådan opretter du brugerdefinerede Spark-puljer i Microsoft Fabric

I dette dokument forklarer vi, hvordan du opretter brugerdefinerede Apache Spark-puljer i Microsoft Fabric til dine analysearbejdsbelastninger. Apache Spark-puljer gør det muligt for brugerne at oprette skræddersyede beregningsmiljøer baseret på deres specifikke krav og sikre optimal ydeevne og ressourceudnyttelse.

Du angiver minimum- og maksimumnoder for automatisk skalering. Baseret på disse værdier henter og udfaser systemet dynamisk noder, når jobbets beregningskrav ændres, hvilket resulterer i effektiv skalering og forbedret ydeevne. Den dynamiske allokering af eksekutorer i Spark-puljer afhjælper også behovet for manuel konfiguration af eksekvering. I stedet justerer systemet antallet af eksekveringsmaskiner afhængigt af datamængden og beregningsbehovene på jobniveau. Denne proces giver dig mulighed for at fokusere på dine arbejdsbelastninger uden at bekymre dig om optimering af ydeevnen og ressourcestyring.

Bemærk

Hvis du vil oprette en brugerdefineret Spark-gruppe, skal du have administratoradgang til arbejdsområdet. Kapacitetsadministratoren skal aktivere indstillingen Brugerdefinerede arbejdsområdegrupper i afsnittet Spark Compute under Indstillinger for kapacitet Administration. Du kan få mere at vide under Spark Compute Indstillinger for Fabric-kapaciteter.

Opret brugerdefinerede Spark-puljer

Sådan opretter eller administrerer du den Spark-gruppe, der er knyttet til dit arbejdsområde:

  1. Gå til dit arbejdsområde, og vælg Indstillinger for arbejdsområde.

    Screenshot showing where to select Data Engineering in the Workspace settings menu.

  2. Vælg indstillingen Dataudvikler/Videnskab for at udvide menuen, og vælg derefter Spark Compute.

    Screenshot showing Spark Settings detail view.

  3. Vælg indstillingen Ny pulje . På skærmen Opret pulje skal du navngive din Spark-pulje. Vælg også nodefamilien, og vælg en nodestørrelse blandt de tilgængelige størrelser (Lille, Mellem, Stor, X-Stor og XX-Stor) baseret på beregningskrav til dine arbejdsbelastninger.

    Screenshot showing custom pool creation options.

  4. Du kan angive minimumnodekonfigurationen for dine brugerdefinerede puljer til 1. Da Fabric Spark giver restorable tilgængelighed for klynger med en enkelt node, behøver du ikke at bekymre dig om jobfejl, tab af session under fejl eller over betaling af beregning for mindre Spark-job.

  5. Du kan aktivere eller deaktivere automatisk skalering for dine brugerdefinerede Spark-puljer. Når automatisk skalering er aktiveret, henter gruppen dynamisk nye noder op til den maksimale nodegrænse, der er angivet af brugeren, og trækker dem derefter tilbage efter udførelse af jobbet. Denne funktion sikrer bedre ydeevne ved at justere ressourcer baseret på jobkravene. Du har tilladelse til at tilpasse størrelsen på de noder, der passer til de kapacitetsenheder, der er købt som en del af Fabric-kapacitets-SKU'en.

    Screenshot showing custom pool creation options for autoscaling and dynamic allocation.

  6. Du kan også vælge at aktivere dynamisk eksekvering af eksekvering for din Spark-gruppe, hvilket automatisk bestemmer det optimale antal eksekveringsfiler inden for den brugerdefinerede maksimale grænse. Denne funktion justerer antallet af eksekveringsprogrammer baseret på datamængde, hvilket resulterer i forbedret ydeevne og ressourceudnyttelse.

Disse brugerdefinerede grupper har en standardvarighed for autopause på 2 minutter. Når varigheden af autopausen er nået, udløber sessionen, og klyngerne er ikke allokeret. Du faktureres på baggrund af antallet af noder og den varighed, som de brugerdefinerede Spark-puljer bruges til.