Hvad er Spark Compute i Microsoft Fabric?

Gælder for: Data engineering og datavidenskab i Microsoft Fabric

Microsoft Fabric Data Engineering- og Data Science-oplevelser fungerer på en fuldt administreret Spark-beregningsplatform. Denne platform er designet til at levere uovertruffen hastighed og effektivitet. Med startpuljer kan du forvente hurtig initialisering af Spark-sessionen, typisk inden for 5 til 10 sekunder, og intet behov for manuel konfiguration. Desuden får du også fleksibiliteten til at tilpasse Spark-puljer i henhold til de specifikke krav til datateknik og datavidenskab. Platformen muliggør en optimeret og skræddersyet analyseoplevelse.

Vigtigt

Microsoft Fabric er i øjeblikket i PRØVEVERSION. Disse oplysninger relaterer til et foreløbig produkt, der kan ændres væsentligt, før de udgives. Microsoft giver ingen garantier, udtrykt eller stiltiende, med hensyn til de oplysninger, der er angivet her.

Startpuljer

Startpuljer er en hurtig og nem måde at bruge Spark på Microsoft Fabric-platformen på få sekunder. Du kan bruge Spark-sessioner med det samme i stedet for at vente på, at Spark konfigurerer noderne for dig, hvilket hjælper dig med at gøre mere med data og få hurtigere indsigt.

Billede af en tabel, der viser konfigurationen af startgruppen.

Startpuljer har Spark-klynger, der altid er klar til dine anmodninger. De bruger mellemnoder, der dynamisk skalerer op baseret på dine Spark-jobbehov.

Diagram, der viser det overordnede design af startpuljer.

Startgrupper har også standardindstillinger, der gør det muligt at installere biblioteker hurtigt uden at gøre sessionens starttidspunkt langsommere. Men hvis du vil bruge ekstra brugerdefinerede Spark-egenskaber eller biblioteker fra dit arbejdsområde eller kapacitetsindstillinger, kan det tage længere tid for Spark at hente noderne for dig. Du betaler kun for startpuljer, når du bruger Spark-sessioner til at køre forespørgsler. Du betaler ikke for det tidspunkt, hvor Spark holder noderne klar til dig.

Spark-puljer

En Spark-pulje er en måde at fortælle Spark, hvilken type ressourcer du har brug for til dine dataanalyseopgaver. Du kan give din Spark-pool et navn og vælge, hvor mange og hvor store noder (de maskiner, der udfører arbejdet) er. Du kan også fortælle Spark, hvordan du justerer antallet af noder, afhængigt af hvor meget arbejde du har. Det er gratis at oprette en Spark-pool. du betaler kun, når du kører et Spark-job i puljen, og derefter konfigurerer Spark noderne for dig.

Hvis du ikke bruger din Spark-pool i 2 minutter, efter at dit job er udført, sletter Spark det automatisk. Denne egenskab kaldes egenskaben "tid til at leve", og du kan ændre den, hvis du vil. Hvis du er administrator af arbejdsområdet, kan du også oprette brugerdefinerede Spark-puljer til dit arbejdsområde og gøre dem til standardindstillingen for andre brugere. På denne måde kan du spare tid og undgå at oprette en ny Spark-pool, hver gang du kører en notesbog eller et Spark-job. Det tager ca. tre minutter at starte brugerdefinerede Spark-puljer, fordi Spark skal hente noderne fra Azure.

Størrelsen og antallet af noder, du kan have i din brugerdefinerede Spark-pulje, afhænger af din Microsoft Fabric-kapacitet. Kapacitet er en måling af, hvor meget computerkraft du kan bruge i Azure. En måde at tænke på det på er, at to Spark VCores (en enhed for beregningskraft til Spark) er lig med én kapacitetsenhed. En SKU F64 med Fabric-kapacitet har f64 kapacitetsenheder, hvilket svarer til 128 Spark VCores. Du kan bruge disse Spark VCores til at oprette noder af forskellige størrelser til din brugerdefinerede Spark-pulje, så længe det samlede antal Spark VCores ikke overstiger 128.

Mulige brugerdefinerede gruppekonfigurationer for F64 baseret på det forrige eksempel:

Sku'en med stofkapacitet Kapacitetsenheder Spark VCores Nodestørrelse Maksimalt antal noder
F64 64 128 Lille 32
F64 64 128 Mellem 16
F64 64 128 Stor 8
F64 64 128 X-stor 4
F64 64 128 XX-Large 2

Bemærk

Hvis du vil oprette brugerdefinerede puljer, skal du have administratortilladelser til arbejdsområdet. Og Microsoft Fabric-kapacitetsadministratoren skal give tilladelser til, at administratorer af arbejdsområder kan tilpasse størrelsen på deres brugerdefinerede Spark-puljer. Du kan få mere at vide under Kom i gang med brugerdefinerede Spark-puljer i Fabric

Noder

En Apache Spark-gruppeforekomst består af én hovednode og to eller flere arbejdernoder med mindst tre noder i en Spark-forekomst. Hovednoden kører ekstra administrationstjenester som Livy, Yarn Resource Manager, Zookeeper og Spark-driveren. Alle noder kører tjenester som Node Agent og Yarn Node Manager. Alle arbejdernoder kører Spark Executor-tjenesten.

Nodestørrelser

En Spark-gruppe kan defineres med nodestørrelser, der spænder fra en lille beregningsnode (med 4 vCore og 32 GB hukommelse) til en stor beregningsnode (med 64 vCore og 512 GB hukommelse pr. node). Nodestørrelser kan ændres efter oprettelsen af gruppen, selvom den aktive session skal genstartes.

Størrelse vCore Hukommelse
Lille 4 32 GB
Mellem 8 64 GB
Stor 16 128 GB
X-stor 32 256 GB
XX-Large 64 512 GB

Autoskalering

Autoskalering til Apache Spark-grupper gør det muligt automatisk at skalere op og ned på beregningsressourcer baseret på aktivitetsmængden. Når funktionen Autoskalering er aktiveret, angiver du det mindste og maksimale antal noder, der skaleres. Når funktionen Autoskalering er deaktiveret, forbliver antallet af noder, der er angivet, fast. Denne indstilling kan ændres efter oprettelsen af gruppen, selvom forekomsten muligvis skal genstartes.

Dynamisk allokering

Dynamisk allokering gør det muligt for Spark-programmet at anmode om flere eksekverere, hvis opgaverne overskrider den belastning, som de aktuelle eksekverere kan bære. Den frigiver også eksekutorerne, når jobbene er fuldført, og hvis Spark-programmet skifter til inaktiv tilstand. Virksomhedsbrugere har ofte svært ved at finindstille eksekveringskonfigurationerne, fordi de er meget forskellige på tværs af forskellige faser i en Spark Job-eksekveringsproces. Disse konfigurationer er også afhængige af mængden af behandlede data, som ændres fra tid til anden. Brugerne kan aktivere dynamisk allokering af eksekveringsindstillingerne som en del af gruppekonfigurationen, hvilket vil aktivere automatisk allokering af eksekveringsfiler til Spark-programmet baseret på de noder, der er tilgængelige i Spark-gruppen.

Når indstillingen for dynamisk allokering er aktiveret for hvert Spark-program, der sendes, reserverer systemet eksekverer under trinnet til indsendelse af job baseret på de maksimale noder. Brugerne angiver det maksimale antal noder, der understøtter vellykkede scenarier med automatisk skalering.

Næste trin