Hvad er Spark Compute i Microsoft Fabric?
Gælder for: Data engineering og datavidenskab i Microsoft Fabric
Microsoft Fabric Data Engineering- og Data Science-oplevelser fungerer på en fuldt administreret Spark-beregningsplatform. Denne platform er designet til at levere uovertruffen hastighed og effektivitet. Med startpuljer kan du forvente hurtig initialisering af Spark-sessionen, typisk inden for 5 til 10 sekunder, og intet behov for manuel konfiguration. Desuden får du også fleksibiliteten til at tilpasse Spark-puljer i henhold til de specifikke krav til datateknik og datavidenskab. Platformen muliggør en optimeret og skræddersyet analyseoplevelse.
Vigtigt
Microsoft Fabric er i øjeblikket i PRØVEVERSION. Disse oplysninger relaterer til et foreløbig produkt, der kan ændres væsentligt, før de udgives. Microsoft giver ingen garantier, udtrykt eller stiltiende, med hensyn til de oplysninger, der er angivet her.
Startpuljer
Startpuljer er en hurtig og nem måde at bruge Spark på Microsoft Fabric-platformen på få sekunder. Du kan bruge Spark-sessioner med det samme i stedet for at vente på, at Spark konfigurerer noderne for dig, hvilket hjælper dig med at gøre mere med data og få hurtigere indsigt.
Startpuljer har Spark-klynger, der altid er klar til dine anmodninger. De bruger mellemnoder, der dynamisk skalerer op baseret på dine Spark-jobbehov.
Startgrupper har også standardindstillinger, der gør det muligt at installere biblioteker hurtigt uden at gøre sessionens starttidspunkt langsommere. Men hvis du vil bruge ekstra brugerdefinerede Spark-egenskaber eller biblioteker fra dit arbejdsområde eller kapacitetsindstillinger, kan det tage længere tid for Spark at hente noderne for dig. Du betaler kun for startpuljer, når du bruger Spark-sessioner til at køre forespørgsler. Du betaler ikke for det tidspunkt, hvor Spark holder noderne klar til dig.
Spark-puljer
En Spark-pulje er en måde at fortælle Spark, hvilken type ressourcer du har brug for til dine dataanalyseopgaver. Du kan give din Spark-pool et navn og vælge, hvor mange og hvor store noder (de maskiner, der udfører arbejdet) er. Du kan også fortælle Spark, hvordan du justerer antallet af noder, afhængigt af hvor meget arbejde du har. Det er gratis at oprette en Spark-pool. du betaler kun, når du kører et Spark-job i puljen, og derefter konfigurerer Spark noderne for dig.
Hvis du ikke bruger din Spark-pool i 2 minutter, efter at dit job er udført, sletter Spark det automatisk. Denne egenskab kaldes egenskaben "tid til at leve", og du kan ændre den, hvis du vil. Hvis du er administrator af arbejdsområdet, kan du også oprette brugerdefinerede Spark-puljer til dit arbejdsområde og gøre dem til standardindstillingen for andre brugere. På denne måde kan du spare tid og undgå at oprette en ny Spark-pool, hver gang du kører en notesbog eller et Spark-job. Det tager ca. tre minutter at starte brugerdefinerede Spark-puljer, fordi Spark skal hente noderne fra Azure.
Størrelsen og antallet af noder, du kan have i din brugerdefinerede Spark-pulje, afhænger af din Microsoft Fabric-kapacitet. Kapacitet er en måling af, hvor meget computerkraft du kan bruge i Azure. En måde at tænke på det på er, at to Spark VCores (en enhed for beregningskraft til Spark) er lig med én kapacitetsenhed. En SKU F64 med Fabric-kapacitet har f64 kapacitetsenheder, hvilket svarer til 128 Spark VCores. Du kan bruge disse Spark VCores til at oprette noder af forskellige størrelser til din brugerdefinerede Spark-pulje, så længe det samlede antal Spark VCores ikke overstiger 128.
Mulige brugerdefinerede gruppekonfigurationer for F64 baseret på det forrige eksempel:
Sku'en med stofkapacitet | Kapacitetsenheder | Spark VCores | Nodestørrelse | Maksimalt antal noder |
---|---|---|---|---|
F64 | 64 | 128 | Lille | 32 |
F64 | 64 | 128 | Mellem | 16 |
F64 | 64 | 128 | Stor | 8 |
F64 | 64 | 128 | X-stor | 4 |
F64 | 64 | 128 | XX-Large | 2 |
Bemærk
Hvis du vil oprette brugerdefinerede puljer, skal du have administratortilladelser til arbejdsområdet. Og Microsoft Fabric-kapacitetsadministratoren skal give tilladelser til, at administratorer af arbejdsområder kan tilpasse størrelsen på deres brugerdefinerede Spark-puljer. Du kan få mere at vide under Kom i gang med brugerdefinerede Spark-puljer i Fabric
Noder
En Apache Spark-gruppeforekomst består af én hovednode og to eller flere arbejdernoder med mindst tre noder i en Spark-forekomst. Hovednoden kører ekstra administrationstjenester som Livy, Yarn Resource Manager, Zookeeper og Spark-driveren. Alle noder kører tjenester som Node Agent og Yarn Node Manager. Alle arbejdernoder kører Spark Executor-tjenesten.
Nodestørrelser
En Spark-gruppe kan defineres med nodestørrelser, der spænder fra en lille beregningsnode (med 4 vCore og 32 GB hukommelse) til en stor beregningsnode (med 64 vCore og 512 GB hukommelse pr. node). Nodestørrelser kan ændres efter oprettelsen af gruppen, selvom den aktive session skal genstartes.
Størrelse | vCore | Hukommelse |
---|---|---|
Lille | 4 | 32 GB |
Mellem | 8 | 64 GB |
Stor | 16 | 128 GB |
X-stor | 32 | 256 GB |
XX-Large | 64 | 512 GB |
Autoskalering
Autoskalering til Apache Spark-grupper gør det muligt automatisk at skalere op og ned på beregningsressourcer baseret på aktivitetsmængden. Når funktionen Autoskalering er aktiveret, angiver du det mindste og maksimale antal noder, der skaleres. Når funktionen Autoskalering er deaktiveret, forbliver antallet af noder, der er angivet, fast. Denne indstilling kan ændres efter oprettelsen af gruppen, selvom forekomsten muligvis skal genstartes.
Dynamisk allokering
Dynamisk allokering gør det muligt for Spark-programmet at anmode om flere eksekverere, hvis opgaverne overskrider den belastning, som de aktuelle eksekverere kan bære. Den frigiver også eksekutorerne, når jobbene er fuldført, og hvis Spark-programmet skifter til inaktiv tilstand. Virksomhedsbrugere har ofte svært ved at finindstille eksekveringskonfigurationerne, fordi de er meget forskellige på tværs af forskellige faser i en Spark Job-eksekveringsproces. Disse konfigurationer er også afhængige af mængden af behandlede data, som ændres fra tid til anden. Brugerne kan aktivere dynamisk allokering af eksekveringsindstillingerne som en del af gruppekonfigurationen, hvilket vil aktivere automatisk allokering af eksekveringsfiler til Spark-programmet baseret på de noder, der er tilgængelige i Spark-gruppen.
Når indstillingen for dynamisk allokering er aktiveret for hvert Spark-program, der sendes, reserverer systemet eksekverer under trinnet til indsendelse af job baseret på de maksimale noder. Brugerne angiver det maksimale antal noder, der understøtter vellykkede scenarier med automatisk skalering.