Hva er Spark-databehandling i Microsoft Fabric?
Gjelder for: Datateknikk og datavitenskap i Microsoft Fabric
Microsoft Fabric Data Engineering og Data Science-opplevelser opererer på en fullt administrert Spark-databehandlingsplattform. Denne plattformen er utformet for å levere enestående hastighet og effektivitet. Med startbassenger kan du forvente rask initialisering av spark-økt, vanligvis innen 5 til 10 sekunder. Den fjerner behovet for manuell konfigurasjon. I tillegg får du også fleksibiliteten til å tilpasse Spark-bassenger i henhold til spesifikke krav til datateknikk og datavitenskap. Den muliggjør en optimalisert og skreddersydd analyseopplevelse.
Viktig
Microsoft Fabric er for øyeblikket i PREVIEW. Denne informasjonen er knyttet til et forhåndsutgitt produkt som kan endres vesentlig før det utgis. Microsoft gir ingen garantier, uttrykt eller underforstått, med hensyn til informasjonen som er oppgitt her.
Startutvalg
Startbassenger er en rask og enkel måte å bruke Spark på Microsoft Fabric-plattformen på i løpet av sekunder. Du kan bruke Spark-økter umiddelbart, i stedet for å vente på at Spark skal konfigurere nodene for deg. Dette hjelper deg med å gjøre mer med data og få innsikt raskere.
Startutvalg har Spark-klynger som alltid er på og klare for forespørslene dine. De bruker middels noder som dynamisk skaleres opp basert på spark-jobbbehovene dine.
Startutvalg har også standardinnstillinger som lar deg installere biblioteker raskt uten å redusere hastigheten på starttidspunktet for økten. Hvis du imidlertid vil bruke ekstra egendefinerte Spark-egenskaper eller biblioteker fra arbeidsområdet eller kapasitetsinnstillingene, kan det ta lengre tid for Spark å hente nodene for deg. Du betaler bare for startutvalg når du bruker Spark-økter til å kjøre spørringer. Du betaler ikke for tiden da Spark holder nodene klare for deg.
Spark bassenger
Et spark-utvalg er en måte å fortelle Spark hva slags ressurser du trenger for dataanalyseoppgavene dine. Du kan gi Spark-utvalget et navn, og velge hvor mange og hvor store nodene (maskinene som gjør arbeidet) er. Du kan også fortelle Spark hvordan du justerer antall noder avhengig av hvor mye arbeid du har. Det er gratis å opprette et spark-basseng. du betaler bare når du kjører en Spark-jobb på bassenget, og deretter konfigurerer Spark nodene for deg.
Hvis du ikke bruker Spark-utvalget på to minutter etter at jobben er fullført, sletter Spark den automatisk. Dette kalles «tid for å leve»-egenskapen, og du kan endre den hvis du vil. Hvis du er administrator for arbeidsområdet, kan du også opprette egendefinerte Spark-utvalg for arbeidsområdet og gjøre dem til standardalternativ for andre brukere. På denne måten kan du spare tid og unngå å konfigurere et nytt spark-utvalg hver gang du kjører en notatblokk eller en Spark-jobb. Egendefinerte Spark-bassenger tar omtrent 3 minutter å starte, fordi Spark må hente nodene fra Azure.
Størrelsen og antall noder du kan ha i det egendefinerte Spark-utvalget, avhenger av hvor mye kapasitet du har i Microsoft Fabric-kapasiteten. Dette er et mål på hvor mye datakraft du kan bruke i Azure. En måte å tenke på det på er at to Spark VCores (en enhet med databehandlingskraft for Spark) er lik én kapasitetsenhet. Hvis du for eksempel har en Fabric-kapasitet SKU F64, betyr det at du har 64 kapasitetsenheter, som tilsvarer 128 Spark VCores. Du kan bruke disse Spark VCores til å opprette noder av forskjellige størrelser for det egendefinerte Spark-utvalget, så lenge det totale antallet Spark VCores ikke overskrider 128.
Mulige egendefinerte utvalgskonfigurasjoner for F64 basert på eksemplet ovenfor
Fabric Capacity SKU | Kapasitetsenheter | Spark-kjerner | Nodestørrelse | Maksimalt antall noder |
---|---|---|---|---|
F64 | 64 | 128 | Liten | 32 |
F64 | 64 | 128 | Middels | 16 |
F64 | 64 | 128 | Stor | 8 |
F64 | 64 | 128 | X-Large | 4 |
F64 | 64 | 128 | XX-Large | 2 |
Obs!
Hvis du vil opprette egendefinerte utvalg, må du ha administratortillatelser for arbeidsområdet. Og microsoft Fabric-kapasitetsadministratoren burde ha gitt tillatelse til å tillate administratorer av arbeidsområdet å endre størrelsen på sine egendefinerte spark-bassenger. Hvis du vil ha mer informasjon, kan du se Komme i gang med egendefinerte spark-bassenger i Fabric
Noder
Forekomst av Apache Spark-utvalg består av én hodenode og to eller flere arbeidernoder med minst tre noder i en Spark-forekomst. Hodenoden driver ekstra administrasjonstjenester som Livy, Yarn Resource Manager, Zookeeper og Spark-driveren. Alle noder kjører tjenester som Node Agent og Yarn Node Manager. Alle arbeidernoder kjører Spark Executor-tjenesten.
Nodestørrelser
Et spark-utvalg kan defineres med nodestørrelser som spenner fra en liten databehandlingsnode med 4 virtuelle kjerner og 32 GB minne til en stor databehandlingsnode med 64 virtuelle kjerner og 512 GB minne per node. Nodestørrelser kan endres etter oppretting av utvalget, selv om den aktive økten må startes på nytt.
Størrelse | vCore | Minne |
---|---|---|
Liten | 4 | 32 GB |
Middels | 8 | 64 GB |
Stor | 16 | 128 GB |
X-Large | 32 | 256 GB |
XX-Large | 64 | 512 GB |
Autoskala
Autoskala for Apache Spark-utvalg gjør det mulig å skalere automatisk opp og ned av databehandlingsressurser basert på aktivitetsmengden. Når autoskalafunksjonen er aktivert, angir du minimum og maksimalt antall noder som skal skaleres. Når autoskaleringsfunksjonen er deaktivert, forblir antall noder angitt fast. Denne innstillingen kan endres etter oppretting av utvalg, selv om forekomsten kanskje må startes på nytt.
Dynamisk tildeling
Dynamisk tildeling gjør det mulig for spark-programmet å be om flere eksekutorer hvis oppgavene overskrider belastningen som gjeldende eksekutorer kan bære. Den frigir også eksekutorene når jobbene er fullført, og hvis spark-programmet flyttes til inaktiv tilstand. Bedriftsbrukere synes ofte det er vanskelig å justere executor-konfigurasjonene. Fordi de er svært forskjellige på tvers av ulike faser av en Spark Job-utførelsesprosess. Disse er også avhengige av datavolumet som behandles fra tid til annen. Brukere kan aktivere dynamisk tildeling av executors-alternativet som en del av utvalgskonfigurasjonen, noe som vil aktivere automatisk tildeling av eksekutorer til spark-programmet basert på nodene som er tilgjengelige i Spark-utvalget.
Når dynamisk tildelingsalternativ er aktivert, for hvert spark-program som sendes inn. Systemet forbeholder seg eksekutorer under innsendingstrinnet for jobben basert på maksimalt antall noder, som ble angitt av brukeren for å støtte vellykkede scenarier for automatisk skalering.