Spark Job Definition Git-integrasjon

2024-05-08

Denne artikkelen forklarer hvordan Git-integrering for Spark Job Definitions (SJD) i Microsoft Fabric fungerer. Lær hvordan du konfigurerer en repositoriumtilkobling, administrerer endringer i Spark-jobbdefinisjon gjennom kildekontroll og distribuerer dem på tvers av ulike arbeidsområder.

Hvis du aktiverer Git-integrering for Spark-jobbdefinisjoner i Azure DevOps, kan du spore endringer via full git-logg. Hvis PySpark eller SparkR er valgt, inkluderes hoveddefinisjonsfilen og referansefilen som en del av utføringen. Endringene i kildekoden i disse filene spores også.

Viktig

Denne funksjonen er i forhåndsvisning.

Konfigurere en tilkobling

Fra innstillingene for arbeidsområdet kan du enkelt konfigurere en tilkobling til repo for å utføre og synkronisere endringer. Hvis du vil konfigurere tilkoblingen, kan du se artikkelen Kom i gang med Git-integrering . Når du er tilkoblet, vil elementene, for eksempel Spark-jobbdefinisjoner, være synlige i kildekontrollpanelet .

Når du har overført Spark-jobbdefinisjonen til Git-repositoriet, vises mappestrukturen for jobbdefinisjonen i repositoriet.

Spark Job Definition-representasjon i Git

Følgende bilde er et eksempel på filstrukturen for hvert Spark-jobbdefinisjonselement i repo:

Når du utfører spark-jobbdefinisjonselementet til repositoriet, opprettes det en git-mappe for hvert element og navngis i henhold til dette skjemaet: <Elementnavn> + SparkJobDefinition. Ikke gi nytt navn til mappen slik den brukes til å spore elementet i arbeidsområdet. Hvis for eksempel elementnavnet er "sjd1", vil git-mappenavnet være "sjd1SparkJobDefinition".

Det finnes to undermapper i git-mappen. De er hoveddelen og referansen. Hovedmappen inneholder hoveddefinisjonsfilen, og referansemappen inneholder referansefilen.

I tillegg til hoved- og referansefilene finnes det også en SparkJobDefinitionV1.json fil. Den inneholder metadataene for Spark-jobbdefinisjonselementet, så ikke endre det. .platform-filen inneholder plattforminformasjonen som er relatert til Git-konfigurasjonen>, og den bør ikke endres også.

Merk

Hvis du velger Java eller Scala som språk, utføres ikke hoved- og referansefilene når de lastes opp som en .jar fil.
Det vedlagte miljøet vedvarer i en Spark-jobbdefinisjon etter synkronisering fra repositoriet til et Fabric-arbeidsområde. Referansemiljøer på tvers av arbeidsområder støttes for øyeblikket ikke. Du må legge til et nytt miljø manuelt eller bruke standardinnstillingene for arbeidsområdet for å kjøre jobbdefinisjonen.
Spark-jobbdefinisjonen beholder standard lakehouse-ID når du synkroniserer fra repositoriet til et Fabric-arbeidsområde. Hvis du utfører en notatblokk med standard lakehouse, må du manuelt referere til et nyopprettet lakehouse-element. Hvis du vil ha mer informasjon, kan du se Lakehouse Git-integrasjon.

Innføring i Git-integrering

Del via

Spark Job Definition Git-integrasjon

Konfigurere en tilkobling

Spark Job Definition-representasjon i Git

Relatert innhold

Tilbakemeldinger

Flere ressurser