Spark Job Definition Git-integrasjon
Denne artikkelen forklarer hvordan Git-integrering for Spark Job Definitions (SJD) i Microsoft Fabric fungerer. Lær hvordan du konfigurerer en repositoriumtilkobling, administrerer endringer i Spark-jobbdefinisjon gjennom kildekontroll og distribuerer dem på tvers av ulike arbeidsområder.
Hvis du aktiverer Git-integrering for Spark-jobbdefinisjoner i Azure DevOps, kan du spore endringer via full git-logg. Hvis PySpark eller SparkR er valgt, inkluderes hoveddefinisjonsfilen og referansefilen som en del av utføringen. Endringene i kildekoden i disse filene spores også.
Viktig
Denne funksjonen er i forhåndsvisning.
Konfigurere en tilkobling
Fra innstillingene for arbeidsområdet kan du enkelt konfigurere en tilkobling til repo for å utføre og synkronisere endringer. Hvis du vil konfigurere tilkoblingen, kan du se artikkelen Kom i gang med Git-integrering . Når du er tilkoblet, vil elementene, for eksempel Spark-jobbdefinisjoner, være synlige i kildekontrollpanelet .
Når du har overført Spark-jobbdefinisjonen til Git-repositoriet, vises mappestrukturen for jobbdefinisjonen i repositoriet.
Spark Job Definition-representasjon i Git
Følgende bilde er et eksempel på filstrukturen for hvert Spark-jobbdefinisjonselement i repo:
Når du utfører spark-jobbdefinisjonselementet til repositoriet, opprettes det en git-mappe for hvert element og navngis i henhold til dette skjemaet: <Elementnavn> + SparkJobDefinition. Ikke gi nytt navn til mappen slik den brukes til å spore elementet i arbeidsområdet. Hvis for eksempel elementnavnet er "sjd1", vil git-mappenavnet være "sjd1SparkJobDefinition".
Det finnes to undermapper i git-mappen. De er hoveddelen og referansen. Hovedmappen inneholder hoveddefinisjonsfilen, og referansemappen inneholder referansefilen.
I tillegg til hoved- og referansefilene finnes det også en SparkJobDefinitionV1.json fil. Den inneholder metadataene for Spark-jobbdefinisjonselementet, så ikke endre det. .platform-filen inneholder plattforminformasjonen som er relatert til Git-konfigurasjonen>, og den bør ikke endres også.
Merk
- Hvis du velger Java eller Scala som språk, utføres ikke hoved- og referansefilene når de lastes opp som en .jar fil.
- Det vedlagte miljøet vedvarer i en Spark-jobbdefinisjon etter synkronisering fra repositoriet til et Fabric-arbeidsområde. Referansemiljøer på tvers av arbeidsområder støttes for øyeblikket ikke. Du må legge til et nytt miljø manuelt eller bruke standardinnstillingene for arbeidsområdet for å kjøre jobbdefinisjonen.
- Spark-jobbdefinisjonen beholder standard lakehouse-ID når du synkroniserer fra repositoriet til et Fabric-arbeidsområde. Hvis du utfører en notatblokk med standard lakehouse, må du manuelt referere til et nyopprettet lakehouse-element. Hvis du vil ha mer informasjon, kan du se Lakehouse Git-integrasjon.