Slik oppretter du en Apache Spark-jobbdefinisjon i Fabric
I denne opplæringen kan du lære hvordan du oppretter en Spark-jobbdefinisjon i Microsoft Fabric.
Viktig
Microsoft Fabric er for øyeblikket i PREVIEW. Denne informasjonen er knyttet til et forhåndsutgitt produkt som kan endres vesentlig før det utgis. Microsoft gir ingen garantier, uttrykt eller underforstått, med hensyn til informasjonen som er oppgitt her.
Forutsetninger
Du trenger følgende forutsetninger for å komme i gang:
- En Microsoft Fabric-leierkonto med et aktivt abonnement. Opprett en konto gratis.
Tips
Hvis du vil kjøre spark-jobbdefinisjonselementet, kreves hoveddefinisjonsfil og standard lakehouse-kontekst. Hvis du ikke har et innsjøhus, kan du opprette et ved å følge trinnene i Opprett et innsjøhus.
Opprett en spark-jobbdefinisjon
Opprettingsprosessen for Spark-jobbdefinisjonen er rask og enkel, og det finnes flere måter å komme i gang på.
Alternativer for å opprette en Spark-jobbdefinisjon
Det finnes flere måter du kan komme i gang med opprettingsprosessen på:
- Hjemmeside for datateknikk: Du kan enkelt opprette en Spark-jobbdefinisjon via Spark-jobbdefinisjonskortet under Ny-delen på hjemmesiden.
- Arbeidsområdevisning: Du kan også opprette en Spark-jobbdefinisjon gjennom arbeidsområdevisningen når du er på datateknikkopplevelsen ved hjelp av rullegardinlisten Ny .
- Opprett hub: Et annet inngangspunkt for å opprette en Spark-jobbdefinisjon er på Opprett hub-siden under Datateknikk.
Det kreves et navn for å opprette en Spark-jobbdefinisjon. Navnet må være unikt i gjeldende arbeidsområde. Den nyopprettede Spark Job-definisjonen opprettes under gjeldende arbeidsområde du er i.
Opprett en Spark-jobbdefinisjon for PySpark (Python)
Følg disse trinnene for å opprette en Spark-jobbdefinisjon for PySpark:
Opprett en ny spark-jobbdefinisjon.
Velg PySpark (Python) fra rullegardinlisten Språk .
Last opp hoveddefinisjonsfilen som PY-fil . Hoveddefinisjonsfilen er filen som inneholder programlogikken for denne jobben. Hoveddefinisjonsfilen er obligatorisk for å kjøre en Spark-jobb. For hver Spark-jobbdefinisjon kan du bare laste opp én hoveddefinisjonsfil.
Ved siden av opplasting fra lokalt skrivebord kan du også laste opp fra eksisterende Azure Data Lake Storage Gen2 ved å angi den fullstendige abfss-banen til filen. For eksempel abfss://your-storage-account-name.dfs.core.windows.net/your-file- bane.
Last opp referansefiler som PY-fil . Referansefilene er python-modulene som importeres av hoveddefinisjonsfilen. På samme måte som når du laster opp hoveddefinisjonsfilen, kan du også laste opp fra eksisterende Azure Data Lake Storage Gen2 ved å oppgi hele filens abfss-bane. Flere referansefiler støttes.
Tips
Hvis ADLS-gen2-banen brukes, bør brukerkontoen som brukes til å kjøre jobben, tilordnes med riktig tillatelse til lagringskontoen for å sikre at filen er tilgjengelig. Det finnes to foreslåtte måter å gjøre dette på:
- Tilordne brukerkontoen som bidragsyterrolle til lagringskontoen.
- Gi lese- og utførelsestillatelse til brukerkontoen på filen via Azure Data Lake Storage Gen2 Access Control list (ACL)
Kontoen til gjeldende påloggingsbruker vil bli brukt til å kjøre jobben for manuell kjøring
Angi kommandolinjeargumenter til jobben om nødvendig. bruk mellomrom som delingslinje for å skille argumentene.
Legg lakehouse-referansen til jobben. Du må ha lagt til minst én lakehouse-referanse i jobben. Dette lakehouse er standard lakehouse kontekst for jobben. Flere lakehouse-referanser støttes. For lakehouse som ikke er standard, kan du finne navnet og den fullstendige Nettadressen for OneLake på siden Spark Settings.
I dette eksemplet har vi gjort følgende:
- Opprettet en Spark-jobbdefinisjon kalt CSVToDelta for PySpark
- Lastet opp createTablefromCSV.py-filen som hoveddefinisjonsfilen
- Lagt lakehouse referanser LH001 og LH002 til jobben
- Gjorde LH001 til standard lakehouse-kontekst
Opprett en Spark-jobbdefinisjon for Scala/Java
Følg disse trinnene for å opprette en Spark-jobbdefinisjon for Scala/Java:
Velg Spark(Scala/Java) fra rullegardinlisten Språk .
Last opp hoveddefinisjonsfilen som .jar-fil. Hoveddefinisjonsfilen er filen som inneholder programlogikken for denne jobben. En hoveddefinisjonsfil er obligatorisk for å kjøre en Spark Job. Angi hovedklassenavnet.
Last opp referansefiler som .jar-fil. Referansefilene er filene som det refereres til/importeres av hoveddefinisjonsfilen.
Gir kommandolinjeargumenter til jobben om nødvendig.
Legg lakehouse-referansen til jobben. Du må ha lagt til minst én lakehouse-referanse i jobben. Dette lakehouse er standard lakehouse kontekst for jobben.
Opprett en Spark-jobbdefinisjon for R
Følg disse trinnene for å opprette en Spark-jobbdefinisjon for SparkR(R):
Velg SparkR(R) fra rullegardinlisten Språk .
Last opp hoveddefinisjonsfilen som . R-fil. Hoveddefinisjonsfilen er filen som inneholder programlogikken for denne jobben. En hoveddefinisjonsfil er obligatorisk for å kjøre en Spark Job.
Last opp referansefiler som . R-fil. Referansefilene er filene som det refereres til/importeres av hoveddefinisjonsfilen.
Gir kommandolinjeargumenter til jobben om nødvendig.
Legg lakehouse-referansen til jobben. Du må ha lagt til minst én lakehouse-referanse i jobben. Dette lakehouse er standard lakehouse kontekst for jobben.
Obs!
Spark-jobbdefinisjonen opprettes under gjeldende arbeidsområde du er i.
Alternativer for å tilpasse spark-jobbdefinisjon
Det finnes noen alternativer for å tilpasse kjøringen av Spark-jobbdefinisjonen ytterligere
- Spark Compute: I Spark Compute-fanen kan du se Runtime-versjonen som er versjonen av Spark som skal brukes til å kjøre jobben. Du kan også se spark-konfigurasjonsinnstillingene som skal brukes til å kjøre jobben. Du kan tilpasse konfigurasjonsinnstillingene for Spark ved å klikke Legg til-knappen .
- Optimalisering: I fanen Optimalisering kan du aktivere og konfigurere policyen for nye forsøk for jobben. Når den er aktivert, prøves jobben på nytt hvis den mislykkes. Du kan også angi maksimalt antall nye forsøk og intervallet mellom nye forsøk. For hvert forsøk på å prøve på nytt, startes jobben på nytt. Kontroller at jobben er idempotent.