Hva er en Apache Spark-jobbdefinisjon?

En Apache Spark-jobbdefinisjon er et Microsoft Fabric-kodeelement som lar deg sende inn satsvise/strømmejobber til Spark-klynger. Ved å laste opp binærfilene fra kompileringsutdataene for forskjellige språk (for eksempel .jar fra Java), kan du bruke forskjellig transformasjonslogikk på dataene som ligger på et lakehouse. I tillegg til binærfilen kan du tilpasse virkemåten til jobben ytterligere ved å laste opp flere biblioteker og kommandolinjeargumenter.

Hvis du vil kjøre en Spark-jobbdefinisjon, må du ha minst ett lakehouse knyttet til den. Denne standard lakehouse-konteksten fungerer som standard filsystem for Spark-kjøretid. For alle Spark-koder som bruker en relativ bane til å lese/skrive data, blir dataene servert fra standard lakehouse.

Tips

Hvis du vil kjøre et spark-jobbdefinisjonselement, må du ha en hoveddefinisjonsfil og standard lakehouse-kontekst. Hvis du ikke har et lakehouse, kan du opprette en ved å følge trinnene i Create a lakehouse.