Hvad er en Apache Spark-jobdefinition?

En Apache Spark-jobdefinition er et Microsoft Fabric-kodeelement, der giver dig mulighed for at sende batch-/streamingjob til Spark-klynger. Ved at uploade de binære filer fra kompileringsoutputtet fra forskellige sprog (f.eks. .jar fra Java) kan du anvende forskellig transformationslogik på de data, der hostes på et lakehouse. Ud over den binære fil kan du tilpasse jobbets funktionsmåde yderligere ved at overføre flere biblioteker og kommandolinjeargumenter.

Hvis du vil køre en Spark-jobdefinition, skal du have mindst ét lakehouse tilknyttet. Denne standard-lakehouse-kontekst fungerer som standardfilsystemet for Spark-kørsel. For enhver Spark-kode, der bruger en relativ sti til at læse/skrive data, betjenes dataene fra standard lakehouse.

Tip

Hvis du vil køre et Spark-jobdefinitionselement, skal du have en hoveddefinitionsfil og en standard-lakehouse-kontekst. Hvis du ikke har et lakehouse, kan du oprette et ved at følge trinnene i Opret et lakehouse.