Så här skapar du en Apache Spark-jobbdefinition i Infrastrukturresurser
I den här självstudien lär du dig hur du skapar en Spark-jobbdefinition i Microsoft Fabric.
Förutsättningar
Innan du börjar behöver du:
- Ett Fabric-klientkonto med en aktiv prenumeration. Skapa ett konto utan kostnad.
Dricks
Om du vill köra Definitionsobjektet för Spark-jobb måste du ha en huvuddefinitionsfil och en standardkontext för lakehouse. Om du inte har ett sjöhus kan du skapa ett genom att följa stegen i Skapa ett sjöhus.
Skapa en Spark-jobbdefinition
Det går snabbt och enkelt att skapa Spark-jobbdefinitionen. det finns flera sätt att komma igång.
Alternativ för att skapa en Spark-jobbdefinition
Det finns några sätt att komma igång med skapandeprocessen:
Startsida för datateknik: Du kan enkelt skapa en Spark-jobbdefinition via kortet Spark-jobbdefinition under avsnittet Nytt på startsidan.
Arbetsytevy: Du kan också skapa en Spark-jobbdefinition via arbetsytan i datateknik med hjälp av listrutan Ny .
Skapa vy: En annan startpunkt för att skapa en Spark-jobbdefinition är sidan Skapa under Datateknik.
Du måste ge Spark-jobbdefinitionen ett namn när du skapar den. Namnet måste vara unikt i den aktuella arbetsytan. Den nya Spark-jobbdefinitionen skapas i den aktuella arbetsytan.
Skapa en Spark-jobbdefinition för PySpark (Python)
Så här skapar du en Spark-jobbdefinition för PySpark:
Ladda ned parquet-exempelfilen yellow_tripdata_2022-01.parquet och ladda upp den till filavsnittet i lakehouse.
Skapa en ny Spark-jobbdefinition.
Välj PySpark (Python) i listrutan Språk .
Ladda ned createTablefromParquet.py exempel och ladda upp det som huvuddefinitionsfilen. Huvuddefinitionsfilen (jobb. Main) är filen som innehåller programlogik och är obligatorisk för att köra ett Spark-jobb. För varje Spark-jobbdefinition kan du bara ladda upp en huvuddefinitionsfil.
Du kan ladda upp huvuddefinitionsfilen från ditt lokala skrivbord eller ladda upp från en befintlig Azure Data Lake Storage (ADLS) Gen2 genom att tillhandahålla filens fullständiga ABFSS-sökväg. Exempel:
abfss://your-storage-account-name.dfs.core.windows.net/your-file-path
Ladda upp referensfiler som .py filer. Referensfilerna är de Python-moduler som importeras av huvuddefinitionsfilen. Precis som huvuddefinitionsfilen kan du ladda upp från skrivbordet eller en befintlig ADLS Gen2. Flera referensfiler stöds.
Dricks
Om du använder en ADLS Gen2-sökväg måste du ge det användarkonto som kör jobbet rätt behörighet till lagringskontot för att se till att filen är tillgänglig. Vi föreslår två olika sätt att göra detta:
- Tilldela användarkontot en deltagarroll för lagringskontot.
- Bevilja läs- och körningsbehörighet till användarkontot för filen via ADLS Gen2-åtkomstkontrollistan (ACL).
För en manuell körning används kontot för den aktuella inloggningsanvändaren för att köra jobbet.
Ange kommandoradsargument för jobbet om det behövs. Använd ett blanksteg som en delning för att separera argumenten.
Lägg till lakehouse-referensen till jobbet. Minst en lakehouse-referens måste läggas till i jobbet. Det här lakehouse är standardkontexten för lakehouse för jobbet.
Flera lakehouse-referenser stöds. Leta reda på lakehouse-namnet som inte är standard och den fullständiga OneLake-URL:en på sidan Spark-inställningar .
Skapa en Spark-jobbdefinition för Scala/Java
Så här skapar du en Spark-jobbdefinition för Scala/Java:
Skapa en ny Spark-jobbdefinition.
Välj Spark(Scala/Java) i listrutan Språk .
Ladda upp huvuddefinitionsfilen som en .jar fil. Huvuddefinitionsfilen är den fil som innehåller programlogik för det här jobbet och är obligatorisk för att köra ett Spark-jobb. För varje Spark-jobbdefinition kan du bara ladda upp en huvuddefinitionsfil. Ange huvudklassnamnet.
Ladda upp referensfiler som .jar filer. Referensfilerna är de filer som refereras till/importeras av huvuddefinitionsfilen.
Ange kommandoradsargument för jobbet om det behövs.
Lägg till lakehouse-referensen till jobbet. Minst en lakehouse-referens måste läggas till i jobbet. Det här lakehouse är standardkontexten för lakehouse för jobbet.
Skapa en Spark-jobbdefinition för R
Så här skapar du en Spark-jobbdefinition för SparkR(R):
Skapa en ny Spark-jobbdefinition.
Välj SparkR(R) i listrutan Språk .
Ladda upp huvuddefinitionsfilen som en . R-fil . Huvuddefinitionsfilen är den fil som innehåller programlogik för det här jobbet och är obligatorisk för att köra ett Spark-jobb. För varje Spark-jobbdefinition kan du bara ladda upp en huvuddefinitionsfil.
Ladda upp referensfiler som . R-filer . Referensfilerna är de filer som refereras till/importeras av huvuddefinitionsfilen.
Ange kommandoradsargument för jobbet om det behövs.
Lägg till lakehouse-referensen till jobbet. Minst en lakehouse-referens måste läggas till i jobbet. Det här lakehouse är standardkontexten för lakehouse för jobbet.
Kommentar
Spark-jobbdefinitionen skapas i den aktuella arbetsytan.
Alternativ för att anpassa Spark-jobbdefinitioner
Det finns några alternativ för att ytterligare anpassa körningen av Spark-jobbdefinitioner.
- Spark Compute: På fliken Spark Compute kan du se körningsversionen som är den version av Spark som ska användas för att köra jobbet. Du kan också se de Spark-konfigurationsinställningar som ska användas för att köra jobbet. Du kan anpassa Spark-konfigurationsinställningarna genom att klicka på knappen Lägg till .
Optimering: På fliken Optimering kan du aktivera och konfigurera återförsöksprincipen för jobbet. När det är aktiverat görs ett nytt försök om det misslyckas. Du kan också ange det maximala antalet återförsök och intervallet mellan återförsök. För varje återförsök startas jobbet om. Kontrollera att jobbet är idempotent.