Spark Submit (äldre)

2025-03-22

Aktivitetstypen Spark Submit är ett äldre mönster för att konfigurera JAR:er som uppgifter. Databricks rekommenderar att du använder JAR-aktiviteten . Se JAR-uppgift för jobb.

Krav

Du kan endast köra spark-submit-uppgifter i nya kluster.
Du måste ladda upp JAR-filen till en plats eller en Maven-lagringsplats som är kompatibel med din beräkningskonfiguration. Se Stöd för Java- och Scala-bibliotek.
Du kan inte komma åt JAR-filer som lagras i volymer.
Spark-submit stöder inte automatisk skalning av kluster. Mer information om automatisk skalning finns i Autoskalning av kluster.
Spark-submit stödjer inte referensen till Databricks Utilities (dbutils). Om du vill använda Databricks Utilities använder du JAR-uppgifter i stället.
Om du använder ett Unity Catalog-aktiverat kluster stöds spark-submit endast om klustret använder det dedikerade åtkomstläget. Standardåtkomstläge stöds inte. Se Åtkomstlägen.
Strukturerade streamingjobb bör aldrig ha maximalt antal samtidiga körningar inställt till mer än 1. Direktuppspelningsjobb ska vara inställda på att köras med cron-uttrycket "* * * * * ?" (varje minut). Eftersom en direktuppspelningsaktivitet körs kontinuerligt bör den alltid vara den sista uppgiften i ett jobb.

Konfigurera en Spark-skicka-uppgift

Lägg till en Spark Submit aktivitet från fliken Uppgifter i användargränssnittet för jobb genom att göra följande:

I listrutan Type väljer du Spark Submit.
Använd Compute för att konfigurera ett kluster som stöder logiken i din uppgift.
Använd textrutan Parametrar för att ange alla argument och konfigurationer som krävs för att köra uppgiften som en JSON-matris med strängar.
- De första tre argumenten används för att identifiera huvudklassen som ska köras i en JAR på en angiven sökväg, som i följande exempel:
```
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
```
- Du kan inte åsidosätta inställningarna för master, deploy-mode och executor-cores som konfigurerats av Azure Databricks
- Använd --jars och --py-files för att lägga till beroende Java-, Scala- och Python-bibliotek.
- Använd --conf för att ange Spark-konfigurationer.
- Argumenten --jars, --py-files, --files stöder DBFS-sökvägar.
- Som standard använder Spark-sändningsjobbet allt tillgängligt minne, exklusive minne som är reserverat för Azure Databricks-tjänster. Du kan ange --driver-memoryoch --executor-memory till ett mindre värde för att lämna utrymme för användning utanför heap.
Klicka på Spara uppgift.

Dela via

Spark Submit (äldre)

Krav

Konfigurera en Spark-skicka-uppgift

Feedback

Ytterligare resurser