Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Aktivitetstypen Spark Submit är ett äldre mönster för att konfigurera JAR:er som uppgifter. Databricks rekommenderar att du använder JAR-aktiviteten . Se JAR-uppgift för jobb.
Krav
- Du kan endast köra spark-submit-uppgifter i nya kluster.
- Du måste ladda upp JAR-filen till en plats eller en Maven-lagringsplats som är kompatibel med din beräkningskonfiguration. Se Stöd för Java- och Scala-bibliotek.
- Du kan inte komma åt JAR-filer som lagras i volymer.
- Spark-submit stöder inte automatisk skalning av kluster. Mer information om automatisk skalning finns i Autoskalning av kluster.
- Spark-submit stödjer inte referensen till Databricks Utilities (dbutils). Om du vill använda Databricks Utilities använder du JAR-uppgifter i stället.
- Om du använder ett Unity Catalog-aktiverat kluster stöds spark-submit endast om klustret använder det dedikerade åtkomstläget. Standardåtkomstläge stöds inte. Se Åtkomstlägen.
- Strukturerade streamingjobb bör aldrig ha maximalt antal samtidiga körningar inställt till mer än 1. Direktuppspelningsjobb ska vara inställda på att köras med cron-uttrycket
"* * * * * ?"
(varje minut). Eftersom en direktuppspelningsaktivitet körs kontinuerligt bör den alltid vara den sista uppgiften i ett jobb.
Konfigurera en Spark-skicka-uppgift
Lägg till en Spark Submit
aktivitet från fliken Uppgifter i användargränssnittet för jobb genom att göra följande:
- I listrutan Type väljer du
Spark Submit
. - Använd Compute för att konfigurera ett kluster som stöder logiken i din uppgift.
- Använd textrutan Parametrar för att ange alla argument och konfigurationer som krävs för att köra uppgiften som en JSON-matris med strängar.
De första tre argumenten används för att identifiera huvudklassen som ska köras i en JAR på en angiven sökväg, som i följande exempel:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
Du kan inte åsidosätta inställningarna för
master
,deploy-mode
ochexecutor-cores
som konfigurerats av Azure DatabricksAnvänd
--jars
och--py-files
för att lägga till beroende Java-, Scala- och Python-bibliotek.Använd
--conf
för att ange Spark-konfigurationer.Argumenten
--jars
,--py-files
,--files
stöder DBFS-sökvägar.Som standard använder Spark-sändningsjobbet allt tillgängligt minne, exklusive minne som är reserverat för Azure Databricks-tjänster. Du kan ange
--driver-memory
och--executor-memory
till ett mindre värde för att lämna utrymme för användning utanför heap.
- Klicka på Spara uppgift.