Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Het taaktype Spark Submit is een verouderd patroon voor het configureren van JAR's als taken. Databricks raadt aan om de JAR-taak te gebruiken. Zie de JAR-taak voor banen.
Vereisten
- U kunt spark-submit-taken alleen uitvoeren op nieuwe clusters.
- U moet uw JAR-bestand uploaden naar een locatie of Maven-opslagplaats die compatibel is met uw rekenconfiguratie. Zie ondersteuning voor Java- en Scala-bibliotheken.
- U hebt geen toegang tot JAR-bestanden die zijn opgeslagen in volumes.
- Spark-submit biedt geen ondersteuning voor automatische schaalaanpassing van clusters. Zie Automatische schaalaanpassing van clusters voor meer informatie over automatisch schalen.
- Spark-submit biedt geen ondersteuning voor Databricks Utilities (dbutils). Als u Databricks Utilities wilt gebruiken, gebruikt u in plaats daarvan JAR-taken.
- Als u een Cluster met Unity Catalog gebruikt, wordt spark-submit alleen ondersteund als het cluster gebruikmaakt van de toegewezen toegangsmodus. De standaardtoegangsmodus wordt niet ondersteund. Zie Toegangsmodi.
- Voor gestructureerde streamingtaken mag nooit een maximum aantal gelijktijdige uitvoeringen zijn ingesteld op groter dan 1. Streamingtaken moeten worden ingesteld om te worden uitgevoerd met behulp van de cron-expressie
"* * * * * ?"
(elke minuut). Omdat een streamingtaak continu wordt uitgevoerd, moet deze altijd de laatste taak in een taak zijn.
Een Spark Submit-taak configureren
Voeg als volgt een Spark Submit
taak toe vanaf het tabblad Taken in de Taken UI:
- Selecteer in de vervolgkeuzelijst
Spark Submit
. - Gebruik Compute om een cluster te configureren dat ondersteuning biedt voor de logica in uw taak.
- Gebruik het tekstvak Parameters om alle argumenten en configuraties op te geven die nodig zijn om uw taak uit te voeren als een JSON-matrix met tekenreeksen.
De eerste drie argumenten worden gebruikt om de hoofdklasse te identificeren die moet worden uitgevoerd in een JAR op een opgegeven pad, zoals in het volgende voorbeeld:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
U kunt de instellingen
master
,deploy-mode
, enexecutor-cores
die zijn geconfigureerd door Azure Databricks, niet overschrijven.Gebruik
--jars
en--py-files
voeg afhankelijke Java-, Scala- en Python-bibliotheken toe.Gebruik
--conf
om Spark-configuraties in te stellen.De
--jars
argumenten--py-files
--files
ondersteunen DBFS-paden.De Spark-verzendtaak maakt standaard gebruik van alle beschikbare geheugen, met uitzondering van geheugen dat is gereserveerd voor Azure Databricks-services. U kunt
--driver-memory
en--executor-memory
op een kleinere waarde instellen om extra ruimte vrij te maken voor gebruik buiten de heap.
- Klik op Taak opslaan.