Delen via


Spark Submit (verouderd)

Het taaktype Spark Submit is een verouderd patroon voor het configureren van JAR's als taken. Databricks raadt aan om de JAR-taak te gebruiken. Zie de JAR-taak voor banen.

Vereisten

  • U kunt spark-submit-taken alleen uitvoeren op nieuwe clusters.
  • U moet uw JAR-bestand uploaden naar een locatie of Maven-opslagplaats die compatibel is met uw rekenconfiguratie. Zie ondersteuning voor Java- en Scala-bibliotheken.
  • U hebt geen toegang tot JAR-bestanden die zijn opgeslagen in volumes.
  • Spark-submit biedt geen ondersteuning voor automatische schaalaanpassing van clusters. Zie Automatische schaalaanpassing van clusters voor meer informatie over automatisch schalen.
  • Spark-submit biedt geen ondersteuning voor Databricks Utilities (dbutils). Als u Databricks Utilities wilt gebruiken, gebruikt u in plaats daarvan JAR-taken.
  • Als u een Cluster met Unity Catalog gebruikt, wordt spark-submit alleen ondersteund als het cluster gebruikmaakt van de toegewezen toegangsmodus. De standaardtoegangsmodus wordt niet ondersteund. Zie Toegangsmodi.
  • Voor gestructureerde streamingtaken mag nooit een maximum aantal gelijktijdige uitvoeringen zijn ingesteld op groter dan 1. Streamingtaken moeten worden ingesteld om te worden uitgevoerd met behulp van de cron-expressie "* * * * * ?" (elke minuut). Omdat een streamingtaak continu wordt uitgevoerd, moet deze altijd de laatste taak in een taak zijn.

Een Spark Submit-taak configureren

Voeg als volgt een Spark Submit taak toe vanaf het tabblad Taken in de Taken UI:

  1. Selecteer in de vervolgkeuzelijst Spark Submit.
  2. Gebruik Compute om een cluster te configureren dat ondersteuning biedt voor de logica in uw taak.
  3. Gebruik het tekstvak Parameters om alle argumenten en configuraties op te geven die nodig zijn om uw taak uit te voeren als een JSON-matrix met tekenreeksen.
    • De eerste drie argumenten worden gebruikt om de hoofdklasse te identificeren die moet worden uitgevoerd in een JAR op een opgegeven pad, zoals in het volgende voorbeeld:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • U kunt de instellingen master, deploy-mode, en executor-cores die zijn geconfigureerd door Azure Databricks, niet overschrijven.

    • Gebruik --jars en --py-files voeg afhankelijke Java-, Scala- en Python-bibliotheken toe.

    • Gebruik --conf om Spark-configuraties in te stellen.

    • De --jarsargumenten --py-files--files ondersteunen DBFS-paden.

    • De Spark-verzendtaak maakt standaard gebruik van alle beschikbare geheugen, met uitzondering van geheugen dat is gereserveerd voor Azure Databricks-services. U kunt --driver-memoryen --executor-memory op een kleinere waarde instellen om extra ruimte vrij te maken voor gebruik buiten de heap.

  4. Klik op Taak opslaan.