Lägga till uppgifter i jobb i Databricks-tillgångspaket

Artikel
06/11/2024

Den här artikeln innehåller exempel på olika typer av uppgifter som du kan lägga till i Azure Databricks-jobb i Databricks-tillgångspaket. Se Vad är Databricks-tillgångspaket?.

De flesta jobbaktivitetstyper har uppgiftsspecifika parametrar bland de inställningar som stöds, men du kan också definiera jobbparametrar som skickas till aktiviteter. Referenser till dynamiskt värde stöds för jobbparametrar, vilket gör det möjligt att skicka värden som är specifika för jobbkörningen mellan aktiviteter. Se Skicka kontext om jobbkörningar till jobbaktiviteter.

Kommentar

Du kan åsidosätta jobbaktivitetsinställningarna. Se Åsidosätt inställningar för jobbuppgifter i Databricks-tillgångspaket.

Dricks

Om du snabbt vill generera resurskonfiguration för ett befintligt jobb med hjälp av Databricks CLI kan du använda bundle generate job kommandot . Se paketkommandon.

Notebook-uppgift

Du använder den här uppgiften för att köra en notebook-fil.

I följande exempel läggs en notebook-uppgift till i ett jobb och en jobbparameter med namnet my_job_run_id. Sökvägen för notebook-filen som ska distribueras är relativ till konfigurationsfilen där den här uppgiften deklareras. Uppgiften hämtar notebook-filen från den distribuerade platsen på Azure Databricks-arbetsytan. (Ellipser anger utelämnat innehåll, för korthet.)

# ...
resources:
  jobs:
    my-notebook-job:
      name: my-notebook-job
      # ...
      tasks:
        - task_key: my-notebook-task
          notebook_task:
            notebook_path: ./my-notebook.ipynb
      parameters:
        - name: my_job_run_id
          default: "{{job.run_id}}"
        # ...
# ...

Ytterligare mappningar som du kan ange för den här uppgiften tasks > notebook_task finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även "Notebook" i Alternativ för aktivitetstyp och Skicka parametrar till en Azure Databricks-jobbaktivitet.

Python-skriptuppgift

Du använder den här uppgiften för att köra en Python-fil.

I följande exempel läggs en Python-skriptaktivitet till i ett jobb. Sökvägen för Python-filen som ska distribueras är relativ till konfigurationsfilen där den här uppgiften deklareras. Uppgiften hämtar Python-filen från dess distribuerade plats på Azure Databricks-arbetsytan. (Ellipser anger utelämnat innehåll, för korthet.)

# ...
resources:
  jobs:
    my-python-script-job:
      name: my-python-script-job
      # ...
      tasks:
        - task_key: my-python-script-task
          spark_python_task:
            python_file: ./my-script.py
          # ...
# ...

Ytterligare mappningar som du kan ange för den här uppgiften tasks > spark_python_task finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även "Python-skript" i Alternativ för aktivitetstyp och Skicka parametrar till en Azure Databricks-jobbaktivitet.

Python-hjulaktivitet

Du använder den här uppgiften för att köra en Python-hjulfil.

I följande exempel läggs en Python-hjulaktivitet till i ett jobb. Sökvägen för Python-hjulfilen som ska distribueras är relativ till konfigurationsfilen där den här uppgiften deklareras. Se Beroenden för Biblioteksberoenden för Databricks-tillgångspaket. (Ellipser anger utelämnat innehåll, för korthet.)

# ...
resources:
  jobs:
    my-python-wheel-job:
      name: my-python-wheel-job
      # ...
      tasks:
        - task_key: my-python-wheel-task
          python_wheel_task:
            entry_point: run
            package_name: my_package
          libraries:
            - whl: ./my_package/dist/my_package-*.whl
          # ...
# ...

Ytterligare mappningar som du kan ange för den här uppgiften tasks > python_wheel_task finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även Utveckla en Python-hjulfil med Databricks-tillgångspaket och "Python Wheel" i Alternativ för aktivitetstyp och Skicka parametrar till en Azure Databricks-jobbaktivitet.

JAR-uppgift

Du använder den här uppgiften för att köra en JAR-fil. Du kan referera till lokala JAR-bibliotek eller de på en arbetsyta, en Unity Catalog-volym eller en extern molnlagringsplats. Se Beroenden för Biblioteksberoenden för Databricks-tillgångspaket.

I följande exempel läggs en JAR-uppgift till i ett jobb. Sökvägen för JAR-filen är till den angivna volymplatsen. (Ellipser anger utelämnat innehåll, för korthet.)

# ...
resources:
  jobs:
    my-jar-job:
      name: my-jar-job
      # ...
      tasks:
        - task_key: my-jar-task
          spark_jar_task:
            main_class_name: org.example.com.Main
          libraries:
            - jar: /Volumes/main/default/my-volume/my-project-0.1.0-SNAPSHOT.jar
          # ...
# ...

Ytterligare mappningar som du kan ange för den här uppgiften tasks > spark_jar_task finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även "JAR" i Alternativ för aktivitetstyp och Skicka parametrar till en Azure Databricks-jobbaktivitet.

SQL-filaktivitet

Du använder den här uppgiften för att köra en SQL-fil som finns på en arbetsyta eller en fjärransluten Git-lagringsplats.

I följande exempel läggs en SQL-filaktivitet till i ett jobb. Den här SQL-filuppgiften använder det angivna SQL-lagret för att köra den angivna SQL-filen. (Ellipser anger utelämnat innehåll, för korthet.)

# ...
resources:
  jobs:
    my-sql-file-job:
      name: my-sql-file-job
      # ...
      tasks:
        - task_key: my-sql-file-task
          sql_task:
            file:
              path: /Users/someone@example.com/hello-world.sql
              source: WORKSPACE
            warehouse_id: 1a111111a1111aa1
          # ...
# ...

Om du vill hämta ett SQL-lagers ID öppnar du inställningssidan för SQL-lagret och kopierar sedan det ID som finns inom parenteser efter namnet på lagret i fältet Namn på fliken Översikt .

Ytterligare mappningar som du kan ange för den här uppgiften tasks > sql_task > file finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även "SQL: File" i Alternativ för aktivitetstyp.

Delta Live Tables-pipelineaktivitet

Du använder den här uppgiften för att köra en Delta Live Tables-pipeline. Se Vad är Delta Live Tables?.

I följande exempel läggs pipelineaktiviteten Delta Live Tables till i ett jobb. Den här pipelineaktiviteten för Delta Live Tables kör den angivna pipelinen. (Ellipser anger utelämnat innehåll, för korthet.)

# ...
resources:
  jobs:
    my-pipeline-job:
      name: my-pipeline-job
      # ...
      tasks:
        - task_key: my-pipeline-task
          pipeline_task:
            pipeline_id: 11111111-1111-1111-1111-111111111111
          # ...
# ...

Du kan hämta en pipelines ID genom att öppna pipelinen på arbetsytan och kopiera pipeline-ID-värdet på fliken Pipelineinformation på pipelinens inställningssida.

Ytterligare mappningar som du kan ange för den här uppgiften tasks > pipeline_task finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även "Delta Live Tables Pipeline" i Alternativ för aktivitetstyp.

dbt-uppgift

Du använder den här uppgiften för att köra ett eller flera dbt-kommandon. Se Ansluta till dbt Cloud.

I följande exempel läggs en dbt-uppgift till i ett jobb. Den här dbt-aktiviteten använder det angivna SQL-lagret för att köra de angivna dbt-kommandona. (Ellipser anger utelämnat innehåll, för korthet.)

# ...
resources:
  jobs:
    my-dbt-job:
      name: my-dbt-job
      # ...
      tasks:
        - task_key: my-dbt-task
          dbt_task:
            commands:
              - "dbt deps"
              - "dbt seed"
              - "dbt run"
            project_directory: /Users/someone@example.com/Testing
            warehouse_id: 1a111111a1111aa1
          libraries:
            - pypi:
                package: "dbt-databricks>=1.0.0,<2.0.0"
          # ...
# ...

Ytterligare mappningar som du kan ange för den här uppgiften tasks > dbt_task finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även "dbt" i Alternativ för aktivitetstyp.

Köra jobbaktivitet

Du använder den här uppgiften för att köra ett annat jobb.

Följande exempel innehåller en körningsjobbaktivitet i det andra jobbet som kör det första jobbet.

# ...
resources:
  jobs:
    my-first-job:
      name: my-first-job
      tasks:
        - task_key: my-first-job-task
          new_cluster:
            spark_version: "13.3.x-scala2.12"
            node_type_id: "i3.xlarge"
            num_workers: 2
          notebook_task:
            notebook_path: ./src/test.py
    my_second_job:
      name: my-second-job
      tasks:
        - task_key: my-second-job-task
          run_job_task:
            job_id: ${resources.jobs.my-first-job.id}
  # ...

I det här exemplet används en ersättning för att hämta ID:t för jobbet som ska köras. Om du vill hämta ett jobbs ID från användargränssnittet öppnar du jobbet på arbetsytan och kopierar ID:t från jobb-ID-värdet på fliken Jobbinformation på sidan För jobbinställningar.

Ytterligare mappningar som du kan ange för den här uppgiften tasks > run_job_task finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format.

Dela via