Lägga till uppgifter i jobb i Databricks-tillgångspaket
Den här artikeln innehåller exempel på olika typer av uppgifter som du kan lägga till i Azure Databricks-jobb i Databricks-tillgångspaket. Se Vad är Databricks-tillgångspaket?.
De flesta jobbaktivitetstyper har uppgiftsspecifika parametrar bland de inställningar som stöds, men du kan också definiera jobbparametrar som skickas till aktiviteter. Referenser till dynamiskt värde stöds för jobbparametrar, vilket gör det möjligt att skicka värden som är specifika för jobbkörningen mellan aktiviteter. Se Skicka kontext om jobbkörningar till jobbaktiviteter.
Kommentar
Du kan åsidosätta jobbaktivitetsinställningarna. Se Åsidosätt inställningar för jobbuppgifter i Databricks-tillgångspaket.
Dricks
Om du snabbt vill generera resurskonfiguration för ett befintligt jobb med hjälp av Databricks CLI kan du använda bundle generate job
kommandot . Se paketkommandon.
Notebook-uppgift
Du använder den här uppgiften för att köra en notebook-fil.
I följande exempel läggs en notebook-uppgift till i ett jobb och en jobbparameter med namnet my_job_run_id
. Sökvägen för notebook-filen som ska distribueras är relativ till konfigurationsfilen där den här uppgiften deklareras. Uppgiften hämtar notebook-filen från den distribuerade platsen på Azure Databricks-arbetsytan. (Ellipser anger utelämnat innehåll, för korthet.)
# ...
resources:
jobs:
my-notebook-job:
name: my-notebook-job
# ...
tasks:
- task_key: my-notebook-task
notebook_task:
notebook_path: ./my-notebook.ipynb
parameters:
- name: my_job_run_id
default: "{{job.run_id}}"
# ...
# ...
Ytterligare mappningar som du kan ange för den här uppgiften tasks > notebook_task
finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även "Notebook" i Alternativ för aktivitetstyp och Skicka parametrar till en Azure Databricks-jobbaktivitet.
Python-skriptuppgift
Du använder den här uppgiften för att köra en Python-fil.
I följande exempel läggs en Python-skriptaktivitet till i ett jobb. Sökvägen för Python-filen som ska distribueras är relativ till konfigurationsfilen där den här uppgiften deklareras. Uppgiften hämtar Python-filen från dess distribuerade plats på Azure Databricks-arbetsytan. (Ellipser anger utelämnat innehåll, för korthet.)
# ...
resources:
jobs:
my-python-script-job:
name: my-python-script-job
# ...
tasks:
- task_key: my-python-script-task
spark_python_task:
python_file: ./my-script.py
# ...
# ...
Ytterligare mappningar som du kan ange för den här uppgiften tasks > spark_python_task
finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även "Python-skript" i Alternativ för aktivitetstyp och Skicka parametrar till en Azure Databricks-jobbaktivitet.
Python-hjulaktivitet
Du använder den här uppgiften för att köra en Python-hjulfil.
I följande exempel läggs en Python-hjulaktivitet till i ett jobb. Sökvägen för Python-hjulfilen som ska distribueras är relativ till konfigurationsfilen där den här uppgiften deklareras. Se Beroenden för Biblioteksberoenden för Databricks-tillgångspaket. (Ellipser anger utelämnat innehåll, för korthet.)
# ...
resources:
jobs:
my-python-wheel-job:
name: my-python-wheel-job
# ...
tasks:
- task_key: my-python-wheel-task
python_wheel_task:
entry_point: run
package_name: my_package
libraries:
- whl: ./my_package/dist/my_package-*.whl
# ...
# ...
Ytterligare mappningar som du kan ange för den här uppgiften tasks > python_wheel_task
finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även Utveckla en Python-hjulfil med Databricks-tillgångspaket och "Python Wheel" i Alternativ för aktivitetstyp och Skicka parametrar till en Azure Databricks-jobbaktivitet.
JAR-uppgift
Du använder den här uppgiften för att köra en JAR-fil. Du kan referera till lokala JAR-bibliotek eller de på en arbetsyta, en Unity Catalog-volym eller en extern molnlagringsplats. Se Beroenden för Biblioteksberoenden för Databricks-tillgångspaket.
I följande exempel läggs en JAR-uppgift till i ett jobb. Sökvägen för JAR-filen är till den angivna volymplatsen. (Ellipser anger utelämnat innehåll, för korthet.)
# ...
resources:
jobs:
my-jar-job:
name: my-jar-job
# ...
tasks:
- task_key: my-jar-task
spark_jar_task:
main_class_name: org.example.com.Main
libraries:
- jar: /Volumes/main/default/my-volume/my-project-0.1.0-SNAPSHOT.jar
# ...
# ...
Ytterligare mappningar som du kan ange för den här uppgiften tasks > spark_jar_task
finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även "JAR" i Alternativ för aktivitetstyp och Skicka parametrar till en Azure Databricks-jobbaktivitet.
SQL-filaktivitet
Du använder den här uppgiften för att köra en SQL-fil som finns på en arbetsyta eller en fjärransluten Git-lagringsplats.
I följande exempel läggs en SQL-filaktivitet till i ett jobb. Den här SQL-filuppgiften använder det angivna SQL-lagret för att köra den angivna SQL-filen. (Ellipser anger utelämnat innehåll, för korthet.)
# ...
resources:
jobs:
my-sql-file-job:
name: my-sql-file-job
# ...
tasks:
- task_key: my-sql-file-task
sql_task:
file:
path: /Users/someone@example.com/hello-world.sql
source: WORKSPACE
warehouse_id: 1a111111a1111aa1
# ...
# ...
Om du vill hämta ett SQL-lagers ID öppnar du inställningssidan för SQL-lagret och kopierar sedan det ID som finns inom parenteser efter namnet på lagret i fältet Namn på fliken Översikt .
Ytterligare mappningar som du kan ange för den här uppgiften tasks > sql_task > file
finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även "SQL: File" i Alternativ för aktivitetstyp.
Delta Live Tables-pipelineaktivitet
Du använder den här uppgiften för att köra en Delta Live Tables-pipeline. Se Vad är Delta Live Tables?.
I följande exempel läggs pipelineaktiviteten Delta Live Tables till i ett jobb. Den här pipelineaktiviteten för Delta Live Tables kör den angivna pipelinen. (Ellipser anger utelämnat innehåll, för korthet.)
# ...
resources:
jobs:
my-pipeline-job:
name: my-pipeline-job
# ...
tasks:
- task_key: my-pipeline-task
pipeline_task:
pipeline_id: 11111111-1111-1111-1111-111111111111
# ...
# ...
Du kan hämta en pipelines ID genom att öppna pipelinen på arbetsytan och kopiera pipeline-ID-värdet på fliken Pipelineinformation på pipelinens inställningssida.
Ytterligare mappningar som du kan ange för den här uppgiften tasks > pipeline_task
finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även "Delta Live Tables Pipeline" i Alternativ för aktivitetstyp.
dbt-uppgift
Du använder den här uppgiften för att köra ett eller flera dbt-kommandon. Se Ansluta till dbt Cloud.
I följande exempel läggs en dbt-uppgift till i ett jobb. Den här dbt-aktiviteten använder det angivna SQL-lagret för att köra de angivna dbt-kommandona. (Ellipser anger utelämnat innehåll, för korthet.)
# ...
resources:
jobs:
my-dbt-job:
name: my-dbt-job
# ...
tasks:
- task_key: my-dbt-task
dbt_task:
commands:
- "dbt deps"
- "dbt seed"
- "dbt run"
project_directory: /Users/someone@example.com/Testing
warehouse_id: 1a111111a1111aa1
libraries:
- pypi:
package: "dbt-databricks>=1.0.0,<2.0.0"
# ...
# ...
Om du vill hämta ett SQL-lagers ID öppnar du inställningssidan för SQL-lagret och kopierar sedan det ID som finns inom parenteser efter namnet på lagret i fältet Namn på fliken Översikt .
Ytterligare mappningar som du kan ange för den här uppgiften tasks > dbt_task
finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format. Se även "dbt" i Alternativ för aktivitetstyp.
Köra jobbaktivitet
Du använder den här uppgiften för att köra ett annat jobb.
Följande exempel innehåller en körningsjobbaktivitet i det andra jobbet som kör det första jobbet.
# ...
resources:
jobs:
my-first-job:
name: my-first-job
tasks:
- task_key: my-first-job-task
new_cluster:
spark_version: "13.3.x-scala2.12"
node_type_id: "i3.xlarge"
num_workers: 2
notebook_task:
notebook_path: ./src/test.py
my_second_job:
name: my-second-job
tasks:
- task_key: my-second-job-task
run_job_task:
job_id: ${resources.jobs.my-first-job.id}
# ...
I det här exemplet används en ersättning för att hämta ID:t för jobbet som ska köras. Om du vill hämta ett jobbs ID från användargränssnittet öppnar du jobbet på arbetsytan och kopierar ID:t från jobb-ID-värdet på fliken Jobbinformation på sidan För jobbinställningar.
Ytterligare mappningar som du kan ange för den här uppgiften tasks > run_job_task
finns i skapa jobbåtgärdens nyttolast för begäran enligt definitionen i POST /api/2.1/jobs/create i REST API-referensen uttryckt i YAML-format.
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för