Tevékenységek hozzáadása feladatokhoz a Databricks-eszközcsomagokban
Ez a cikk példákat tartalmaz az Azure Databricks-feladatokhoz a Databricks-eszközcsomagokban felvehető különböző típusú feladatokra. Lásd: Mik azok a Databricks-eszközcsomagok?.
A legtöbb feladattevékenység-típus rendelkezik tevékenységspecifikus paraméterekkel a támogatott beállítások között, de megadhat olyan feladatparamétereket is, amelyek átadva vannak a tevékenységeknek. A dinamikus értékhivatkozások támogatottak a feladatparaméterek esetében, amelyek lehetővé teszik a feladatok közötti futtatásra vonatkozó értékek átadását. Lásd: A feladat feladatfeladatokba való futtatásával kapcsolatos kontextus átadása.
Feljegyzés
Felülbírálhatja a feladatfeladat beállításait. Lásd: Feladatfeladat-beállítások felülbírálása a Databricks-eszközcsomagokban.
Tipp.
A databricks parancssoribundle generate job
felülettel gyorsan létrehozhat erőforráskonfigurációt egy meglévő feladathoz. Lásd a csomagparancsokat.
Jegyzetfüzet-feladat
Ezzel a feladatsal jegyzetfüzetet futtathat.
Az alábbi példa egy jegyzetfüzet-feladatot ad hozzá egy feladathoz, és beállít egy feladatparamétert.my_job_run_id
A jegyzetfüzet üzembe helyezésének elérési útja ahhoz a konfigurációs fájlhoz képest van, amelyben a feladat deklarálva van. A feladat lekéri a jegyzetfüzetet az Azure Databricks-munkaterületen üzembe helyezett helyről. (A három pont a kihagyott tartalmat jelzi a rövidség kedvéért.)
# ...
resources:
jobs:
my-notebook-job:
name: my-notebook-job
# ...
tasks:
- task_key: my-notebook-task
notebook_task:
notebook_path: ./my-notebook.ipynb
parameters:
- name: my_job_run_id
default: "{{job.run_id}}"
# ...
# ...
A feladathoz megadható további leképezésekért lásd tasks > notebook_task
a feladat létrehozása művelet kérelem hasznos adatait a POST /api/2.1/jobs/create rest API-referenciában, YAML formátumban kifejezve. Lásd még: "Jegyzetfüzet" a Tevékenységtípus beállításai között, és paraméterek átadása egy Azure Databricks-feladat feladatának.
Python-szkriptfeladat
Ezzel a feladatsal Futtathat egy Python-fájlt.
Az alábbi példa egy Python-szkriptfeladatot ad hozzá egy feladathoz. Az üzembe helyezendő Python-fájl elérési útja ahhoz a konfigurációs fájlhoz képest van, amelyben a feladat deklarálva van. A feladat lekéri a Python-fájlt az Azure Databricks-munkaterületen üzembe helyezett helyről. (A három pont a kihagyott tartalmat jelzi a rövidség kedvéért.)
# ...
resources:
jobs:
my-python-script-job:
name: my-python-script-job
# ...
tasks:
- task_key: my-python-script-task
spark_python_task:
python_file: ./my-script.py
# ...
# ...
A feladathoz megadható további leképezésekért lásd tasks > spark_python_task
a feladat létrehozása művelet kérelem hasznos adatait a POST /api/2.1/jobs/create rest API-referenciában, YAML formátumban kifejezve. Lásd még: "Python-szkript" a Feladattípus beállításai között, és paraméterek átadása egy Azure Databricks-feladat feladatának.
Python-kerekes feladat
Ezzel a feladattal futtathat egy Python-kerekes fájlt.
Az alábbi példa egy Python-kerekes feladatot ad hozzá egy feladathoz. A Python-kerékfájl üzembe helyezésének elérési útja ahhoz a konfigurációs fájlhoz képest van, amelyben a feladat deklarálva van. Lásd a Databricks Asset Bundles-kódtár függőségeit. (A három pont a kihagyott tartalmat jelzi a rövidség kedvéért.)
# ...
resources:
jobs:
my-python-wheel-job:
name: my-python-wheel-job
# ...
tasks:
- task_key: my-python-wheel-task
python_wheel_task:
entry_point: run
package_name: my_package
libraries:
- whl: ./my_package/dist/my_package-*.whl
# ...
# ...
A feladathoz megadható további leképezésekért lásd tasks > python_wheel_task
a feladat létrehozása művelet kérelem hasznos adatait a POST /api/2.1/jobs/create rest API-referenciában, YAML formátumban kifejezve. Lásd még: Python-kerekes fájl fejlesztése a Databricks-eszközcsomagok használatával, valamint a "Python Wheel" a tevékenységtípus beállításaiban, valamint paraméterek átadása egy Azure Databricks-feladat feladatának.
JAR-tevékenység
Ezzel a feladatsal jart futtathat. Hivatkozhat helyi JAR-kódtárakra, illetve egy munkaterületen, egy Unity Catalog-köteten vagy egy külső felhőbeli tárolóhelyen található kódtárakra. Lásd a Databricks Asset Bundles-kódtár függőségeit.
Az alábbi példa jar-feladatot ad hozzá egy feladathoz. A JAR elérési útja a megadott kötethelyre mutat. (A három pont a kihagyott tartalmat jelzi a rövidség kedvéért.)
# ...
resources:
jobs:
my-jar-job:
name: my-jar-job
# ...
tasks:
- task_key: my-jar-task
spark_jar_task:
main_class_name: org.example.com.Main
libraries:
- jar: /Volumes/main/default/my-volume/my-project-0.1.0-SNAPSHOT.jar
# ...
# ...
A feladathoz megadható további leképezésekért lásd tasks > spark_jar_task
a feladat létrehozása művelet kérelem hasznos adatait a POST /api/2.1/jobs/create rest API-referenciában, YAML formátumban kifejezve. Lásd még a "JAR" szöveget a Tevékenységtípus beállításaiban, és paraméterek átadása egy Azure Databricks-feladat feladatának.
SQL-fájlfeladat
Ezzel a feladatsal egy munkaterületen vagy egy távoli Git-adattárban található SQL-fájlt futtathat.
Az alábbi példa egy SQL-fájlfeladatot ad hozzá egy feladathoz. Ez az SQL-fájlfeladat a megadott SQL-raktárral futtatja a megadott SQL-fájlt. (A három pont a kihagyott tartalmat jelzi a rövidség kedvéért.)
# ...
resources:
jobs:
my-sql-file-job:
name: my-sql-file-job
# ...
tasks:
- task_key: my-sql-file-task
sql_task:
file:
path: /Users/someone@example.com/hello-world.sql
source: WORKSPACE
warehouse_id: 1a111111a1111aa1
# ...
# ...
Az SQL Warehouse azonosítójának lekéréséhez nyissa meg az SQL Warehouse beállításlapját, majd másolja ki a zárójelben található azonosítót a raktár neve után az Áttekintés lap Név mezőjében.
A feladathoz megadható további leképezésekért lásd tasks > sql_task > file
a feladat létrehozása művelet kérelem hasznos adatait a POST /api/2.1/jobs/create rest API-referenciában, YAML formátumban kifejezve. Lásd még: "SQL: Fájl" a Feladattípus beállításai között.
Delta Live Tables folyamatfeladat
Ezzel a feladatsal Delta Live Tables-folyamatot futtathat. Lásd : Mi az a Delta Live Tables?.
Az alábbi példa egy Delta Live Tables-folyamatfeladatot ad hozzá egy feladathoz. Ez a Delta Live Tables-folyamat feladat futtatja a megadott folyamatot. (A három pont a kihagyott tartalmat jelzi a rövidség kedvéért.)
# ...
resources:
jobs:
my-pipeline-job:
name: my-pipeline-job
# ...
tasks:
- task_key: my-pipeline-task
pipeline_task:
pipeline_id: 11111111-1111-1111-1111-111111111111
# ...
# ...
A folyamatok azonosítóját a folyamat munkaterületen való megnyitásával és a Folyamatazonosító érték másolásával szerezheti be a folyamat beállításainak lapJának Folyamat részletei lapján.
A feladathoz megadható további leképezésekért lásd tasks > pipeline_task
a feladat létrehozása művelet kérelem hasznos adatait a POST /api/2.1/jobs/create rest API-referenciában, YAML formátumban kifejezve. Lásd még a "Delta Live Tables Pipeline" (Delta Live Tables-folyamat) című témakört a Tevékenységtípus beállításai között.
dbt-tevékenység
Ezzel a feladatsal egy vagy több dbt-parancsot futtathat. Lásd: Csatlakozás a dbt Cloudhoz.
Az alábbi példa egy dbt-feladatot ad hozzá egy feladathoz. Ez a dbt-feladat a megadott SQL Warehouse-t használja a megadott dbt-parancsok futtatásához. (A három pont a kihagyott tartalmat jelzi a rövidség kedvéért.)
# ...
resources:
jobs:
my-dbt-job:
name: my-dbt-job
# ...
tasks:
- task_key: my-dbt-task
dbt_task:
commands:
- "dbt deps"
- "dbt seed"
- "dbt run"
project_directory: /Users/someone@example.com/Testing
warehouse_id: 1a111111a1111aa1
libraries:
- pypi:
package: "dbt-databricks>=1.0.0,<2.0.0"
# ...
# ...
Az SQL Warehouse azonosítójának lekéréséhez nyissa meg az SQL Warehouse beállításlapját, majd másolja ki a zárójelben található azonosítót a raktár neve után az Áttekintés lap Név mezőjében.
A feladathoz megadható további leképezésekért lásd tasks > dbt_task
a feladat létrehozása művelet kérelem hasznos adatait a POST /api/2.1/jobs/create rest API-referenciában, YAML formátumban kifejezve. Lásd még: "dbt" a Tevékenységtípus beállításai között.
Feladatfeladat futtatása
Ezzel a feladatval egy másik feladatot futtathat.
Az alábbi példa egy futtatási feladatot tartalmaz az első feladatot futtató második feladatban.
# ...
resources:
jobs:
my-first-job:
name: my-first-job
tasks:
- task_key: my-first-job-task
new_cluster:
spark_version: "13.3.x-scala2.12"
node_type_id: "i3.xlarge"
num_workers: 2
notebook_task:
notebook_path: ./src/test.py
my_second_job:
name: my-second-job
tasks:
- task_key: my-second-job-task
run_job_task:
job_id: ${resources.jobs.my-first-job.id}
# ...
Ez a példa helyettesítéssel kéri le a futtatandó feladat azonosítóját. Ha egy feladat azonosítóját szeretné lekérni a felhasználói felületről, nyissa meg a feladatot a munkaterületen, és másolja az azonosítót a Feladatazonosító értékből a feladatok beállításlapjának Feladat részletei lapján.
A feladathoz megadható további leképezésekért lásd tasks > run_job_task
a feladat létrehozása művelet kérelem hasznos adatait a POST /api/2.1/jobs/create rest API-referenciában, YAML formátumban kifejezve.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: