Python tugas skrip untuk pekerjaan

Gunakan tugas Python skrip untuk menjalankan file Python.

Mengonfigurasi tugas skrip Python

Sebelum memulai, Anda harus mengunggah skrip Python ke lokasi yang dapat diakses oleh pengguna yang mengonfigurasi pekerjaan. Databricks merekomendasikan penggunaan file ruang kerja untuk skrip Python. Lihat Apa itu file ruang kerja?.

Note

UI pekerjaan menampilkan opsi secara dinamis berdasarkan pengaturan lain yang dikonfigurasi.

Databricks merekomendasikan untuk tidak menyimpan kode atau data menggunakan direktori root atau mount DBFS. Sebagai gantinya, Anda dapat memigrasikan skrip Python ke file atau volume ruang kerja atau menggunakan URI untuk mengakses penyimpanan objek cloud.

Untuk memulai alur untuk mengonfigurasi tugas Python script:

  1. Navigasi ke tab Tugas di antarmuka pengguna Pekerjaan.
  2. Klik Tambahkan tugas.
  3. Masukkan nama ke dalam bidang Nama tugas .
  4. Di menu drop-down Type, pilih Python script.

Mengonfigurasi sumber

Di menu drop-down Source, pilih lokasi untuk skrip Python menggunakan salah satu opsi berikut.

Workspace

Gunakan Workspace untuk mengonfigurasi skrip Python yang disimpan menggunakan file ruang kerja.

  1. Klik kolom Jalur. Dialog Pilih File Python muncul.
  2. Telusuri ke skrip Python, klik untuk menyoroti file, dan klik Konfirmasi.

Note

Anda dapat menggunakan opsi ini untuk mengonfigurasi tugas pada skrip Python yang disimpan di folder Databricks Git. Databricks merekomendasikan menggunakan opsi penyedia Git dan repositori Git remote untuk kontrol versi aset yang dijadwalkan dengan pekerjaan.

DBFS/ADLS

Gunakan DBFS/ADLS untuk mengonfigurasi skrip Python yang disimpan dalam volume, lokasi penyimpanan objek cloud, atau akar DBFS.

Databricks merekomendasikan penyimpanan skrip Python dalam volume Katalog Unity atau penyimpanan objek cloud.

Di bidang Path, masukkan URI ke skrip Python Anda. Misalnya, dbfs:/path/to/script.py atau abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py.

Penyedia Git

Gunakan penyedia Git untuk mengonfigurasi skrip Python yang disimpan di repositori Git jarak jauh.

Opsi yang ditampilkan oleh UI bergantung pada apakah Anda telah mengonfigurasi penyedia Git di tempat lain atau belum. Hanya satu repositori Git jarak jauh yang dapat digunakan untuk semua tugas dalam pekerjaan. Lihat Penggunaan Git dengan Tugas Lakeflow.

Bidang Jalur muncul setelah Anda mengonfigurasi referensi git.

Masukkan jalur relatif untuk skrip Python Anda, seperti etl/bronze/ingest.py.

Important

Saat Anda memasukkan jalur relatif, jangan mulai dengan / atau ./. Misalnya, jika jalur absolut untuk kode Python yang ingin Anda akses /etl/bronze/ingest.py, masukkan etl/bronze/ingest.py di bidang Path.

Mengonfigurasi komputasi dan pustaka yang bergantung

  1. Gunakan Komputasi untuk memilih atau mengonfigurasi kluster yang mendukung logika dalam skrip Anda.
  2. Jika Anda menggunakan Serverless komputasi, gunakan bidang Lingkungan dan Pustaka untuk memilih, mengedit, atau menambahkan lingkungan baru. Lihat Mengonfigurasi lingkungan tanpa server.
  3. Untuk semua konfigurasi komputasi lainnya, klik + Tambahkan di bawah Pustaka yang Bergantung. Kotak dialog Tambahkan Pustaka Dependen muncul.
    • Anda dapat memilih pustaka yang sudah ada atau mengunggah pustaka baru.
    • Anda hanya dapat menggunakan pustaka yang disimpan di lokasi yang didukung oleh konfigurasi komputasi Anda. Lihat dukungan pustaka Python.
    • Setiap Sumber Pustaka memiliki alur yang berbeda untuk memilih atau mengunggah pustaka. Lihat Menginstal pustaka.

Menyelesaikan konfigurasi pekerjaan

  1. (Opsional) Konfigurasikan Parameters sebagai daftar string yang diteruskan sebagai argumen CLI ke skrip Python. Lihat Konfigurasi parameter tugas.
  2. Klik Simpan tugas.