Bagikan melalui


Mengonfigurasi dan mengedit Pekerjaan Databricks

Anda dapat membuat dan menjalankan pekerjaan menggunakan UI Pekerjaan, atau alat pengembang seperti Databricks CLI atau REST API. Dengan menggunakan UI atau API, Anda dapat memperbaiki dan menjalankan ulang pekerjaan yang gagal atau dibatalkan. Artikel ini memperlihatkan cara membuat, mengonfigurasi, dan mengedit pekerjaan menggunakan Alur Kerja antarmuka pengguna ruang kerja. Untuk informasi tentang alat lain, lihat yang berikut ini:

  • Untuk mempelajari tentang menggunakan Databricks CLI untuk membuat dan menjalankan pekerjaan, lihat Apa itu Databricks CLI?.
  • Untuk mempelajari tentang menggunakan JOBS API untuk membuat dan menjalankan pekerjaan, lihat Pekerjaan di referensi REST API.
  • Jika Anda lebih suka pendekatan infrastructure-as-code (IaC) untuk mengonfigurasi pekerjaan, Anda dapat menggunakan Bundel Aset Databricks (DAB). Untuk mempelajari tentang menggunakan DAB untuk mengonfigurasi dan mengatur pekerjaan Anda, lihat Bundel Aset Databricks.
  • Untuk mempelajari cara menjalankan dan menjadwalkan pekerjaan secara langsung di buku catatan Databricks, lihat Membuat dan mengelola pekerjaan buku catatan terjadwal.

Tip

Untuk melihat pekerjaan sebagai YAML, klik menu kebab di sebelah kiri Jalankan sekarang untuk pekerjaan lalu klik Beralih ke versi kode (YAML).

Apa konfigurasi minimum yang diperlukan untuk pekerjaan?

Semua pekerjaan di Azure Databricks memerlukan hal berikut:

  • Tugas yang berisi logika yang akan dijalankan, seperti buku catatan Databricks. Lihat Mengonfigurasi dan mengedit tugas Databricks
  • Sumber daya komputasi untuk menjalankan logika. Sumber daya komputasi dapat berupa komputasi tanpa server, komputasi pekerjaan klasik, atau komputasi serba guna. Lihat Mengonfigurasi komputasi untuk pekerjaan.
  • Jadwal yang ditentukan untuk kapan pekerjaan harus dijalankan. Secara opsional, Anda dapat menghilangkan pengaturan jadwal dan memicu pekerjaan secara manual.
  • Nama yang unik.

Membuat tugas baru

Bagian ini menjelaskan langkah-langkah untuk membuat pekerjaan baru dengan tugas dan jadwal buku catatan dengan UI ruang kerja.

Pekerjaan berisi satu atau beberapa tugas. Anda membuat pekerjaan baru dengan mengonfigurasi tugas pertama untuk pekerjaan tersebut.

Catatan

Setiap jenis tugas memiliki opsi konfigurasi dinamis di antarmuka pengguna ruang kerja. Lihat Mengonfigurasi dan mengedit tugas Databricks.

  1. Klik Ikon Alur KerjaAlur Kerja di bar samping dan klik Tombol Buat Pekerjaan.
  2. Masukkan Nama tugas.
  3. Pilih buku catatan untuk bidang Jalur .
  4. Klik Buat tugas.

Jika ruang kerja Anda tidak diaktifkan untuk komputasi tanpa server untuk pekerjaan, Anda harus memilih opsi Komputasi . Databricks merekomendasikan untuk selalu menggunakan komputasi pekerjaan saat mengonfigurasi tugas.

Pekerjaan baru muncul di daftar pekerjaan ruang kerja dengan nama New Job <date> <time>default .

Anda dapat terus menambahkan lebih banyak tugas dalam pekerjaan yang sama, jika diperlukan untuk alur kerja Anda.

Menjadwalkan pekerjaan

Anda dapat memutuskan kapan pekerjaan Anda dijalankan. Secara default, ini hanya akan berjalan ketika Anda memulainya secara manual, tetapi Anda juga dapat mengonfigurasinya untuk berjalan secara otomatis. Anda dapat membuat pemicu untuk menjalankan pekerjaan sesuai jadwal, atau berdasarkan peristiwa.

Mengontrol alur tugas dalam pekerjaan

Saat mengonfigurasi beberapa tugas dalam pekerjaan, Anda dapat menggunakan tugas khusus untuk mengontrol cara tugas berjalan. Lihat Mengontrol alur tugas dalam pekerjaan Databricks.

Pilih pekerjaan yang akan diedit di ruang kerja

Untuk mengedit pekerjaan yang sudah ada dengan UI ruang kerja, lakukan hal berikut:

  1. Klik Ikon Alur KerjaAlur Kerja di bilah samping.
  2. Di kolom Nama, klik nama pekerjaan.

Gunakan antarmuka pengguna pekerjaan untuk melakukan hal berikut:

  • Edit pengaturan pekerjaan
  • Mengganti nama, mengkloning, atau menghapus pekerjaan
  • Menambahkan tugas baru ke pekerjaan yang sudah ada
  • Mengedit pengaturan tugas

Catatan

Anda juga dapat melihat definisi JSON untuk digunakan dengan REST API mendapatkan, membuat, dan mengatur ulang titik akhir.

Mengedit pengaturan pekerjaan

Panel samping berisi detail Pekerjaan. Anda dapat mengubah pemicu pekerjaan, konfigurasi komputasi, pemberitahuan, jumlah maksimum eksekusi bersamaan, mengonfigurasi ambang durasi, dan menambahkan atau mengubah tag. Anda juga dapat mengedit izin pekerjaan jika kontrol akses pekerjaan diaktifkan.

Menambahkan parameter untuk semua tugas pekerjaan

Parameter yang dikonfigurasi pada tingkat pekerjaan diteruskan ke tugas pekerjaan yang menerima parameter nilai kunci, termasuk file roda Python yang dikonfigurasi untuk menerima argumen kata kunci. Lihat Membuat parameter pekerjaan.

Menambahkan tag ke pekerjaan

Untuk menambahkan label atau atribut kunci-nilai ke pekerjaan Anda, Anda dapat menambahkan tag saat mengedit pekerjaan. Anda dapat menggunakan tag untuk memfilter pekerjaan di daftar Pekerjaan. Misalnya, Anda dapat menggunakan department tag untuk memfilter semua pekerjaan milik departemen tertentu.

Catatan

Karena tag pekerjaan tidak dirancang untuk menyimpan informasi sensitif seperti informasi atau kata sandi yang dapat diidentifikasi secara pribadi, Databricks merekomendasikan penggunaan tag hanya untuk nilai yang tidak sensitif.

Tag juga menyebar ke kluster pekerjaan yang dibuat saat pekerjaan dijalankan, memungkinkan Anda menggunakan tag dengan pemantauan kluster yang ada.

Klik + Tag di panel sisi Detail pekerjaan untuk menambahkan atau mengedit tag. Anda dapat menambahkan tag sebagai label atau pasangan kunci-nilai. Untuk menambahkan label, masukkan label di bidang Kunci dan kosongkan Nilai.

Menambahkan kebijakan anggaran ke pekerjaan

Penting

Fitur ini ada di Pratinjau Umum.

Jika ruang kerja Anda menggunakan kebijakan anggaran untuk mengaitkan penggunaan serverless, Anda dapat memilih kebijakan anggaran untuk pekerjaan menggunakan pengaturan Kebijakan Anggaran di panel samping Detail Pekerjaan . Lihat Atribut penggunaan tanpa server dengan kebijakan anggaran.

Mengganti nama, mengkloning, atau menghapus pekerjaan

Untuk mengganti nama pekerjaan, buka UI pekerjaan dan klik nama pekerjaan.

Anda dapat dengan cepat membuat pekerjaan baru dengan mengkloning pekerjaan yang ada. Mengkloning pekerjaan membuat salinan pekerjaan yang identik kecuali untuk ID pekerjaan. Untuk mengkloning pekerjaan, lakukan hal berikut:

  1. Buka UI pekerjaan untuk pekerjaan tersebut.
  2. Klik Menu kebab di samping tombol Jalankan sekarang .
  3. Pilih Kloning pekerjaan dari menu drop-down.
  4. Masukkan nama untuk pekerjaan kloning.
  5. Klik Klona.

Menghapus pekerjaan

Untuk menghapus pekerjaan, buka halaman pekerjaan, klik Menu kebab di samping nama pekerjaan, dan pilih Hapus pekerjaan dari menu drop-down.

Menggunakan Git dengan pekerjaan

Jika pekerjaan Anda berisi tugas apa pun yang mendukung penggunaan penyedia Git jarak jauh, UI pekerjaan berisi bidang Git dan opsi untuk menambahkan atau mengedit pengaturan Git.

Anda dapat mengonfigurasi jenis tugas berikut untuk menggunakan repositori Git jarak jauh:

  • Notebook
  • Skrip Python
  • File SQL
  • dbt

Semua tugas dalam pekerjaan harus mereferensikan penerapan yang sama di repositori jarak jauh. Anda hanya harus menentukan salah satu hal berikut ini untuk pekerjaan yang menggunakan repositori jarak jauh:

  • cabang: Nama cabang, misalnya, main.
  • tag: Nama tag, misalnya, release-1.0.0.
  • commit: Hash penerapan tertentu, misalnya, e0056d01.

Ketika eksekusi pekerjaan dimulai, Databricks mengambil penerapan rekam jepret dari repositori jarak jauh untuk memastikan bahwa seluruh pekerjaan berjalan terhadap versi kode yang sama.

Saat Anda melihat riwayat eksekusi tugas yang menjalankan kode yang disimpan di repositori Git jarak jauh, panel Detail eksekusi tugas menyertakan detail Git, termasuk SHA penerapan yang terkait dengan eksekusi. Lihat Tampilkan riwayat eksekusi tugas.

Catatan

Tugas yang dikonfigurasi untuk menggunakan repositori Git jarak jauh tidak dapat menulis ke file ruang kerja. Tugas-tugas ini harus menulis data sementara ke penyimpanan efemeris yang dilampirkan ke simpul penggerak dari komputasi yang dikonfigurasi untuk menjalankan tugas dan menulis data persisten ke volume atau tabel.

Databricks merekomendasikan referensi jalur ruang kerja di folder Git hanya untuk iterasi dan pengujian yang cepat selama pengembangan. Saat Anda memindahkan proyek ke tahap penahapan dan produksi, Databricks merekomendasikan untuk mengonfigurasi proyek tersebut agar mengacu pada repositori Git yang berada di lokasi jauh. Untuk mempelajari selengkapnya tentang menggunakan repositori Git jarak jauh dengan pekerjaan Databricks, lihat bagian berikut.

Mengonfigurasi penyedia Git

Antarmuka pengguna pekerjaan memiliki dialog untuk mengonfigurasi repositori Git jarak jauh. Dialog ini dapat diakses dari panel Detail pekerjaan di bawah judul Git atau dalam tugas apa pun yang dikonfigurasi untuk menggunakan penyedia Git.

Opsi yang ditampilkan untuk mengakses dialog bervariasi berdasarkan jenis tugas dan apakah referensi git telah dikonfigurasi untuk pekerjaan tersebut atau belum. Tombol untuk meluncurkan dialog termasuk Tambahkan pengaturan Git, Edit, atau Tambahkan referensi git.

Dalam dialog Informasi Git (hanya diberi label Git jika akses oleh panel Detail pekerjaan), masukkan detail berikut:

  • URL repositori Git.
  • Pilih penyedia Git Anda dari daftar dropdown.
  • Di bidang referensi Git, masukkan pengidentifikasi untuk cabang, tag, atau penerapan yang sesuai dengan versi kode sumber yang ingin Anda jalankan.
  • Pilih cabang, tag, atau penerapan dari menu dropdown.

Catatan

Dialog mungkin meminta Anda dengan hal berikut: Kredensial Git untuk akun ini hilang. Tambahkan kredensial. Anda harus mengonfigurasi repositori Git jarak jauh sebelum menggunakannya sebagai referensi. Lihat Menyiapkan folder Databricks Git (Repos).

Mengonfigurasi ambang batas untuk durasi menjalankan pekerjaan atau metrik backlog streaming

Penting

Pengamatan streaming untuk Pekerjaan Databricks saat ini dalam Pratinjau Umum .

Anda dapat mengonfigurasi ambang batas opsional untuk durasi eksekusi pekerjaan atau metrik backlog streaming. Untuk mengonfigurasi ambang batas metrik durasi atau streaming, klik ambang batas backlog durasi dan streaming di panel Detail Pekerjaan.

Untuk mengonfigurasi ambang batas durasi pekerjaan, termasuk waktu penyelesaian yang diharapkan dan maksimum untuk pekerjaan, pilih Durasi Pekerjaan di menu drop-down Metrik. Masukkan durasi di bidang Peringatan untuk mengonfigurasi waktu penyelesaian pekerjaan yang diharapkan. Jika pekerjaan melebihi ambang batas ini, peristiwa akan dipicu. Anda dapat menggunakan kejadian ini untuk memberi tahu ketika pekerjaan berjalan lambat. Lihat Konfigurasi notifikasi untuk tugas lambat. Untuk mengonfigurasi waktu penyelesaian maksimum untuk pekerjaan, masukkan durasi maksimum di bidang Batas Waktu . Jika pekerjaan tidak selesai saat ini, Azure Databricks menetapkan statusnya menjadi “Waktu Habis”.

Untuk mengonfigurasi ambang batas metrik backlog streaming, pilih metrik di menu drop-down Metrik dan masukkan nilai untuk ambang batas. Untuk mempelajari tentang metrik tertentu yang didukung oleh sumber streaming, lihat Menampilkan metrik untuk tugas streaming.

Jika peristiwa dipicu karena ambang terlampaui, Anda dapat menggunakan peristiwa untuk mengirim pemberitahuan. Lihat Konfigurasi notifikasi untuk tugas lambat.

Anda dapat secara opsional menentukan ambang batas durasi untuk tugas. Lihat Konfigurasikan ambang batas untuk durasi pelaksanaan tugas atau metrik antrian streaming.