Bagikan melalui


Mengonfigurasi dan mengedit Pekerjaan Databricks

Artikel ini berfokus pada instruksi untuk membuat, mengonfigurasi, dan mengedit pekerjaan menggunakan UI ruang kerja Alur Kerja. Azure Databricks memiliki titik masuk dan alat lain untuk konfigurasi, termasuk yang berikut ini:

  • Untuk mempelajari tentang menggunakan Databricks CLI untuk membuat dan menjalankan pekerjaan, lihat Apa itu Databricks CLI?.
  • Untuk mempelajari tentang menggunakan JOBS API untuk membuat dan menjalankan pekerjaan, lihat Pekerjaan di referensi REST API.
  • Untuk mempelajari cara menjalankan dan menjadwalkan pekerjaan secara langsung di buku catatan Databricks, lihat Membuat dan mengelola pekerjaan buku catatan terjadwal.

Tip

Untuk melihat pekerjaan sebagai YAML, klik menu kebab di sebelah kiri Jalankan sekarang untuk pekerjaan lalu klik Beralih ke versi kode (YAML).

Membuat tugas baru

Bagian ini menjelaskan konfigurasi minimum yang diperlukan untuk membuat pekerjaan baru untuk menjadwalkan tugas buku catatan dengan UI ruang kerja.

Pekerjaan berisi satu atau beberapa tugas. Anda membuat pekerjaan baru dengan mengonfigurasi tugas pertama untuk pekerjaan tersebut.

Catatan

Setiap jenis tugas memiliki opsi konfigurasi dinamis di antarmuka pengguna ruang kerja. Lihat Mengonfigurasi dan mengedit tugas Databricks.

  1. Klik Ikon Alur Kerja Alur Kerja di bar samping dan klik Tombol Buat Pekerjaan.
  2. Masukkan Nama tugas.
  3. Pilih buku catatan untuk bidang Jalur .
  4. Klik Buat tugas.

Jika ruang kerja Anda tidak diaktifkan untuk komputasi tanpa server untuk pekerjaan, Anda harus memilih opsi Komputasi . Databricks merekomendasikan untuk selalu menggunakan komputasi pekerjaan saat mengonfigurasi tugas.

Pekerjaan baru muncul di daftar pekerjaan ruang kerja dengan nama New Job <date> <time>default .

Pilih pekerjaan yang akan diedit di ruang kerja

Untuk mengedit pekerjaan yang sudah ada dengan UI ruang kerja, lakukan hal berikut:

  1. Klik Ikon Alur Kerja Alur Kerja di bilah samping.
  2. Di kolom Nama, klik nama pekerjaan.

Gunakan antarmuka pengguna pekerjaan untuk melakukan hal berikut:

  • Edit pengaturan pekerjaan
  • Mengganti nama, mengkloning, atau menghapus pekerjaan
  • Menambahkan tugas baru ke pekerjaan yang sudah ada
  • Mengedit pengaturan tugas

Catatan

Anda juga dapat melihat definisi JSON untuk digunakan dengan REST API mendapatkan, membuat, dan mengatur ulang titik akhir.

Mengedit pengaturan pekerjaan

Panel samping berisi detail Pekerjaan. Anda dapat mengubah pemicu pekerjaan, konfigurasi komputasi, pemberitahuan, jumlah maksimum eksekusi bersamaan, mengonfigurasi ambang durasi, dan menambahkan atau mengubah tag. Anda juga dapat mengedit izin pekerjaan jika kontrol akses pekerjaan diaktifkan.

Menambahkan parameter untuk semua tugas pekerjaan

Parameter yang dikonfigurasi pada tingkat pekerjaan diteruskan ke tugas pekerjaan yang menerima parameter nilai kunci, termasuk file roda Python yang dikonfigurasi untuk menerima argumen kata kunci. Lihat Membuat parameter pekerjaan.

Menambahkan tag ke pekerjaan

Untuk menambahkan label atau atribut kunci-nilai ke pekerjaan Anda, Anda dapat menambahkan tag saat mengedit pekerjaan. Anda dapat menggunakan tag untuk memfilter pekerjaan di daftar Pekerjaan. Misalnya, Anda dapat menggunakan department tag untuk memfilter semua pekerjaan milik departemen tertentu.

Catatan

Karena tag pekerjaan tidak dirancang untuk menyimpan informasi sensitif seperti informasi atau kata sandi yang dapat diidentifikasi secara pribadi, Databricks merekomendasikan penggunaan tag hanya untuk nilai yang tidak sensitif.

Tag juga menyebar ke kluster pekerjaan yang dibuat saat pekerjaan dijalankan, memungkinkan Anda menggunakan tag dengan pemantauan kluster yang ada.

Klik + Tag di panel sisi Detail pekerjaan untuk menambahkan atau mengedit tag. Anda dapat menambahkan tag sebagai label atau pasangan kunci-nilai. Untuk menambahkan label, masukkan label di bidang Kunci dan kosongkan Nilai.

Mengganti nama, mengkloning, atau menghapus pekerjaan

Untuk mengganti nama pekerjaan, buka UI pekerjaan dan klik nama pekerjaan.

Anda dapat dengan cepat membuat pekerjaan baru dengan mengkloning pekerjaan yang ada. Mengkloning pekerjaan membuat salinan pekerjaan yang identik kecuali untuk ID pekerjaan. Untuk mengkloning pekerjaan, lakukan hal berikut:

  1. Buka UI pekerjaan untuk pekerjaan tersebut.
  2. Klik Menu kebab di samping tombol Jalankan sekarang .
  3. Pilih Kloning pekerjaan dari menu drop-down.
  4. Masukkan nama untuk pekerjaan kloning.
  5. Klik Klona.

Menghapus pekerjaan

Untuk menghapus pekerjaan, buka halaman pekerjaan, klik Menu kebab di samping nama pekerjaan, dan pilih Hapus pekerjaan dari menu drop-down.

Menggunakan Git dengan pekerjaan

Jika pekerjaan Anda berisi tugas apa pun yang mendukung penggunaan penyedia Git jarak jauh, UI pekerjaan berisi bidang Git dan opsi untuk menambahkan atau mengedit pengaturan Git.

Anda dapat mengonfigurasi jenis tugas berikut untuk menggunakan repositori Git jarak jauh:

  • Notebook
  • Skrip Python
  • File SQL
  • dbt

Semua tugas dalam pekerjaan harus mereferensikan penerapan yang sama di repositori jarak jauh. Anda hanya harus menentukan salah satu hal berikut ini untuk pekerjaan yang menggunakan repositori jarak jauh:

  • cabang: Nama cabang, misalnya, main.
  • tag: Nama tag, misalnya, release-1.0.0.
  • commit: Hash penerapan tertentu, misalnya, e0056d01.

Ketika eksekusi pekerjaan dimulai, Databricks mengambil penerapan rekam jepret dari repositori jarak jauh untuk memastikan bahwa seluruh pekerjaan berjalan terhadap versi kode yang sama.

Saat Anda melihat riwayat eksekusi tugas yang menjalankan kode yang disimpan di repositori Git jarak jauh, panel Detail eksekusi tugas menyertakan detail Git, termasuk SHA penerapan yang terkait dengan eksekusi. Lihat Tampilkan riwayat eksekusi tugas.

Catatan

Tugas yang dikonfigurasi untuk menggunakan repositori Git jarak jauh tidak dapat menulis ke file ruang kerja. Mereka harus menulis data sementara ke penyimpanan driver sementara dan data persisten ke volume atau tabel.

Databricks merekomendasikan pembuatan pekerjaan yang mereferensikan jalur ruang kerja di folder Git hanya untuk perulangan dan pengujian cepat selama pengembangan. Databricks merekomendasikan untuk mengonfigurasi ulang pekerjaan untuk mereferensikan repositori Git jarak jauh saat Anda beralih ke penahapan dan produksi. Pelajari selengkapnya tentang kode sumber yang dikontrol versi dalam pekerjaan Databricks.

Mengonfigurasi penyedia Git

Antarmuka pengguna pekerjaan memiliki dialog untuk mengonfigurasi repositori Git jarak jauh. Dialog ini dapat diakses dari panel Detail pekerjaan di bawah judul Git atau dalam tugas apa pun yang dikonfigurasi untuk menggunakan penyedia Git.

Opsi yang ditampilkan untuk mengakses dialog bervariasi berdasarkan jenis tugas dan apakah referensi git telah dikonfigurasi untuk pekerjaan tersebut atau belum. Tombol untuk meluncurkan dialog termasuk Tambahkan pengaturan Git, Edit, atau Tambahkan referensi git.

Dalam dialog Informasi Git (hanya diberi label Git jika akses oleh panel Detail pekerjaan), masukkan detail berikut:

  • URL repositori Git.
  • Pilih penyedia Git Anda dari daftar dropdown.
  • Di bidang referensi Git, masukkan pengidentifikasi untuk cabang, tag, atau penerapan yang sesuai dengan versi kode sumber yang ingin Anda jalankan.
  • Pilih cabang, tag, atau penerapan dari menu dropdown.

Catatan

Dialog mungkin meminta Anda dengan hal berikut: Kredensial Git untuk akun ini hilang. Tambahkan kredensial. Anda harus mengonfigurasi repositori Git jarak jauh sebelum menggunakannya sebagai referensi. Lihat Menyiapkan folder Databricks Git (Repos).

Mengonfigurasi waktu penyelesaian yang diharapkan atau batas waktu untuk pekerjaan

Anda dapat mengonfigurasi ambang durasi opsional untuk pekerjaan, termasuk waktu penyelesaian yang diharapkan dan maksimum. Untuk mengonfigurasi ambang durasi, klik Atur ambang durasi di bawah Ambang durasi di panel Detail pekerjaan.

Masukkan durasi di bidang Peringatan untuk mengonfigurasi waktu penyelesaian pekerjaan yang diharapkan. Jika pekerjaan melebihi ambang batas ini, peristiwa akan dipicu. Anda dapat menggunakan kejadian ini untuk memberi tahu ketika pekerjaan berjalan lambat. Lihat Mengonfigurasi pemberitahuan untuk pekerjaan yang berjalan lambat atau terlambat.

Untuk mengonfigurasi waktu penyelesaian maksimum untuk pekerjaan, masukkan durasi maksimum di bidang Batas Waktu . Jika pekerjaan tidak selesai saat ini, Azure Databricks menetapkan statusnya menjadi “Waktu Habis”.

Anda dapat secara opsional menentukan ambang batas durasi untuk tugas. Lihat Mengonfigurasi waktu penyelesaian yang diharapkan atau batas waktu untuk tugas.