Bagikan melalui


Mengonfigurasi pengaturan untuk pekerjaan Azure Databricks

Artikel ini menyediakan detail tentang mengonfigurasi Pekerjaan Azure Databricks dan tugas pekerjaan individual di antarmuka pengguna Pekerjaan. Untuk mempelajari tentang menggunakan Databricks CLI untuk mengedit pengaturan pekerjaan, jalankan perintah databricks jobs update -hCLI . Untuk mempelajari tentang menggunakan JOBS API, lihat JOBS API.

Beberapa opsi konfigurasi tersedia pada pekerjaan, dan opsi lain tersedia pada tugas individual. Misalnya, eksekusi bersamaan maksimum hanya dapat diatur pada pekerjaan, sementara kebijakan coba lagi ditentukan untuk setiap tugas.

Mengedit pekerjaan

Untuk mengubah konfigurasi untuk pekerjaan:

  1. Klik Ikon Alur Kerja Alur Kerja di bilah samping.
  2. Di kolom Nama, klik nama pekerjaan.

Panel samping menampilkan detail Pekerjaan. Anda dapat mengubah pemicu untuk pekerjaan, konfigurasi komputasi, pemberitahuan, jumlah maksimum eksekusi bersamaan, mengonfigurasi ambang durasi, dan menambahkan atau mengubah tag. Jika kontrol akses pekerjaan diaktifkan, Anda juga dapat mengedit izin pekerjaan.

Menambahkan parameter untuk semua tugas pekerjaan

Anda dapat mengonfigurasi parameter pada pekerjaan yang diteruskan ke salah satu tugas pekerjaan yang menerima parameter nilai kunci, termasuk file roda Python yang dikonfigurasi untuk menerima argumen kata kunci. Parameter yang diatur pada tingkat pekerjaan ditambahkan ke parameter tingkat tugas yang dikonfigurasi. Parameter pekerjaan yang diteruskan ke tugas terlihat dalam konfigurasi tugas, bersama dengan parameter apa pun yang dikonfigurasi pada tugas.

Anda juga dapat meneruskan parameter pekerjaan ke tugas yang tidak dikonfigurasi dengan parameter nilai kunci seperti JAR atau Spark Submit tugas. Untuk meneruskan parameter pekerjaan ke tugas-tugas ini, format argumen sebagai {{job.parameters.[name]}}, mengganti [name] dengan key yang mengidentifikasi parameter.

Parameter pekerjaan lebih diutamakan daripada parameter tugas. Jika parameter pekerjaan dan parameter tugas memiliki kunci yang sama, parameter pekerjaan akan mengambil alih parameter tugas.

Anda dapat mengambil alih parameter pekerjaan yang dikonfigurasi atau menambahkan parameter pekerjaan baru saat menjalankan pekerjaan dengan parameter yang berbeda atau memperbaiki pekerjaan yang dijalankan.

Anda juga dapat berbagi konteks tentang pekerjaan dan tugas menggunakan sekumpulan referensi nilai dinamis.

Untuk menambahkan parameter pekerjaan, klik Edit parameter di panel sisi Detail pekerjaan dan tentukan kunci dan nilai default setiap parameter. Untuk melihat daftar referensi nilai dinamis yang tersedia, klik Telusuri nilai dinamis.

Menambahkan tag ke pekerjaan

Untuk menambahkan label atau atribut key:value ke pekerjaan, Anda dapat menambahkan tag saat mengedit pekerjaan. Anda dapat menggunakan tag untuk memfilter pekerjaan di daftar Pekerjaan; misalnya, Anda dapat menggunakan tag department untuk memfilter semua pekerjaan milik departemen tertentu.

Catatan

Karena tag pekerjaan tidak dirancang untuk menyimpan informasi sensitif seperti informasi atau kata sandi yang dapat diidentifikasi secara pribadi, Databricks merekomendasikan penggunaan tag hanya untuk nilai yang tidak sensitif.

Tag juga menyebar ke kluster pekerjaan yang dibuat saat pekerjaan dijalankan, memungkinkan Anda menggunakan tag dengan pemantauan kluster yang ada.

Untuk menambahkan atau mengedit tag, klik + Tag di panel samping Detail pekerjaan. Anda dapat menambahkan tag sebagai kunci dan nilai atau label. Untuk menambahkan label, masukkan label di bidang Kunci dan kosongkan Nilai.

Mengonfigurasi kluster bersama

Untuk melihat tugas yang terkait dengan kluster, klik tab Tugas dan arahkan mouse ke atas kluster di panel samping. Untuk mengubah konfigurasi kluster untuk semua tugas terkait, klik Konfigurasikan di bawah kluster. Untuk mengonfigurasi kluster baru untuk semua tugas terkait, klik Tukar di bawah kluster.

Mengontrol akses ke pekerjaan

Kontrol akses pekerjaan memungkinkan pemilik dan administrator pekerjaan untuk memberikan izin terperinci pada pekerjaan mereka. Pemilik pekerjaan dapat memilih pengguna atau grup lain mana yang dapat melihat hasil pekerjaan. Pemilik juga dapat memilih siapa yang dapat mengelola pekerjaan mereka (Jalankan sekarang dan Batalkan izin eksekusi).

Untuk informasi tentang tingkat izin pekerjaan, lihat ACL Pekerjaan.

Anda harus memiliki izin CAN MANAGE atau IS OWNER pada pekerjaan untuk mengelola izin di dalamnya.

  1. Di bar samping, klik Eksekusi Pekerjaan.

  2. Klik nama pekerjaan.

  3. Di panel Detail pekerjaan, klik Edit izin.

  4. Di Pengaturan Izin, klik menu drop-down Pilih Pengguna, Grup, atau Perwakilan Layanan... dan pilih pengguna, grup, atau perwakilan layanan.

    Dialog Pengaturan Izin

  5. Klik Tambahkan.

  6. Klik Simpan.

Mengelola pemilik pekerjaan

Secara default, pembuat pekerjaan memiliki izin PEMILIK IS dan merupakan pengguna dalam pengaturan Jalankan sebagai pekerjaan. Pekerjaan dijalankan sebagai identitas pengguna di pengaturan Jalankan sebagai . Untuk informasi selengkapnya tentang pengaturan Jalankan sebagai , lihat Menjalankan pekerjaan sebagai perwakilan layanan.

Admin ruang kerja dapat mengubah pemilik pekerjaan menjadi diri mereka sendiri. Ketika kepemilikan ditransfer, pemilik sebelumnya diberikan izin CAN MANAGE

Catatan

RestrictWorkspaceAdmins Saat pengaturan di ruang kerja diatur ke ALLOW ALL, admin ruang kerja dapat mengubah pemilik pekerjaan menjadi pengguna atau perwakilan layanan apa pun di ruang kerja mereka. Untuk membatasi admin ruang kerja agar hanya mengubah pemilik pekerjaan menjadi diri mereka sendiri, lihat Membatasi admin ruang kerja.

Mengonfigurasi eksekusi bersamaan maksimum

Klik Edit eksekusi bersamaan di bawah Pengaturan tingkat lanjut untuk mengatur jumlah maksimum eksekusi paralel untuk pekerjaan ini. Azure Databricks melewatkan eksekusi jika pekerjaan telah mencapai jumlah maksimum eksekusi aktif ketika mencoba untuk memulai eksekusi baru. Atur nilai ini lebih tinggi dari default 1 untuk melakukan beberapa eksekusi pekerjaan yang sama secara bersamaan. Ini berguna, misalnya, jika Anda memicu pekerjaan Anda pada jadwal yang sering dan ingin memungkinkan eksekusi berturut-turut tumpang tindih satu sama lain atau Anda ingin memicu beberapa eksekusi yang berbeda dengan parameter inputnya.

Aktifkan antrean eksekusi pekerjaan

Untuk mengaktifkan eksekusi pekerjaan yang akan ditempatkan dalam antrean untuk dijalankan nanti ketika tidak dapat segera berjalan karena batas konkurensi, klik tombol Antrean di bawah Pengaturan tingkat lanjut. Lihat Bagaimana jika pekerjaan saya tidak dapat berjalan karena batas konkurensi?.

Catatan

Antrean diaktifkan secara default untuk pekerjaan yang dibuat melalui UI setelah 15 April 2024.

Mengonfigurasi waktu penyelesaian yang diharapkan atau batas waktu untuk pekerjaan

Anda dapat mengonfigurasi ambang durasi opsional untuk pekerjaan, termasuk waktu penyelesaian yang diharapkan untuk pekerjaan dan waktu penyelesaian maksimum untuk pekerjaan tersebut. Untuk mengonfigurasi ambang durasi, klik Atur ambang durasi.

Untuk mengonfigurasi waktu penyelesaian yang diharapkan untuk pekerjaan, masukkan durasi yang diharapkan di bidang Peringatan . Jika pekerjaan melebihi ambang batas ini, Anda dapat mengonfigurasi pemberitahuan untuk pekerjaan yang berjalan lambat. Lihat Mengonfigurasi pemberitahuan untuk pekerjaan yang berjalan lambat atau terlambat.

Untuk mengonfigurasi waktu penyelesaian maksimum untuk pekerjaan, masukkan durasi maksimum di bidang Batas Waktu . Jika pekerjaan tidak selesai dalam waktu ini, Azure Databricks menetapkan statusnya ke "Waktu Habis" dan pekerjaan dihentikan.

Mengedit tugas

Untuk mengatur opsi konfigurasi tugas:

  1. Klik Ikon Alur Kerja Alur Kerja di bilah samping.
  2. Di kolom Nama, klik nama pekerjaan.
  3. Klik tab Tugas dan pilih tugas yang akan diedit.

Menentukan dependensi tugas

Anda dapat menentukan urutan eksekusi tugas dalam pekerjaan menggunakan menu drop-down Depends on . Anda dapat menetapkan bidang ini ke satu atau beberapa tugas dalam pekerjaan.

Edit dependensi tugas

Catatan

Bergantung pada tidak terlihat jika pekerjaan hanya terdiri dari satu tugas.

Mengonfigurasi dependensi tugas membuat Directed Acyclic Graph (DAG) eksekusi tugas, cara umum untuk mewakili urutan eksekusi dalam penjadwal pekerjaan. Misalnya, pertimbangkan pekerjaan berikut yang terdiri dari empat tugas:

Diagram contoh dependensi tugas

  • Tugas 1 adalah tugas dasar dan tidak tergantung pada tugas lain.
  • Tugas 2 dan Tugas 3 tergantung pada Tugas 1 yang diselesaikan terlebih dahulu.
  • Yang terakhir, Tugas 4 tergantung pada Tugas 2 dan Tugas 3 yang berhasil diselesaikan.

Azure Databricks menjalankan tugas upstream sebelum menjalankan tugas downstream, menjalankan sebanyak mungkin secara paralel. Diagram berikut mengilustrasikan urutan pemrosesan untuk tugas-tugas ini:

Alur contoh dependensi tugas

Mengonfigurasi kluster untuk tugas

Untuk mengonfigurasi kluster tempat tugas berjalan, klik menu drop-down Kluster . Anda dapat mengedit kluster pekerjaan bersama, tetapi Anda tidak dapat menghapus kluster bersama jika tugas lain masih menggunakannya.

Untuk mempelajari selengkapnya tentang memilih dan mengonfigurasi kluster untuk menjalankan tugas, lihat Menggunakan komputasi Azure Databricks dengan pekerjaan Anda.

Mengonfigurasi pustaka dependen

Pustaka dependen akan diinstal pada kluster sebelum tugas berjalan. Anda harus mengatur semua dependensi tugas untuk memastikannya diinstal sebelum eksekusi dimulai. Ikuti rekomendasi di Mengelola dependensi pustaka untuk menentukan dependensi.

Mengonfigurasi waktu penyelesaian yang diharapkan atau waktu habis untuk tugas

Anda dapat mengonfigurasi ambang durasi opsional untuk tugas, termasuk waktu penyelesaian tugas yang diharapkan dan waktu penyelesaian maksimum untuk tugas tersebut. Untuk mengonfigurasi ambang durasi, klik Ambang durasi.

Untuk mengonfigurasi waktu penyelesaian tugas yang diharapkan, masukkan durasi di bidang Peringatan . Jika tugas melebihi ambang batas ini, peristiwa akan dipicu. Anda dapat menggunakan kejadian ini untuk memberi tahu ketika tugas berjalan lambat. Lihat Mengonfigurasi pemberitahuan untuk pekerjaan yang berjalan lambat atau terlambat.

Untuk mengonfigurasi waktu penyelesaian maksimum untuk tugas, masukkan durasi maksimum di bidang Batas Waktu . Jika tugas tidak selesai dalam waktu ini, Azure Databricks mengatur statusnya menjadi "Kehabisan Waktu".

Mengonfigurasi kebijakan coba lagi untuk tugas

Untuk mengonfigurasi kebijakan yang menentukan kapan dan berapa kali eksekusi tugas yang gagal dicoba kembali, klik + Tambahkan di samping Coba Lagi. Interval coba lagi dihitung dalam milidetik antara awal eksekusi yang gagal dan eksekusi coba lagi berikutnya.

Catatan

Jika Anda mengonfigurasi Waktu Habis dan Percobaan Kembali, waktu habis berlaku untuk setiap percobaan kembali.