Pemantauan dan pengamatan untuk Pekerjaan Databricks
Artikel ini menjelaskan fitur yang tersedia di UI Azure Databricks untuk melihat pekerjaan yang dapat Anda akses, melihat riwayat eksekusi untuk pekerjaan, dan melihat detail eksekusi pekerjaan. Untuk mengonfigurasi pemberitahuan untuk pekerjaan, lihat Menambahkan pemberitahuan pada pekerjaan.
Untuk mempelajari tentang menggunakan Databricks CLI untuk melihat pekerjaan dan menjalankan pekerjaan, jalankan perintah databricks jobs list -h
CLI , databricks jobs get -h
, dan databricks jobs run-now -h
. Untuk mempelajari tentang menggunakan JOBS API, lihat JOBS API.
Jika Anda memiliki akses ke system.lakeflow
skema, Anda juga bisa menampilkan dan mengkueri rekaman pekerjaan yang dijalankan dan tugas dari seluruh akun Anda. Lihat Referensi tabel sistem pekerjaan. Anda juga dapat bergabung dengan tabel sistem pekerjaan dengan tabel penagihan untuk memantau biaya pekerjaan di seluruh akun Anda. Lihat Memantau biaya pekerjaan & performa dengan tabel sistem.
Melihat pekerjaan
Untuk melihat daftar pekerjaan yang dapat Anda akses, klik Alur Kerja di bilah samping. Tab Pekerjaan di UI Alur Kerja mencantumkan informasi tentang semua pekerjaan yang tersedia, seperti pembuat pekerjaan, pemicu pekerjaan bila ada, dan hasil dari lima proses terakhir.
Untuk mengubah kolom yang ditampilkan dalam daftar pekerjaan, klik dan pilih atau batal pilih kolom.
Anda dapat memfilter pekerjaan di daftar Pekerjaan seperti yang ditunjukkan pada cuplikan layar berikut.
- Mencari kata kunci. Pencarian kata kunci diterapkan pada bidang nama, ID pekerjaan, dan tag pekerjaan. Untuk mencari tag yang dibuat dengan kunci dan nilai, Anda dapat mencari berdasarkan kunci, nilai, atau kunci dan nilai. Misalnya, untuk tag dengan kunci
department
dan nilaifinance
, Anda dapat mencaridepartment
ataufinance
menemukan pekerjaan yang cocok. Untuk mencari berdasarkan kunci dan nilai, masukkan kunci dan nilai yang dipisahkan oleh titik dua (misalnya,department:finance
). - Hanya memilih pekerjaan yang Anda miliki.
- Memilih semua pekerjaan yang Anda memiliki izin untuk mengaksesnya.
- Memilih semua pekerjaan yang telah Anda tandai sebagai favorit.
- Menggunakan tag. Untuk mencari menurut tag, Anda dapat menggunakan menu drop-down tag untuk memfilter hingga lima tag secara bersamaan atau langsung menggunakan pencarian kata kunci.
Anda juga dapat mengurutkan daftar pekerjaan (turun atau naik) dengan Nama, ID Pekerjaan, atau Dibuat oleh kolom dengan mengklik header kolom. Secara default, pekerjaan diurutkan menurut Nama dalam urutan naik.
Untuk memulai pekerjaan, klik tombol putar. Untuk menghentikan pekerjaan, klik tombol hentikan. Untuk mengakses tindakan pekerjaan lain, klik menu kebab (misalnya, untuk menghapus pekerjaan).
Lihat rangkaian untuk satu tugas tunggal
Anda dapat melihat daftar eksekusi yang sedang berjalan dan baru-baru ini selesai untuk pekerjaan yang dapat Anda akses, termasuk eksekusi yang dimulai oleh alat orkestrasi eksternal seperti Apache Airflow atau Azure Data Factory. Untuk melihat daftar eksekusi pekerjaan terbaru:
- Klik
Alur Kerja di bilah samping.
- Di kolom Nama, klik nama pekerjaan. Tab Jalankan muncul dengan tampilan matriks dan daftar eksekusi aktif dan selesai.
Tampilan matriks menunjukkan riwayat eksekusi untuk pekerjaan tersebut, termasuk setiap tugas pekerjaan.
Baris Durasi total eksekusi matriks menampilkan total durasi eksekusi dan status eksekusi. Untuk melihat detail eksekusi, termasuk waktu mulai, durasi, dan status, arahkan mouse ke atas bilah di baris Jalankan total durasi .
Setiap sel dalam baris Tugas mewakili tugas dan status tugas terkait. Untuk melihat detail tugas, termasuk waktu mulai, durasi, kluster, dan status, arahkan mouse ke sel tugas tersebut.
Bilah eksekusi pekerjaan dan eksekusi tugas dikodekan warna untuk menunjukkan status eksekusi. Sukses berwarna hijau. Jalur yang tidak berhasil berwarna merah, jalur yang dilewati berwarna merah muda, dan menunggu ulang berwarna kuning. Tertunda, dibatalkan, atau kehabisan waktu berwarna abu-abu. Tinggi eksekusi pekerjaan individual dan bilah eksekusi tugas secara visual menunjukkan durasi eksekusi.
Jika Anda telah mengonfigurasi waktu penyelesaian yang diharapkan, tampilan matriks menampilkan peringatan saat durasi eksekusi melebihi waktu yang dikonfigurasi.
Secara bawaan, tampilan daftar proses menampilkan sebagai berikut:
- Waktu mulai untuk eksekusi.
- Pengidentifikasi eksekusi.
- Apakah eksekusi dipicu oleh jadwal pekerjaan atau permintaan API, atau dimulai secara manual.
- Waktu yang berlalu untuk pekerjaan yang sedang berjalan atau total waktu berjalan untuk eksekusi yang selesai. Peringatan ditampilkan jika durasi melebihi waktu penyelesaian yang diharapkan yang dikonfigurasi.
- Status pengerjaan, baik Antrean, Tertunda, Berjalan, Dilewati, Berhasil, Gagal, Waktu Habis, Membatalkan, atau Dibatalkan.
- Kode kesalahan yang menyebabkan eksekusi dihentikan.
- Parameter operasi.
Saat ini jalur yang sedang berjalan menampilkan tombol berhenti. Untuk menghentikan semua eksekusi aktif dan antrean, pilih Batalkan eksekusi atau Batalkan semua eksekusi yang diantrekan dari menu drop-down.
Gunakan menu untuk menjalankan tindakan khusus konteks tambahan, seperti menghapus entri untuk eksekusi yang selesai.
Untuk mengakses tindakan khusus konteks untuk proses, klik menu kebab , misalnya untuk menghentikan proses aktif atau menghapus proses yang selesai.
Untuk mengubah kolom yang ditampilkan dalam tampilan daftar eksekusi, klik dan pilih atau batal pilih kolom.
Untuk menampilkan detail untuk eksekusi pekerjaan, klik tautan untuk eksekusi di kolom Waktu mulai dalam tampilan daftar eksekusi. Untuk melihat detail keberhasilan pekerjaan ini, klik Buka eksekusi terbaru yang berhasil.
Azure Databricks mempertahankan riwayat eksekusi pekerjaan Anda hingga 60 hari. Jika Anda perlu mempertahankan eksekusi pekerjaan, Databricks merekomendasikan untuk mengekspor hasil sebelum kedaluwarsa. Untuk informasi selengkapnya, lihat Mengekspor hasil eksekusi pekerjaan.
Melihat detail eksekusi pekerjaan
Halaman detail eksekusi pekerjaan berisi output pekerjaan dan tautan ke log, termasuk informasi tentang keberhasilan atau kegagalan setiap tugas dalam pekerjaan yang dijalankan. Anda dapat mengakses detail eksekusi pekerjaan dari tab Eksekusi untuk pekerjaan tersebut.
Untuk melihat detail eksekusi pekerjaan dari tab Jalankan , klik tautan untuk eksekusi di kolom Waktu mulai dalam tampilan daftar eksekusi. Untuk kembali ke tab Jalankan untuk pekerjaan, klik nilai ID Pekerjaan.
Pekerjaan dengan beberapa tugas juga memiliki grafik, garis waktu, dan tampilan daftar.
Tampilan grafik
Klik simpul tugas dalam grafik untuk melihat detail eksekusi tugas, termasuk:
- Detail tugas termasuk dijalankan sebagai, bagaimana tugas diluncurkan, waktu mulai, waktu akhir, durasi, dan status.
- Kode sumber.
- Kluster yang menjalankan tugas serta menyediakan tautan ke riwayat kueri dan lognya.
- Metrik untuk tugas tersebut.
Tampilan garis waktu
Pekerjaan yang berisi beberapa tugas memiliki tampilan garis waktu untuk mengidentifikasi tugas yang membutuhkan waktu lama untuk diselesaikan, memahami dependensi, dan tumpang tindih untuk membantu men-debug dan mengoptimalkan pekerjaan ini.
Tampilan daftar
Secara default, tampilan daftar memperlihatkan status, nama, jenis, sumber daya, durasi, dan dependensi. Anda dapat menambahkan dan menghapus kolom dalam tampilan ini.
Anda bisa mencari tugas menurut nama, memfilter menurut status tugas atau jenis tugas, dan mengurutkan tugas menurut status, nama, atau durasi.
Klik nilai ID Pekerjaan untuk kembali ke tab Eksekusi untuk pekerjaan.
Bagaimana Azure Databricks menentukan status eksekusi pekerjaan?
Azure Databricks menentukan apakah eksekusi pekerjaan berhasil berdasarkan hasil tugas daun pekerjaan. Tugas daun adalah tugas yang tidak memiliki dependensi hilir. Eksekusi pekerjaan dapat memiliki salah satu dari tiga hasil:
- Berhasil: Semua tugas berhasil.
- Berhasil dengan kegagalan: Beberapa tugas gagal, tetapi semua tugas daun berhasil.
- Gagal: Satu atau beberapa tugas daun gagal.
- Dilewati: Pemrosesan pekerjaan dilewati (misalnya, tugas mungkin dilewati karena Anda melebihi pemrosesan bersamaan maksimum untuk pekerjaan atau ruang kerja Anda).
- Waktu Habis: Eksekusi pekerjaan membutuhkan waktu terlalu lama untuk diselesaikan dan kehabisan waktu.
- Dibatalkan: Eksekusi pekerjaan dibatalkan (misalnya, pengguna membatalkan eksekusi yang sedang berlangsung secara manual).
Menampilkan metrik untuk tugas streaming
Saat melihat detail jalannya pekerjaan, Anda bisa mendapatkan data tentang beban kerja streaming dengan metrik observabilitas streaming di antarmuka pengguna Pekerjaan. Metrik ini mencakup detik backlog, byte backlog, catatan backlog, dan file backlog untuk sumber yang didukung oleh Spark Structured Streaming termasuk Apache Kafka, Amazon Kinesis, Auto Loader, Google Pub/Sub, dan Delta tables. Metrik ditampilkan sebagai bagan di panel kanan saat Anda melihat rincian pelaksanaan dari tugas. Metrik yang ditampilkan di setiap bagan adalah nilai maksimum yang dikumpulkan berdasarkan menit dan dapat menyertakan hingga 48 jam sebelumnya.
Setiap sumber streaming hanya mendukung metrik tertentu. Metrik yang tidak didukung oleh sumber streaming tidak tersedia untuk dilihat di UI. Tabel berikut ini memperlihatkan metrik yang tersedia untuk sumber streaming yang didukung:
sumber | backlog byte | daftar backlog | detik backlog | file backlog |
---|---|---|---|---|
Kafka | ✓ | ✓ | ||
Kinesis | ✓ | ✓ | ||
Delta | ✓ | ✓ | ||
Pemuat Otomatis | ✓ | ✓ | ||
Google Pub/Sub | ✓ | ✓ |
Anda juga dapat menentukan ambang batas untuk setiap metrik streaming dan mengonfigurasi pemberitahuan jika aliran melebihi ambang selama eksekusi tugas. Lihat Mengonfigurasi pemberitahuan untuk pekerjaan lambat.
Untuk melihat metrik streaming untuk eksekusi tugas yang mengalirkan data dari salah satu sumber Streaming Terstruktur yang didukung:
- Pada halaman detail eksekusi Pekerjaan
, klik tugas yang ingin Anda lihat metriknya. - Klik tab Metrik di panel Jalankan tugas.
- Untuk membuka grafik metrik, klik
di samping nama metrik.
- Untuk melihat metrik untuk aliran tertentu, masukkan ID aliran di kotak teks Filter berdasarkan ID aliran. Anda dapat menemukan ID aliran di output untuk pelaksanaan pekerjaan.
- Untuk mengubah periode waktu dari grafik metrik, gunakan menu tarik-turun waktu.
- Untuk menggulir aliran data jika proses berisi lebih dari sepuluh aliran, klik Berikutnya atau Sebelumnya.
Batasan keterpantauan streaming
- Metrik diperbarui setiap menit kecuali eksekusi memiliki lebih dari empat aliran. Jika eksekusi memiliki lebih dari empat aliran, metrik diperbarui setiap lima menit.
- Metrik hanya dikumpulkan untuk lima puluh aliran pertama di setiap operasi.
Lihat riwayat eksekusi tugas
Untuk melihat riwayat eksekusi tugas, termasuk eksekusi yang berhasil dan tidak berhasil:
- Klik tugas di halaman Detail eksekusi pekerjaan. Halaman Detail eksekusi pekerjaan akan muncul.
- Pilih tugas yang dijalankan di menu drop-down riwayat eksekusi.
Menampilkan riwayat eksekusi tugas untuk For each
tugas
Mengakses riwayat For each
eksekusi tugas sama dengan tugas Azure Databricks Jobs standar. Anda dapat mengklik simpul For each
tugas pada halaman Detail eksekusi pekerjaan atau sel terkait dalam tampilan matriks. Namun, tidak seperti tugas standar, detail eksekusi untuk For each
tugas disajikan sebagai tabel perulangan tugas berlapis.
Untuk melihat perulangan yang gagal saja, klik Hanya perulangan yang gagal.
Untuk melihat output perulangan, klik nilai Waktu mulai atau Waktu selesai perulangan.
Melihat riwayat pekerjaan terbaru di semua tugas
Anda dapat melihat daftar eksekusi yang sedang berjalan dan baru-baru ini selesai untuk semua pekerjaan di ruang kerja yang dapat Anda akses, termasuk eksekusi yang dimulai oleh alat orkestrasi eksternal seperti Apache Airflow atau Azure Data Factory. Untuk melihat daftar eksekusi pekerjaan terbaru:
- Klik
Alur Kerja di bilah samping.
- Klik tab Eksekusi pekerjaan untuk menampilkan grafik jumlah eksekusi yang telah selesai dan daftar eksekusi pekerjaan.
Grafik jumlah run yang selesai
Grafik Jumlah eksekusi selesai menampilkan jumlah eksekusi pekerjaan yang diselesaikan dalam 48 jam terakhir. Secara default, grafik menampilkan pekerjaan yang gagal, dilewati, dan berhasil dijalankan. Anda juga dapat memfilter grafik untuk memperlihatkan status eksekusi tertentu atau membatasi grafik ke rentang waktu tertentu. Tab Eksekusi pekerjaan juga menyertakan tabel pekerjaan yang dijalankan dari 67 hari terakhir. Secara default, tabel menyertakan detail tentang eksekusi pekerjaan yang gagal, dilewati, dan berhasil.
Catatan
Grafik Jumlah eksekusi selesai hanya ditampilkan saat Anda mengklik Dimiliki oleh saya.
Anda dapat memfilter jumlah eksekusi Selesai menurut status eksekusi:
- Untuk memperbarui grafik untuk memperlihatkan pekerjaan yang sedang berjalan atau menunggu untuk dijalankan, klik Eksekusi aktif.
- Untuk memperbarui grafik agar hanya menampilkan eksekusi yang selesai, termasuk eksekusi yang gagal, berhasil, dan dilewati, klik Selesai dijalankan.
- Untuk memperbarui grafik agar hanya menampilkan eksekusi yang berhasil diselesaikan selama 48 jam terakhir, klik Berhasil dijalankan.
- Untuk memperbarui grafik agar hanya memperlihatkan eksekusi yang dilewati, klik Eksekusi yang dilewati. Eksekusi dilewati karena Anda melebihi jumlah maksimum eksekusi bersamaan di ruang kerja Anda atau pekerjaan melebihi jumlah maksimum eksekusi bersamaan yang ditentukan oleh konfigurasi pekerjaan.
- Untuk memperbarui grafik agar hanya memperlihatkan eksekusi yang selesai dalam status kesalahan, klik Eksekusi gagal.
Saat Anda mengklik salah satu tombol filter, daftar eksekusi dalam tabel eksekusi juga diperbarui untuk memperlihatkan hanya eksekusi pekerjaan yang cocok dengan status yang dipilih.
Untuk membatasi rentang waktu yang ditampilkan dalam grafik Jumlah eksekusi selesai, klik dan seret kursor Anda dalam grafik untuk memilih rentang waktu. Grafik dan pembaruan tabel eksekusi untuk menampilkan eksekusi hanya dari rentang waktu yang dipilih.
Tabel 5 jenis kesalahan teratas menampilkan daftar jenis kesalahan yang paling sering dari rentang waktu yang dipilih, memungkinkan Anda untuk dengan cepat melihat penyebab paling umum masalah pekerjaan di ruang kerja Anda.
Daftar pengoperasian pekerjaan
Tab Eksekusi Tugas juga menyertakan tabel tugas yang dijalankan dari 60 hari terakhir. Secara default, tabel menyertakan detail tentang eksekusi pekerjaan yang gagal, dilewati, dan berhasil.
Anda bisa memfilter daftar run yang ditampilkan dalam daftar berdasarkan hal berikut:
- Pekerjaan: Pilih hingga 3 pekerjaan dan tampilkan hanya pelaksanaan untuk pekerjaan ini.
- Jalankan sebagai: Pilih hingga 3 identitas untuk dijalankan dan lihat hanya eksekusi yang dilakukan sebagai pengguna-pengguna ini.
- Jendela waktu: Pilih tanggal dan waktu mulai dan akhir untuk mempersempit ke pelaksanaan pekerjaan yang terjadi pada interval ini.
- Status eksekusi: Filter untuk hanya melihat eksekusi aktif (saat ini berjalan), selesai (selesai berjalan termasuk eksekusi yang berhasil dan tidak berhasil), berhasil, gagal, dan dilewati.
- Kode kesalahan: Filter daftar berdasarkan kode kesalahan untuk melihat semua pekerjaan yang gagal dengan kode kesalahan yang sama.
Secara default, daftar eksekusi dalam tabel eksekusi menampilkan yang berikut ini:
- Waktu mulai untuk eksekusi.
- Nama pekerjaan yang terkait dengan eksekusi.
- Nama pengguna untuk pekerjaan yang akan dijalankan.
- Apakah eksekusi dipicu oleh jadwal pekerjaan atau permintaan API, atau dimulai secara manual.
- Waktu yang berlalu untuk pekerjaan yang sedang berjalan atau total waktu berjalan untuk eksekusi yang selesai. Peringatan ditampilkan jika durasi melebihi waktu penyelesaian yang diharapkan yang dikonfigurasi.
- Status eksekusi: Queued, Tertunda , Menjalankan, Dilewati, Berhasil, Gagal, Kehabisan Waktu, Membatalkan, atau Dibatalkan.
- Kode kesalahan apa pun yang dihentikan eksekusinya.
- Parameter apa pun untuk eksekusi.
- Untuk menghentikan pekerjaan yang sedang berjalan, klik tombol hentikan. Untuk mengakses tindakan untuk pekerjaan tersebut, klik menu
(misalnya, untuk menghentikan proses yang sedang berjalan atau menghapus proses yang telah selesai).
Untuk mengubah kolom yang ditampilkan dalam daftar eksekusi, klik dan pilih atau batal pilih kolom.
Untuk melihat detail eksekusi pekerjaan, klik tautan di kolom Waktu mulai untuk eksekusi. Untuk melihat detail pekerjaan, klik nama pekerjaan di kolom Pekerjaan.
Menampilkan informasi silsilah data untuk pekerjaan
Jika Katalog Unity diaktifkan di ruang kerja, Anda dapat melihat informasi silsilah data untuk tabel Katalog Unity apa pun di alur kerja Anda. Jika informasi silsilah tersedia untuk alur kerja Anda, Anda akan melihat tautan dengan hitungan tabel hulu dan hilir di panel Detail pekerjaan untuk pekerjaan Anda, panel Detail eksekusi pekerjaan untuk pekerjaan yang dijalankan, atau panel Detail eksekusi tugas untuk tugas yang dijalankan. Klik tautan untuk memperlihatkan daftar tabel. Klik tabel untuk melihat informasi terperinci di Catalog Explorer.
Menampilkan dan menjalankan pekerjaan yang dibuat dengan Bundel Aset Databricks
Anda dapat menggunakan UI Pekerjaan Azure Databricks untuk melihat dan menjalankan pekerjaan yang disebarkan oleh Bundel Aset Databricks. Secara default, pekerjaan ini bersifat baca-saja di antarmuka pengguna Pekerjaan. Untuk mengedit pekerjaan yang disebarkan oleh bundel, ubah file konfigurasi bundel dan sebarkan ulang pekerjaan. Menerapkan perubahan hanya pada konfigurasi bundel memastikan bahwa file sumber bundel selalu mengambil konfigurasi pekerjaan saat ini.
Namun, jika Anda harus segera membuat perubahan pada pekerjaan, Anda dapat memutuskan koneksi pekerjaan dari konfigurasi bundel untuk mengaktifkan pengeditan pengaturan pekerjaan di UI. Untuk memutuskan sambungan pekerjaan, klik Putuskan sambungan dari sumber. Dalam dialog Putuskan sambungan dari sumber, klik Putuskan sambungan untuk mengonfirmasi.
Setiap perubahan yang Anda buat pada pekerjaan di UI tidak diterapkan ke konfigurasi bundel. Untuk menerapkan perubahan yang Anda buat di UI ke bundel, Anda harus memperbarui konfigurasi bundel secara manual. Untuk menyambungkan kembali pekerjaan ke konfigurasi bundel, sebarkan ulang pekerjaan menggunakan bundel.
Mengekspor hasil eksekusi pekerjaan
Anda dapat mengekspor hasil eksekusi notebook dan log eksekusi pekerjaan untuk semua jenis pekerjaan.
Mengekspor hasil eksekusi notebook
Anda dapat mempertahankan eksekusi pekerjaan dengan mengekspor hasil mereka. Untuk eksekusi pekerjaan notebook, Anda dapat mengekspor notebook yang dirender yang nantinya dapat diimpor ke ruang kerja Azure Databricks Anda.
Untuk mengekspor hasil eksekusi notebook untuk pekerjaan dengan satu tugas:
- Pada halaman detail pekerjaan, klik tautan Lihat Detail untuk eksekusi di kolom Eksekusi tabel Eksekusi Selesai (60 hari terakhir).
- Klik Ekspor ke HTML.
Untuk mengekspor hasil eksekusi notebook untuk pekerjaan dengan beberapa tugas:
- Pada halaman detail pekerjaan, klik tautan Lihat Detail untuk eksekusi di kolom Eksekusi tabel Eksekusi Selesai (60 hari terakhir).
- Klik tugas notebook untuk diekspor.
- Klik Ekspor ke HTML.
Ekspor log eksekusi pekerjaan
Anda juga dapat mengekspor log untuk eksekusi pekerjaan Anda. Anda dapat menyiapkan pekerjaan Anda untuk mengirimkan log secara otomatis ke DBFS saat mengonfigurasi pengaturan pekerjaan (lihat Referensi konfigurasi komputasi) atau melalui Job API. Lihat objek new_cluster.cluster_log_conf
dalam isi permintaan yang diteruskan ke operasi Buat pekerjaan baru (POST /jobs/create
) di API Pekerjaan.