Memecahkan masalah dan memperbaiki kegagalan pekerjaan

Artikel
05/08/2024

Misalkan Anda telah diberi tahu (misalnya, melalui pemberitahuan email, solusi pemantauan, atau di Antarmuka Pengguna Pekerjaan Azure Databricks) bahwa tugas telah gagal dalam menjalankan pekerjaan Azure Databricks Anda. Langkah-langkah dalam artikel ini memberikan panduan untuk membantu Anda mengidentifikasi penyebab kegagalan, saran untuk memperbaiki masalah yang Anda temukan, dan cara memperbaiki eksekusi pekerjaan yang gagal.

Mengidentifikasi penyebab kegagalan

Untuk menemukan tugas yang gagal di antarmuka pengguna Pekerjaan Azure Databricks:

Klik Eksekusi Pekerjaan di bilah samping.
Di kolom Nama, klik nama pekerjaan. Tab Jalankan memperlihatkan eksekusi aktif dan eksekusi yang selesai, termasuk eksekusi yang gagal. Tampilan matriks di tab Jalankan memperlihatkan riwayat eksekusi untuk pekerjaan, termasuk eksekusi yang berhasil dan tidak berhasil untuk setiap tugas pekerjaan. Eksekusi tugas mungkin tidak berhasil karena gagal atau dilewati karena tugas dependen gagal. Dengan menggunakan tampilan matriks, Anda dapat dengan cepat mengidentifikasi kegagalan tugas untuk eksekusi pekerjaan Anda.
Arahkan mouse ke atas tugas yang gagal untuk melihat metadata terkait. Metadata ini mencakup tanggal mulai dan berakhir, status, detail kluster durasi, dan, dalam beberapa kasus, pesan kesalahan.
Untuk membantu mengidentifikasi penyebab kegagalan, klik tugas yang gagal. Halaman Detail eksekusi tugas muncul, menampilkan output tugas, pesan kesalahan, dan metadata terkait.

Memperbaiki penyebab kegagalan

Tugas Anda mungkin gagal karena beberapa alasan, misalnya, masalah kualitas data, kesalahan konfigurasi, atau sumber daya komputasi yang tidak mencukup. Berikut ini adalah langkah-langkah yang disarankan untuk memperbaiki beberapa penyebab umum kegagalan tugas:

Jika kegagalan terkait dengan konfigurasi tugas, klik Edit tugas. Konfigurasi tugas terbuka di tab baru. Perbarui konfigurasi tugas sesuai kebutuhan dan klik Simpan tugas.
Jika masalah terkait dengan sumber daya kluster, misalnya, instans yang tidak mencukup, ada beberapa opsi:
- Jika pekerjaan Anda dikonfigurasi untuk menggunakan kluster pekerjaan, pertimbangkan untuk menggunakan kluster semua tujuan bersama.
- Ubah konfigurasi kluster. Klik Edit tugas. Di panel Detail pekerjaan, di bawah Komputasi, klik Konfigurasikan untuk mengonfigurasi kluster. Anda dapat mengubah jumlah pekerja, jenis instans, atau opsi konfigurasi kluster lainnya. Anda juga dapat mengklik Tukar untuk beralih ke kluster lain yang tersedia. Untuk memastikan Anda memanfaatkan sumber daya yang tersedia secara optimal, tinjau praktik terbaik untuk konfigurasi kluster.
- Jika perlu, minta administrator untuk meningkatkan kuota sumber daya di akun cloud dan wilayah tempat ruang kerja Anda disebarkan.
Jika kegagalan disebabkan oleh melebihi eksekusi bersamaan maksimum, baik:
- Tunggu hingga proses lain selesai.
- Klik Edit tugas. Di panel Detail pekerjaan, klik Edit eksekusi bersamaan, masukkan nilai baru untuk Eksekusi bersamaan maksimum, dan klik Konfirmasi.

Dalam beberapa kasus, penyebab kegagalan mungkin dari hulu dari pekerjaan Anda; misalnya, sumber data eksternal tidak tersedia. Anda masih dapat memanfaatkan fitur eksekusi perbaikan yang tercakup di bagian berikutnya setelah masalah eksternal teratasi.

Menjalankan kembali tugas yang gagal dan dilewati

Setelah mengidentifikasi penyebab kegagalan, Anda dapat memperbaiki pekerjaan multi-tugas yang gagal atau dibatalkan dengan hanya menjalankan subset tugas yang tidak berhasil dan tugas dependen apa pun. Karena tugas yang berhasil dan tugas yang dependen tidak dijalankan kembali, fitur ini mengurangi waktu dan sumber daya yang diperlukan untuk pulih dari eksekusi pekerjaan yang tidak berhasil.

Anda dapat mengubah pengaturan pekerjaan atau tugas sebelum memperbaiki pekerjaan yang dijalankan. Tugas yang gagal dijalankan kembali dengan pengaturan tugas dan pekerjaan saat ini. Misalnya, jika Anda mengubah jalur ke pengaturan buku catatan atau kluster, tugas dijalankan kembali dengan pengaturan buku catatan atau kluster yang telah diperbarui.

Tampilkan riwayat semua tugas yang dijalankan pada halaman Detail eksekusi tugas.

Catatan

Jika satu atau beberapa tugas berbagi kluster pekerjaan, eksekusi perbaikan akan membuat kluster pekerjaan baru. Misalnya, jika eksekusi asli menggunakan kluster my_job_clusterpekerjaan , eksekusi perbaikan pertama menggunakan kluster my_job_cluster_v1pekerjaan baru , memungkinkan Anda untuk dengan mudah melihat pengaturan kluster dan kluster yang digunakan oleh eksekusi awal dan perbaikan apa pun berjalan. Pengaturan untuk my_job_cluster_v1 sama dengan pengaturan saat ini untuk my_job_cluster.
Perbaikan hanya didukung dengan pekerjaan yang mengatur dua tugas atau lebih.
Nilai Durasi yang ditampilkan di tab Eksekusi menyertakan waktu eksekusi pertama dimulai hingga waktu ketika eksekusi perbaikan terbaru selesai. Misalnya, jika eksekusi gagal dua kali dan berhasil pada eksekusi ketiga, durasi menyertakan waktu untuk ketiga eksekusi.

Untuk memperbaiki eksekusi pekerjaan yang gagal:

Klik tautan untuk eksekusi yang gagal di kolom Waktu mulai dari tabel eksekusi pekerjaan atau klik eksekusi yang gagal dalam tampilan matriks. Halaman Detail eksekusi pekerjaan muncul.
Klik Perbaiki eksekusi. Dialog Perbaiki eksekusi pekerjaan muncul, mencantumkan semua tugas yang gagal dan tugas dependen yang akan dijalankan kembali.
Untuk menambahkan atau mengedit parameter untuk tugas yang akan diperbaiki, masukkan parameter dalam dialog Perbaiki eksekusi pekerjaan. Parameter yang Anda masukkan di dalam dialog Perbaiki eksekusi pekerjaan akan mengambil alih nilai yang ada. Pada eksekusi perbaikan berikutnya, Anda dapat mengembalikan parameter ke nilai aslinya dengan menghapus kunci dan nilai dalam dialog Perbaiki eksekusi pekerjaan.
Klik Perbaiki eksekusi dalam dialog Perbaiki eksekusi pekerjaan.
Setelah eksekusi perbaikan selesai, tampilan matriks diperbarui dengan kolom baru untuk eksekusi yang diperbaiki. Setiap tugas gagal yang berwarna merah sekarang harus berwarna hijau, menunjukkan keberhasilan eksekusi untuk seluruh pekerjaan Anda.

Melihat dan mengelola kegagalan pekerjaan berkelanjutan

Ketika kegagalan berturut-turut dari pekerjaan berkelanjutan melebihi ambang batas, Azure Databricks Jobs menggunakan backoff eksponensial untuk mencoba kembali pekerjaan. Saat pekerjaan berada dalam status backoff eksponensial, pesan di panel Detail pekerjaan menampilkan informasi, termasuk:

Jumlah kegagalan berturut-turut.
Periode pekerjaan berjalan tanpa kesalahan dianggap berhasil.
Waktu sebelum coba lagi berikutnya jika saat ini tidak ada eksekusi yang aktif.

Untuk membatalkan eksekusi aktif, reset periode coba lagi, dan mulai eksekusi pekerjaan baru, klik Mulai ulang eksekusi.

Bagikan melalui