Lembar contekan penjadwalan pekerjaan produksi

Artikel ini bertujuan untuk memberikan panduan yang jelas dan berpendapat untuk penjadwalan pekerjaan produksi. Menggunakan praktik terbaik dapat membantu mengurangi biaya, meningkatkan performa, dan memperketat keamanan.

Praktik Terbaik Dampak Dokumen
Menggunakan komputasi tanpa server untuk pekerjaan Biaya: Pekerjaan tanpa server tidak memerlukan konfigurasi kluster. Azure Databricks mengelola provisi dan penskalakan secara otomatis.
Gunakan Tugas Lakeflow untuk orkestrasi jika memungkinkan Cost: Tidak perlu menggunakan alat eksternal untuk mengorkestrasi jika Anda hanya mengorkestrasi beban kerja pada Azure Databricks.
Gunakan entitas layanan sebagai pengganti akun pengguna untuk menjalankan pekerjaan produksi Keamanan: Jika pekerjaan dimiliki oleh pengguna individual, ketika pengguna tersebut meninggalkan organisasi, pekerjaan ini mungkin berhenti berjalan.
Untuk komputasi klasik: gunakan kluster pekerjaan untuk alur kerja otomatis Biaya: Kluster pekerjaan ditagih dengan tarif yang lebih rendah daripada kluster interaktif.
Untuk komputasi klasik: mulai ulang kluster yang berjalan lama Keamanan: Mulai ulang kluster untuk memanfaatkan patch dan perbaikan bug ke Databricks Runtime.
Untuk komputasi klasik: gunakan Versi LTS terbaru dari Databricks Runtime Performance dan biaya: Azure Databricks selalu meningkatkan Databricks Runtime untuk kegunaan, performa, dan keamanan.
Untuk komputasi klasik: jangan simpan data produksi di Akar DBFS Keamanan: Saat data disimpan di akar DBFS, semua pengguna dapat mengaksesnya.