Bagikan melalui


Praktik terbaik kumpulan

Artikel ini menjelaskan apa itu kumpulan, dan cara terbaik untuk mengonfigurasinya. Untuk informasi tentang membuat kumpulan, lihat Referensi konfigurasi kumpulan.

Pertimbangan kumpulan

Pertimbangkan hal berikut saat membuat kumpulan:

  • Buat kumpulan menggunakan jenis instans dan runtime Azure Databricks berdasarkan beban kerja target.
  • Jika memungkinkan, isi kumpulan dengan instans spot untuk mengurangi biaya. Hanya gunakan kumpulan spot sebagai simpul pekerja. Node driver Anda harus menggunakan instans sesuai permintaan.
  • Isilah kumpulan dengan instans sesuai permintaan untuk pekerjaan dengan waktu eksekusi yang singkat dan persyaratan waktu eksekusi yang ketat.
  • Gunakan tag kumpulan dan tag kluster untuk mengelola tagihan.
  • Pra-pengisian kumpulan untuk memastikan instans tersedia saat kluster membutuhkannya.

Membuat kumpulan berdasarkan beban kerja

Anda dapat meminimalkan waktu akuisisi instans dengan membuat kumpulan untuk setiap jenis instans dan runtime Azure Databricks yang biasa digunakan organisasi Anda. Misalnya, jika sebagian besar kluster rekayasa data menggunakan instans tipe A, kluster sains data menggunakan instans tipe B, dan kluster analitik menggunakan instans tipe C, buat kumpulan dengan setiap jenis instans.

Menggunakan kumpulan instans spot

Jika simpul driver dan simpul pekerja Anda memiliki persyaratan yang berbeda, gunakan kumpulan yang berbeda untuk masing-masing.

Azure Databricks merekomendasikan untuk tidak menggunakan instans spot untuk simpul driver Anda. Jika Anda menggunakan kumpulan spot untuk simpul pekerja Anda, pilih kumpulan sesuai permintaan sebagai jenis Driver Anda.

Konfigurasikan kumpulan untuk menggunakan instans sesuai permintaan bagi pekerjaan dengan waktu eksekusi yang singkat dan persyaratan waktu eksekusi yang ketat. Gunakan instans sesuai permintaan untuk mencegah instans yang diperoleh hilang ke penawar yang lebih tinggi di pasar spot.

Konfigurasikan kumpulan untuk menggunakan instans spot untuk kluster yang mendukung pengembangan interaktif atau pekerjaan yang memprioritaskan penghematan biaya daripada keandalan.

Tag pool untuk mengelola biaya dan tagihan

Menandai kumpulan pada pusat biaya yang benar memungkinkan Anda mengelola tagihan balik biaya dan penggunaan. Anda dapat menggunakan beberapa tag kustom untuk mengaitkan beberapa pusat biaya ke kumpulan. Namun, penting untuk memahami bagaimana tag disebarkan saat sebuah kluster dibuat dari kumpulan. Tag dari kumpulan menyebar ke instans penyedia cloud yang mendasar, tetapi tag kluster tidak. Terapkan semua tag kustom yang diperlukan untuk mengelola tagihan balik biaya komputasi penyedia cloud ke kumpulan.

Tag kumpulan dan tag kluster keduanya disebarkan ke tagihan Azure Databricks. Anda dapat menggunakan kombinasi tag kluster dan kumpulan untuk mengelola tagihan balik Azure Databricks Units.

Untuk mempelajari selengkapnya, lihat Memantau penggunaan menggunakan tag.

Mengonfigurasi kumpulan untuk mengontrol biaya

Anda dapat menggunakan opsi konfigurasi berikut untuk membantu mengontrol biaya kumpulan:

  • Atur instans Min Idle ke 0 untuk menghindari pembayaran untuk menjalankan instans yang tidak berfungsi. Tradeoff adalah kemungkinan peningkatan waktu saat sebuah cluster perlu memperoleh instans baru.

  • Atur Kapasitas Maksimum berdasarkan penggunaan yang diantisipasi. Ini mengatur ceiling untuk jumlah maksimum instans yang digunakan dan diam di kumpulan. Jika pekerjaan atau kluster meminta instans dari kumpulan pada kapasitas maksimumnya, permintaan gagal, dan kluster tidak memperoleh lebih banyak instans. Oleh karena itu, Databricks menyarankan agar Anda mengatur kapasitas maksimum hanya jika ada kuota instans atau batasan anggaran yang ketat.

  • Atur waktu Penghentian Otomatis Instans yang Diam untuk menyediakan buffer antara saat instans dilepaskan dari kluster dan saat dijatuhkan dari kumpulan. Atur ini ke periode yang memungkinkan Anda meminimalkan biaya sambil memastikan ketersediaan instans untuk pekerjaan terjadwal. Misalnya, pekerjaan A dijadwalkan berjalan pada pukul 8.00 pagi dan membutuhkan waktu 40 menit untuk menyelesaikannya. Pekerjaan B dijadwalkan berjalan pada pukul 09.00 pagi dan membutuhkan waktu 30 menit untuk menyelesaikannya. Atur nilai Penghentian Otomatis Instans yang Diam menjadi 20 menit untuk memastikan bahwa instans yang kembali ke kumpulan saat pekerjaan A selesai tersedia saat pekerjaan B dimulai. Kecuali mereka diklaim oleh cluster lain, instans tersebut dihentikan 20 menit setelah pekerjaan B berakhir.

Pra-pengisian kumpulan

Untuk mendapatkan keuntungan penuh dari kumpulan, Anda dapat melakukan pra-pengisian pada kumpulan yang baru dibuat. Atur instans Min Idle yang lebih besar dari nol dalam konfigurasi kumpulan. Atau, jika Anda mengikuti rekomendasi untuk mengatur nilai ini ke nol, gunakan pekerjaan permulaan untuk memastikan bahwa kumpulan yang baru dibuat memiliki instans yang tersedia untuk diakses kluster.

Dengan pendekatan pekerjaan permulaan, jadwalkan pekerjaan dengan persyaratan waktu eksekusi yang fleksibel untuk dijalankan sebelum pekerjaan dengan persyaratan performa yang lebih ketat atau sebelum pengguna mulai menggunakan kluster interaktif. Setelah pekerjaan selesai, instans yang digunakan untuk pekerjaan dilepaskan kembali ke kumpulan. Atur pengaturan instans Min Idle ke 0 dan atur waktu Penghentian Otomatis Instans yang Diam cukup tinggi untuk memastikan bahwa instans yang diam tetap tersedia untuk pekerjaan berikutnya.

Menggunakan pekerjaan permulaan memungkinkan instans kumpulan berputar, mengisi kumpulan, dan tetap tersedia untuk pekerjaan hilir atau kluster interaktif.