Referensi konfigurasi kumpulan
Artikel ini menjelaskan pengaturan yang tersedia saat membuat kumpulan menggunakan UI. Untuk mempelajari cara menggunakan Databricks CLI untuk membuat kumpulan, lihat perintah Databricks CLI. Untuk mempelajari cara menggunakan REST API untuk membuat kumpulan, lihat INSTANCE Pools API.
Catatan
Jika beban kerja Anda mendukung komputasi tanpa server, Databricks merekomendasikan penggunaan komputasi tanpa server alih-alih kumpulan untuk memanfaatkan komputasi yang selalu aktif dan dapat diskalakan. Lihat Menyambungkan ke komputasi tanpa server.
Ukuran kumpulan
Saat Membuat kumpulan, untuk mengontrol ukurannya, Anda dapat mengatur tiga parameter: instans diam minimum, kapasitas maksimum, dan penghentian otomatis instans diam.
Instans Diam Minimum
Jumlah minimum instans yang disimpan kumpulan tetap diam. Instans ini tidak dihentikan, terlepas dari pengaturan penghentian otomatis. Jika kluster menggunakan instans diam dari kumpulan, Azure Databricks menyediakan instans tambahan untuk mempertahankan minimum.
Kapasitas maksimum
Jumlah maksimum instans yang dapat disediakan kumpulan. Jika diatur, nilai ini membatasi semua instans (diam + digunakan). Jika kluster yang menggunakan kumpulan meminta lebih banyak instans daripada jumlah ini selama penskalakan otomatis, permintaan gagal dengan kesalahan INSTANCE_POOL_MAX_CAPACITY_FAILURE
.
Konfigurasi ini opsional. Azure Databricks merekomendasikan pengaturan nilai hanya dalam keadaan berikut:
- Anda memiliki kuota instans yang harus Anda tinggali.
- Anda ingin melindungi satu set pekerjaan agar tidak memengaruhi serangkaian pekerjaan lain. Misalnya, anggap kuota instans Anda adalah 100 dan Anda memiliki tim A dan B yang perlu menjalankan pekerjaan. Anda dapat membuat kumpulan A dengan maks 50 dan kumpulan B dengan maks 50 sehingga kedua tim berbagi kuota 100 secara adil.
- Anda perlu menutupi biaya.
Penghentian otomatis instans menganggur
Waktu dalam menit di atas nilai yang ditetapkan dalam Instans Diam Minimum yang dapat diam instans sebelum dihentikan oleh kumpulan.
Jenis instans
Kumpulan terdiri dari kedua instans diam yang disiapkan untuk kluster dan instans baru yang digunakan dengan menjalankan kluster. Semua instans ini memiliki jenis penyedia instans yang sama, dipilih saat membuat kumpulan.
Jenis instans kumpulan tidak dapat diedit. Kluster yang dilampirkan ke kumpulan menggunakan jenis instans yang sama untuk simpul driver dan pekerja. Keluarga yang berbeda dari jenis instans sesuai dengan kasus penggunaan yang berbeda, seperti beban kerja intensif memori atau komputasi intensif.
Azure Databricks selalu memberikan pemberitahuan tidak digunakan lagi satu tahun sebelum menghentikan dukungan untuk satu jenis instans.
Catatan
Jika persyaratan keamanan Anda menyertakan isolasi komputasi, pilih instans Standard_F72s_V2 sebagai jenis pekerja Anda. Jenis instans ini mewakili mesin virtual terisolasi yang menggunakan seluruh host fisik dan menyediakan tingkat isolasi yang diperlukan untuk mendukung, misalnya, beban kerja Tingkat Dampak 5 (IL5) Departemen Pertahanan AS.
Versi Runtime Databricks yang Dimuat Sebelumnya
Anda dapat mempercepat peluncuran kluster dengan memilih versi Runtime Databricks yang akan dimuat pada instans diam di kumpulan. Jika pengguna memilih runtime bahasa umum tersebut saat mereka membuat kluster yang didukung oleh kumpulan, kluster tersebut akan diluncurkan lebih cepat daripada kluster yang didukung kumpulan yang tidak menggunakan versi Runtime Databricks yang dimuat sebelumnya.
Mengatur opsi ini ke Tidak ada yang memperlambat peluncuran kluster, karena menyebabkan versi Runtime bahasa umum Databricks diunduh sesuai permintaan ke instans diam di kumpulan. Saat kluster merilis instans di kumpulan, versi Runtime bahasa umum Databricks tetap di-cache pada instans tersebut. Operasi pembuatan kluster berikutnya yang menggunakan versi Runtime bahasa umum Databricks yang sama mungkin mendapat manfaat dari perilaku penembolokan ini, tetapi tidak dijamin.
Gambar Docker yang dimuat sebelumnya
Gambar Docker didukung dengan kumpulan jika Anda menggunakan INSTANCE Pools API untuk membuat kumpulan.
Tag kumpulan
Kumpulan tag memungkinkan Anda untuk dengan mudah memantau biaya sumber daya cloud yang digunakan oleh pengguna dan grup di organisasi Anda. Anda dapat menentukan tag sebagai pasangan nilai kunci saat membuat kumpulan, dan Azure Databricks menerapkan tag ini ke sumber daya cloud seperti VM dan volume disk, begitu juga Laporan penggunaan DBU.
Untuk kenyamanan, Azure Databricks menerapkan tiga tag default ke setiap kumpulan: Vendor
, DatabricksInstancePoolId
, dan DatabricksInstancePoolCreatorId
. Anda juga dapat menambahkan tag kustom saat membuat kumpulan. Anda dapat menambahkan hingga 41 tag kustom.
Tag kustom
Untuk menambahkan tag tambahan ke kumpulan, navigasikan ke tab Tab di bagian bawah halaman Buat Kumpulan. Klik tombol + Tambahkan , lalu masukkan pasangan kunci-nilai.
Kluster yang didukung kumpulan mewarisi tag default dan kustom dari konfigurasi kumpulan. Untuk informasi terperinci tentang cara tag kumpulan dan tag kluster bekerja sama, lihat Memantau penggunaan menggunakan tag.
Penyimpanan lokal autoscaling
Seringkali sulit untuk memperkirakan berapa banyak ruang disk yang akan diambil pekerjaan tertentu. Untuk menyelamatkan Anda dari keharusan memperkirakan berapa gigabyte disk terkelola untuk dilampirkan ke kumpulan Anda pada saat pembuatan, Azure Databricks secara otomatis mengaktifkan penyimpanan lokal penskalaan otomatis di semua kumpulan Azure Databricks.
Dengan penskalaan otomatis penyimpanan lokal, Azure Databricks memantau jumlah ruang disk kosong yang tersedia pada pekerja Spark kluster Anda. Jika instans berjalan terlalu rendah pada disk, disk terkelola baru dilampirkan secara otomatis sebelum kehabisan ruang disk. Disk dilampirkan hingga batas 5 TB dari total ruang disk per mesin virtual (termasuk penyimpanan lokal awal mesin virtual).
Disk terkelola yang dilampirkan ke mesin virtual terlepas hanya ketika mesin virtual dikembalikan ke Azure. Artinya, disk yang dikelola tidak pernah terlepas dari mesin virtual selama itu adalah bagian dari kumpulan.
Instans spot
Untuk menghemat biaya, Anda dapat memilih untuk menggunakan instans spot dengan memeriksa tombol radio Semua Spot.
Kluster di kumpulan akan diluncurkan dengan instans spot untuk semua simpul, driver, dan pekerja (sebagai lawan dari hibrid driver sesuai permintaan dan pekerja instans spot untuk kluster non-kumpulan).
Jika instans spot digusur karena tidak tersedia, instans sesuai permintaan tidak menggantikan instans yang digusur.