Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini menjelaskan pengaturan yang tersedia saat membuat kumpulan menggunakan UI. Untuk mempelajari cara menggunakan Databricks CLI untuk membuat kumpulan, lihat perintah Databricks CLI. Untuk mempelajari cara menggunakan REST API untuk membuat kumpulan, lihat INSTANCE Pools API.
Catatan
Jika beban kerja Anda mendukung komputasi tanpa server, Databricks merekomendasikan penggunaan komputasi tanpa server alih-alih kumpulan untuk memanfaatkan komputasi yang selalu aktif dan dapat diskalakan. Lihat Hubungkan ke komputasi tanpa server.
Ukuran kumpulan
Saat membuat kumpulan, untuk mengontrol ukurannya, Anda dapat mengatur tiga parameter: instans siaga minimum, kapasitas maksimum, dan penghentian otomatis instans siaga.
Instans Menganggur Minimum
Jumlah minimum instans yang dibiarkan menganggur oleh kumpulan. Instans ini tidak dihentikan, terlepas dari pengaturan penghentian otomatis. Jika kluster memanfaatkan instans tidak aktif dari kumpulan, Azure Databricks akan menyediakan instans tambahan untuk mempertahankan jumlah minimum.
Kapasitas maksimum
Jumlah maksimum instans yang dapat disediakan oleh kumpulan. Jika diatur, nilai ini membatasi semua instance (menganggur + digunakan). Jika kluster yang menggunakan kumpulan meminta lebih banyak instans daripada jumlah ini selama penskalakan otomatis, permintaan gagal dengan kesalahan INSTANCE_POOL_MAX_CAPACITY_FAILURE .
Konfigurasi ini opsional. Azure Databricks merekomendasikan pengaturan nilai hanya dalam keadaan berikut:
- Anda memiliki kuota instans yang harus tetap berada di bawah.
- Anda ingin melindungi satu set pekerjaan agar tidak memengaruhi serangkaian pekerjaan lain. Misalnya, anggap kuota instans Anda adalah 100 dan Anda memiliki tim A dan B yang perlu menjalankan pekerjaan. Anda dapat membuat kumpulan A dengan maks 50 dan kumpulan B dengan maks 50 sehingga kedua tim berbagi kuota 100 secara adil.
- Anda perlu membatasi biaya.
Penghentian otomatis sesi menganggur
Waktu dalam menit di atas nilai yang ditetapkan dalam Instans Siaga Minimum instans dapat tidak aktif sebelum dihentikan oleh sistem.
Jenis instans
Sebuah kumpulan terdiri dari instans yang diam dan siap untuk kluster baru serta instans yang sedang digunakan oleh kluster yang sedang berjalan. Semua instans ini memiliki jenis penyedia instans yang sama, dipilih saat membuat kumpulan.
Jenis instans kumpulan tidak dapat diedit. Kluster yang dilampirkan ke kumpulan menggunakan tipe instance yang sama untuk node driver dan pekerja. Berbagai keluarga jenis instans cocok untuk kasus penggunaan yang berbeda, seperti beban kerja yang intensif memori atau intensif komputasi.
Azure Databricks selalu memberikan pemberitahuan selama satu tahun sebelum menghentikan dukungan untuk jenis instans tertentu.
Catatan
Jika persyaratan keamanan Anda mencakup isolasi komputasi , pilih instans Standard_F72s_V2 dengan tipe pekerja Anda. Jenis instans ini mewakili mesin virtual terisolasi yang menggunakan seluruh host fisik dan menyediakan tingkat isolasi yang diperlukan untuk mendukung, misalnya, beban kerja Tingkat Dampak 5 (IL5) Departemen Pertahanan AS.
Versi Databricks Runtime yang Telah Dimuat
Anda dapat mempercepat peluncuran kluster dengan memilih versi Runtime Databricks yang akan dimuat pada instans yang sedang diam di dalam kumpulan. Jika pengguna memilih runtime tersebut saat mereka membuat kluster yang didukung oleh kumpulan, kluster tersebut akan diluncurkan lebih cepat daripada kluster yang didukung kumpulan yang tidak menggunakan versi Runtime Databricks yang telah dimuat sebelumnya.
Mengatur opsi ini ke Tidak ada akan memperlambat peluncuran kluster, karena menyebabkan versi Databricks Runtime diunduh sesuai permintaan ke instans yang tidak aktif dalam pool. Saat kluster melepaskan instans di dalam kumpulan, versi Databricks Runtime tetap tersimpan dalam cache pada instans tersebut. Pembuatan kluster berikutnya yang menggunakan versi Databricks Runtime yang sama mungkin mendapat manfaat dari perilaku cache ini, tetapi tidak dijamin.
Gambar Docker yang dimuat sebelumnya
Gambar Docker didukung dengan kumpulan jika Anda menggunakan INSTANCE Pools API untuk membuat kumpulan.
Kumpulan tag
Kumpulan tag memungkinkan Anda untuk dengan mudah memantau biaya sumber daya cloud yang digunakan oleh pengguna dan grup di organisasi Anda. Anda dapat menentukan tag sebagai pasangan kunci-nilai saat membuat kumpulan, dan Azure Databricks menerapkan tag ini ke sumber daya cloud seperti VM dan volume disk, serta laporan penggunaan DBU.
Untuk kenyamanan, Azure Databricks menerapkan tiga tag default ke setiap kumpulan: Vendor, DatabricksInstancePoolId, dan DatabricksInstancePoolCreatorId. Anda juga dapat menambahkan tag kustom saat membuat kumpulan. Anda dapat menambahkan hingga 41 tag kustom.
Tag kustom
Untuk menambahkan tag tambahan ke kumpulan, navigasikan ke tab Tab di bagian bawah halaman Buat Kumpulan. Klik tombol + Tambahkan , lalu masukkan pasangan kunci-nilai.
Kluster yang didukung kumpulan mewarisi tag default dan kustom dari konfigurasi kumpulan. Untuk informasi terperinci tentang cara tag kumpulan dan tag kluster bekerja sama, lihat Menggunakan tag untuk mengaitkan dan melacak penggunaan.
Penyimpanan lokal penskalaan otomatis
Seringkali sulit untuk memperkirakan berapa banyak ruang disk yang akan diambil pekerjaan tertentu. Untuk menyelamatkan Anda agar tidak perlu memperkirakan berapa banyak gigabyte disk terkelola yang akan dilampirkan ke kumpulan Anda pada waktu pembuatan, Azure Databricks secara otomatis memungkinkan penskalaan otomatis penyimpanan lokal di semua kumpulan Azure Databricks.
Dengan penskalaan otomatis penyimpanan lokal, Azure Databricks memantau jumlah ruang disk kosong yang tersedia pada instans kumpulan Anda. Jika instansinya memiliki ruang disk yang terlalu sedikit, disk terkelola baru akan dilampirkan secara otomatis sebelum ruang disk habis. Disk terpasang hingga batas 5 TB dari total ruang disk per komputer virtual (termasuk penyimpanan lokal awal komputer virtual).
Disk terkelola yang dilampirkan ke mesin virtual terlepas hanya ketika mesin virtual dikembalikan ke Azure. Artinya, disk yang dikelola tidak pernah terlepas dari mesin virtual selama menjadi bagian dari kluster.
Instans sementara
Untuk menghemat biaya, Anda dapat memilih opsi untuk menggunakan instans spot dengan memilih tombol radio Semua Spot.
Kluster di kumpulan akan diluncurkan dengan instans spot untuk semua node, driver, dan pekerja (dibandingkan dengan driver on-demand hibrid dan pekerja instans spot untuk kluster non-kumpulan).
Jika instans spot digusur karena tidak tersedia, instans sesuai permintaan tidak menggantikan instans yang digusur.