Bagikan melalui


Referensi konfigurasi kumpulan

Artikel ini menjelaskan pengaturan yang tersedia saat membuat kumpulan menggunakan UI. Untuk mempelajari cara menggunakan Databricks CLI untuk membuat kumpulan, lihat Instance Pools CLI (warisan). Untuk mempelajari cara menggunakan REST API untuk membuat kumpulan, lihat INSTANCE Pools API.

Ukuran kumpulan dan penghentian otomatis

Saat Membuat kumpulan, untuk mengontrol ukurannya, Anda dapat mengatur tiga parameter: instans diam minimum, kapasitas maksimum, dan penghentian otomatis instans diam.

Instans Diam Minimum

Jumlah minimum instans yang disimpan kumpulan tetap diam. Instans ini tidak dihentikan, terlepas dari pengaturan penghentian otomatis. Jika kluster menggunakan instans diam dari kumpulan, Azure Databricks menyediakan instans tambahan untuk mempertahankan minimum.

Kapasitas maksimum

Jumlah maksimum instans yang dapat disediakan kumpulan. Jika diatur, nilai ini membatasi semua instans (diam + digunakan). Jika kluster yang menggunakan kumpulan meminta lebih banyak instans daripada jumlah ini selama penskalakan otomatis, permintaan gagal dengan kesalahan INSTANCE_POOL_MAX_CAPACITY_FAILURE .

Konfigurasi ini opsional. Azure Databricks merekomendasikan pengaturan nilai hanya dalam keadaan berikut:

  • Anda memiliki kuota instans yang harus Anda tinggali.
  • Anda ingin melindungi satu set pekerjaan agar tidak memengaruhi serangkaian pekerjaan lain. Misalnya, anggap kuota instans Anda adalah 100 dan Anda memiliki tim A dan B yang perlu menjalankan pekerjaan. Anda dapat membuat kumpulan A dengan maks 50 dan kumpulan B dengan maks 50 sehingga kedua tim berbagi kuota 100 secara adil.
  • Anda perlu menutupi biaya.

Penghentian Otomatis Instans Diam

Waktu dalam menit di atas nilai yang ditetapkan dalam Instans Diam Minimum yang dapat diam instans sebelum dihentikan oleh kumpulan.

Jenis instans

Kumpulan terdiri dari kedua instans diam yang disiapkan untuk kluster dan instans baru yang digunakan dengan menjalankan kluster. Semua instans ini memiliki jenis penyedia instans yang sama, dipilih saat membuat kumpulan.

Jenis instans kumpulan tidak dapat diedit. Kluster yang dilampirkan ke kumpulan menggunakan jenis instans yang sama untuk simpul driver dan pekerja. Keluarga yang berbeda dari jenis instans sesuai dengan kasus penggunaan yang berbeda, seperti beban kerja intensif memori atau komputasi intensif.

Azure Databricks selalu memberikan pemberitahuan tidak digunakan lagi satu tahun sebelum menghentikan dukungan untuk satu jenis instans.

Catatan

Jika persyaratan keamanan Anda menyertakan isolasi komputasi, pilih instans Standard_F72s_V2 sebagai jenis pekerja Anda. Jenis instans ini mewakili mesin virtual terisolasi yang menggunakan seluruh host fisik dan menyediakan tingkat isolasi yang diperlukan untuk mendukung, misalnya, beban kerja Tingkat Dampak 5 (IL5) Departemen Pertahanan AS.

Versi Runtime Databricks yang Dimuat Sebelumnya

Anda dapat mempercepat peluncuran kluster dengan memilih versi Runtime Databricks yang akan dimuat pada instans diam di kumpulan. Jika pengguna memilih runtime bahasa umum tersebut saat mereka membuat kluster yang didukung oleh kumpulan, kluster tersebut akan diluncurkan lebih cepat daripada kluster yang didukung kumpulan yang tidak menggunakan versi Runtime Databricks yang dimuat sebelumnya.

Mengatur opsi ini ke Tidak ada yang memperlambat peluncuran kluster, karena menyebabkan versi Runtime bahasa umum Databricks diunduh sesuai permintaan ke instans diam di kumpulan. Saat kluster merilis instans di kumpulan, versi Runtime bahasa umum Databricks tetap di-cache pada instans tersebut. Operasi pembuatan kluster berikutnya yang menggunakan versi Runtime bahasa umum Databricks yang sama mungkin mendapat manfaat dari perilaku penembolokan ini, tetapi tidak dijamin.

Gambar Docker yang dimuat sebelumnya

Gambar Docker didukung dengan kumpulan jika Anda menggunakan INSTANCE Pools API untuk membuat kumpulan.

Tag kumpulan

Kumpulan tag memungkinkan Anda untuk dengan mudah memantau biaya sumber daya cloud yang digunakan oleh pengguna dan grup di organisasi Anda. Anda dapat menentukan tag sebagai pasangan nilai kunci saat membuat kumpulan, dan Azure Databricks menerapkan tag ini ke sumber daya cloud seperti VM dan volume disk, begitu juga Laporan penggunaan DBU.

Untuk kenyamanan, Azure Databricks menerapkan tiga tag default ke setiap kumpulan: Vendor, DatabricksInstancePoolId, dan DatabricksInstancePoolCreatorId. Anda juga dapat menambahkan tag kustom saat membuat kumpulan. Anda dapat menambahkan hingga 41 tag kustom.

Tag kustom

Untuk menambahkan tag tambahan ke kumpulan, navigasikan ke tab Tab di bagian bawah halaman Buat Kumpulan. Klik tombol + Tambahkan , lalu masukkan pasangan kunci-nilai.

Kluster yang didukung kumpulan mewarisi tag default dan kustom dari konfigurasi kumpulan. Untuk informasi terperinci tentang cara tag kumpulan dan tag kluster bekerja sama, lihat Memantau penggunaan menggunakan tag.

Penyimpanan lokal autoscaling

Seringkali sulit untuk memperkirakan berapa banyak ruang disk yang akan diambil pekerjaan tertentu. Untuk menyelamatkan Anda dari keharusan memperkirakan berapa gigabyte disk terkelola untuk dilampirkan ke kumpulan Anda pada saat pembuatan, Azure Databricks secara otomatis mengaktifkan penyimpanan lokal penskalaan otomatis di semua kumpulan Azure Databricks.

Dengan penskalaan otomatis penyimpanan lokal, Azure Databricks memantau jumlah ruang disk kosong yang tersedia pada pekerja Spark kluster Anda. Jika instans berjalan terlalu rendah pada disk, disk terkelola baru dilampirkan secara otomatis sebelum kehabisan ruang disk. Disk dilampirkan hingga batas 5 TB dari total ruang disk per mesin virtual (termasuk penyimpanan lokal awal mesin virtual).

Disk terkelola yang dilampirkan ke mesin virtual terlepas hanya ketika mesin virtual dikembalikan ke Azure. Artinya, disk yang dikelola tidak pernah terlepas dari mesin virtual selama itu adalah bagian dari kumpulan.

Instans spot

Untuk menghemat biaya, Anda dapat memilih untuk menggunakan instans spot dengan memeriksa tombol radio Semua Spot.

Kluster di kumpulan akan diluncurkan dengan instans spot untuk semua simpul, driver, dan pekerja (sebagai lawan dari hibrid driver sesuai permintaan dan pekerja instans spot untuk kluster non-kumpulan).

Jika instans spot digusur karena tidak tersedia, instans sesuai permintaan tidak menggantikan instans yang digusur.