Membuat kluster Spark
Anda dapat membuat satu atau beberapa kluster di ruang kerja Azure Databricks Anda dengan menggunakan antarmuka pengguna Ruang Kerja Azure Databricks.
Saat membuat kluster, Anda dapat menentukan pengaturan konfigurasi, termasuk:
- Nama untuk kluster.
- Mode kluster , yang dapat berupa:
- Standar : Cocok untuk beban kerja pengguna tunggal yang memerlukan beberapa simpul pekerja.
- Konkurensi Tinggi: Cocok untuk beban kerja di mana beberapa pengguna akan menggunakan kluster secara bersamaan.
- Node Tunggal: Cocok untuk beban kerja kecil atau pengujian, yang hanya memerlukan satu node pekerja.
- Versi Databricks Runtime yang akan digunakan dalam kluster; yang menentukan versi Spark dan komponen individual seperti Python, Scala, dan lainnya yang diinstal.
- Jenis komputer virtual (VM) yang digunakan untuk simpul pekerja dalam kluster.
- Jumlah minimum dan maksimum simpul pekerja dalam kluster.
- Jenis VM yang digunakan untuk simpul driver dalam kluster.
- Apakah kluster mendukung autoscaling untuk mengubah ukuran kluster secara dinamis.
- Berapa lama kluster dapat tetap diam sebelum dimatikan secara otomatis.
Cara Azure mengelola sumber daya kluster
Saat Anda membuat ruang kerja Azure Databricks, appliance Databricks disebarkan sebagai sumber daya Azure di langganan Anda. Saat Anda membuat kluster di ruang kerja, Anda menentukan jenis dan ukuran komputer virtual (VM) yang akan digunakan untuk simpul driver dan pekerja, dan beberapa opsi konfigurasi lainnya, tetapi Azure Databricks mengelola semua aspek kluster lainnya.
Appliance Databricks disebarkan ke Azure sebagai grup sumber daya terkelola dalam langganan Anda. Grup sumber daya ini berisi driver dan VM pekerja untuk kluster Anda, bersama dengan sumber daya lain yang diperlukan, termasuk jaringan virtual, grup keamanan, dan akun penyimpanan. Semua metadata untuk kluster Anda, seperti pekerjaan terjadwal, disimpan di Azure Database dengan replikasi geografis untuk toleransi kesalahan.
Azure Databricks dibagi menjadi dua bidang utama: sarana kontrol, yang terdiri dari layanan backend (misalnya, UI web) yang dikelola oleh Microsoft, dan bidang komputasi, tempat beban kerja data Anda berjalan. Ada dua varian komputasi: komputasi klasik, yang menggunakan langganan Azure dan jaringan virtual Anda sendiri (menawarkan isolasi di dalam langganan Anda), dan komputasi tanpa server, yang berjalan dalam lingkungan terkelola Databricks tetapi masih di wilayah Azure yang sama dengan ruang kerja Anda, dengan kontrol jaringan dan keamanan untuk mengisolasi antara pelanggan. Setiap ruang kerja memiliki akun penyimpanan di langganan Anda yang menyimpan data sistem (notebook, log, metadata pekerjaan), sistem file terdistribusi (DBFS), dan aset katalog (jika Anda mengaktifkan Katalog Unity), dengan kontrol tambahan untuk jaringan, firewall, dan akses untuk memastikan keamanan dan isolasi yang tepat.
Nota
Anda juga memiliki opsi untuk melampirkan kluster Anda ke kumpulan simpul diam untuk mengurangi waktu mulai kluster. Untuk informasi selengkapnya, lihat Pool dalam dokumentasi Azure Databricks.