Apa itu komputasi Spark di Microsoft Fabric?

Berlaku untuk: Rekayasa Data dan Ilmu Data di Microsoft Fabric

Pengalaman Rekayasa Data dan Ilmu Data Microsoft Fabric beroperasi pada platform komputasi Spark yang dikelola sepenuhnya. Platform ini dirancang untuk memberikan kecepatan dan efisiensi yang tak tertandingi. Dengan kumpulan pemula, Anda dapat mengharapkan inisialisasi sesi spark yang cepat, biasanya dalam waktu 5 hingga 10 detik. Ini menghilangkan kebutuhan akan penyiapan manual. Selain itu, Anda juga mendapatkan fleksibilitas untuk menyesuaikan kumpulan Spark sesuai dengan persyaratan rekayasa data dan ilmu data tertentu. Ini memungkinkan pengalaman analitik yang dioptimalkan dan disesuaikan.

Penting

Microsoft Fabric saat ini dalam PRATINJAU. Informasi ini berkaitan dengan produk prarilis yang mungkin dimodifikasi secara substansial sebelum dirilis. Microsoft tidak memberikan jaminan, dinyatakan atau tersirat, sehubungan dengan informasi yang diberikan di sini.

Kumpulan pemula

Kumpulan pemula adalah cara cepat dan mudah untuk menggunakan Spark pada platform Microsoft Fabric dalam hitungan detik. Anda dapat langsung menggunakan sesi Spark, alih-alih menunggu Spark menyiapkan simpul untuk Anda. Ini membantu Anda melakukan lebih banyak hal dengan data dan mendapatkan wawasan lebih cepat.

Gambar memperlihatkan konfigurasi kumpulan pemula

Kumpulan pemula memiliki kluster Spark yang selalu aktif dan siap untuk permintaan Anda. Mereka menggunakan simpul menengah yang akan meningkatkan skala secara dinamis berdasarkan kebutuhan pekerjaan Spark Anda.

Gambar yang menunjukkan desain tingkat tinggi dari kumpulan pemula.

Kumpulan pemula juga memiliki pengaturan default yang memungkinkan Anda menginstal pustaka dengan cepat tanpa memperlambat waktu mulai sesi. Namun, jika Anda ingin menggunakan properti atau pustaka Spark kustom tambahan dari ruang kerja atau pengaturan kapasitas Anda, mungkin perlu waktu lebih lama bagi Spark untuk mendapatkan simpul untuk Anda. Anda hanya membayar untuk kumpulan pemula saat menggunakan sesi Spark untuk menjalankan kueri. Anda tidak membayar untuk waktu ketika Spark menjaga simpul tetap siap untuk Anda.

Kumpulan Spark

Kumpulan Spark adalah cara untuk memberi tahu Spark jenis sumber daya apa yang Anda butuhkan untuk tugas analisis data Anda. Anda dapat memberi nama kumpulan Spark Anda, dan memilih berapa banyak dan seberapa besar simpul (komputer yang melakukan pekerjaan) . Anda juga dapat memberi tahu Spark cara menyesuaikan jumlah simpul tergantung pada berapa banyak pekerjaan yang Anda miliki. Membuat kumpulan Spark gratis; Anda hanya membayar ketika Anda menjalankan pekerjaan Spark di kumpulan, dan kemudian Spark akan menyiapkan simpul untuk Anda.

Jika Anda tidak menggunakan kumpulan Spark selama 2 menit setelah pekerjaan Anda selesai, Spark akan menghapusnya secara otomatis. Ini disebut properti "time to live", dan Anda dapat mengubahnya jika Anda mau. Jika Anda adalah admin ruang kerja, Anda juga dapat membuat kumpulan Spark kustom untuk ruang kerja Anda, dan menjadikannya opsi default untuk pengguna lain. Dengan cara ini, Anda dapat menghemat waktu dan menghindari pengaturan kumpulan Spark baru setiap kali Anda menjalankan notebook atau pekerjaan Spark. Kumpulan Spark kustom membutuhkan waktu sekitar 3 menit untuk memulai, karena Spark harus mendapatkan simpul dari Azure.

Ukuran dan jumlah simpul yang dapat Anda miliki di kumpulan Spark kustom Bergantung pada berapa banyak kapasitas yang Anda miliki dalam kapasitas Microsoft Fabric Anda. Ini adalah ukuran berapa banyak daya komputasi yang dapat Anda gunakan di Azure. Salah satu cara untuk memikirkannya adalah bahwa dua Spark VCores (satu unit daya komputasi untuk Spark) sama dengan satu unit kapasitas. Misalnya, jika Anda memiliki kapasitas Fabric SKU F64, itu berarti Anda memiliki 64 unit kapasitas, yang setara dengan 128 Spark VCores. Anda dapat menggunakan Spark VCores ini untuk membuat simpul dengan ukuran yang berbeda untuk kumpulan Spark kustom Anda, selama jumlah total Spark VCores tidak melebihi 128.

Kemungkinan konfigurasi kumpulan kustom untuk F64 berdasarkan contoh di atas

SKU Kapasitas Fabric Unit Kapasitas Spark VCores Ukuran Simpul Jumlah Simpul Maks
F64 64 128 Kecil 32
F64 64 128 Medium 16
F64 64 128 Besar 8
F64 64 128 X-Besar 4
F64 64 128 XX-Large 2

Catatan

Untuk membuat kumpulan kustom, Anda harus memiliki izin admin untuk ruang kerja. Dan admin kapasitas Microsoft Fabric seharusnya telah memberikan izin untuk memungkinkan admin ruang kerja untuk mengukur kumpulan spark kustom mereka. Untuk mempelajari lebih lanjut, lihat Mulai menggunakan Kumpulan Spark Kustom di Fabric

Simpul

Instans kumpulan Apache Spark terdiri dari satu simpul kepala dan dua atau beberapa simpul pekerja dengan minimal tiga simpul dalam instans Spark. Node kepala menjalankan layanan manajemen tambahan seperti Livy, Yarn Resource Manager, Zookeeper, dan driver Spark. Semua simpul menjalankan layanan seperti Node Agent dan Yarn Node Manager. Semua simpul pekerja menjalankan layanan Spark Executor.

Ukuran node

Kumpulan Spark dapat didefinisikan dengan ukuran simpul yang berkisar dari simpul komputasi kecil dengan 4 vCore dan memori 32 GB ke simpul komputasi besar dengan 64 vCore dan memori 512 GB per simpul. Ukuran simpul dapat diubah setelah pembuatan kumpulan meskipun sesi aktif harus dimulai ulang.

Ukuran vCore Memori
Kecil 4 32 GB
Medium 8 64 GB
Besar 16 128 GB
X-Besar 32 256 GB
XX-Large 64 512 GB

Skala otomatis

Penskalaan otomatis untuk kumpulan Apache Spark memungkinkan peningkatan dan penurunan skala sumber daya komputasi secara otomatis berdasarkan jumlah aktivitas. Saat fitur penskalaan otomatis diaktifkan, Anda mengatur jumlah node minimum dan maksimum yang akan diskalakan. Saat fitur skala otomatis dinonaktifkan, jumlah set simpul tetap. Pengaturan ini dapat diubah setelah pembuatan kumpulan meskipun instans mungkin perlu dihidupkan ulang.

Alokasi dinamis

Alokasi dinamis memungkinkan aplikasi spark untuk meminta lebih banyak pelaksana jika tugas melebihi beban yang dapat ditanggung eksekutor saat ini. Ini juga merilis pelaksana ketika pekerjaan selesai dan jika aplikasi spark pindah ke status menganggur. Pengguna perusahaan sering merasa sulit untuk menyelaraskan konfigurasi pelaksana. Karena mereka sangat berbeda di berbagai tahap proses eksekusi Spark Job. Ini juga tergantung pada volume data yang diproses yang berubah dari waktu ke waktu. Pengguna dapat mengaktifkan opsi alokasi pelaksana dinamis sebagai bagian dari konfigurasi kumpulan, yang akan mengaktifkan alokasi pelaksana otomatis ke aplikasi spark berdasarkan simpul yang tersedia di kumpulan Spark.

Ketika opsi alokasi dinamis diaktifkan, untuk setiap aplikasi spark yang dikirimkan. Sistem mencadangkan pelaksana selama langkah pengiriman pekerjaan berdasarkan simpul maksimum, yang ditentukan oleh pengguna untuk mendukung skenario skala otomatis yang berhasil.

Langkah berikutnya