Bagikan melalui


Apa itu komputasi Apache Spark di Microsoft Fabric?

Berlaku untuk:✅ Rekayasa Data dan Ilmu Data di Microsoft Fabric

Pengalaman Microsoft Fabric Rekayasa Data dan Ilmu Data beroperasi pada platform komputasi Apache Spark yang dikelola sepenuhnya. Platform ini dirancang untuk memberikan kecepatan dan efisiensi yang tak tertandingi. Dengan kumpulan pemula, Anda dapat mengharapkan inisialisasi sesi Apache Spark yang cepat, biasanya dalam waktu 5 hingga 10 detik, tanpa perlu pengaturan manual. Anda juga mendapatkan fleksibilitas untuk menyesuaikan kumpulan Apache Spark sesuai dengan persyaratan rekayasa data dan ilmu data spesifik Anda. Platform ini memungkinkan pengalaman analitik yang dioptimalkan dan disesuaikan.

Gambar platform komputasi Spark dengan kumpulan pemula dan kumpulan Spark kustom.

Kumpulan pemula

Kumpulan pemula adalah cara yang cepat dan mudah untuk menggunakan Spark pada platform Microsoft Fabric dalam hitungan detik. Anda dapat langsung menggunakan sesi Spark, alih-alih menunggu Spark menyiapkan simpul untuk Anda, yang membantu Anda melakukan lebih banyak hal dengan data dan mendapatkan wawasan lebih cepat.

Gambar tabel yang memperlihatkan konfigurasi kumpulan pemula.

Kumpulan pemula memiliki kluster Apache Spark yang selalu aktif dan siap untuk permintaan Anda. Mereka menggunakan simpul menengah yang meningkatkan skala secara dinamis berdasarkan kebutuhan pekerjaan Spark Anda.

Diagram memperlihatkan desain kumpulan pemula tingkat tinggi.

Kumpulan pemula juga memiliki pengaturan default yang memungkinkan Anda menginstal pustaka dengan cepat tanpa memperlambat waktu mulai sesi. Namun, jika Anda ingin menggunakan properti atau pustaka Apache Spark kustom tambahan dari ruang kerja atau pengaturan kapasitas Anda, Spark membutuhkan waktu lebih lama untuk mendapatkan simpul untuk Anda. Ketika datang ke tagihan dan konsumsi kapasitas, Anda dikenakan biaya untuk konsumsi kapasitas ketika Anda mulai menjalankan notebook atau definisi pekerjaan Apache Spark Anda. Anda tidak dikenakan biaya untuk waktu kluster menganggur di kumpulan.

Diagram memperlihatkan tahapan tingkat tinggi dalam penagihan kumpulan pemula.

Misalnya, jika Anda mengirimkan pekerjaan notebook ke kumpulan pemula, Anda hanya ditagih untuk periode waktu di mana sesi buku catatan aktif. Waktu yang ditagih tidak termasuk waktu diam atau waktu yang diperlukan untuk mempersonalisasi sesi dengan konteks Spark.

Kumpulan Spark

Kumpulan Spark adalah cara untuk memberi tahu Spark jenis sumber daya apa yang Anda butuhkan untuk tugas analisis data Anda. Anda dapat memberi nama kumpulan Spark Anda, dan memilih berapa banyak dan seberapa besar simpul (komputer yang melakukan pekerjaan) . Anda juga dapat memberi tahu Spark cara menyesuaikan jumlah simpul tergantung pada berapa banyak pekerjaan yang Anda miliki. Membuat kumpulan Spark gratis; Anda hanya membayar ketika Anda menjalankan pekerjaan Spark di kumpulan, lalu Spark menyiapkan simpul untuk Anda.

Jika Anda tidak menggunakan kumpulan Spark selama 2 menit setelah sesi kedaluwarsa, kumpulan Spark Anda akan dibatalkan alokasinya. Periode waktu kedaluwarsa sesi default ini diatur ke 20 menit, dan Anda dapat mengubahnya jika anda mau. Jika Anda adalah admin ruang kerja, Anda juga dapat membuat kumpulan Spark kustom untuk ruang kerja Anda, dan menjadikannya opsi default untuk pengguna lain. Dengan cara ini, Anda dapat menghemat waktu dan menghindari pengaturan kumpulan Spark baru setiap kali Anda menjalankan notebook atau pekerjaan Spark. Kumpulan Spark kustom membutuhkan waktu sekitar tiga menit untuk memulai, karena Spark harus mendapatkan simpul dari Azure.

Anda bahkan dapat membuat kumpulan Spark simpul tunggal, dengan mengatur jumlah minimum simpul menjadi satu, sehingga driver dan eksekutor berjalan dalam satu simpul yang dilengkapi dengan KETERSEDIAAN TINGGI yang dapat di-restorable dan cocok untuk beban kerja kecil.

Ukuran dan jumlah simpul yang dapat Anda miliki di kumpulan Spark kustom Bergantung pada kapasitas Microsoft Fabric Anda. Kapasitas adalah ukuran berapa banyak daya komputasi yang dapat Anda gunakan di Azure. Salah satu cara untuk memikirkannya adalah bahwa dua Apache Spark VCores (satu unit daya komputasi untuk Spark) sama dengan satu unit kapasitas. Misalnya, kapasitas Fabric SKU F64 memiliki 64 unit kapasitas, yang setara dengan 128 Spark VCores. Anda dapat menggunakan Spark VCores ini untuk membuat simpul dengan ukuran yang berbeda untuk kumpulan Spark kustom Anda, selama jumlah total Spark VCores tidak melebihi 128.

Kumpulan Spark ditagih seperti kumpulan pemula; Anda tidak membayar kumpulan Spark kustom yang telah Anda buat kecuali Anda memiliki sesi Spark aktif yang dibuat untuk menjalankan notebook atau definisi kerja Spark. Anda hanya ditagih selama durasi pekerjaan Anda berjalan. Anda tidak ditagih untuk tahapan seperti pembuatan kluster dan dealokasi setelah pekerjaan selesai.

Diagram memperlihatkan tahap tingkat tinggi dalam penagihan kumpulan kustom.

Misalnya, jika Anda mengirimkan pekerjaan notebook ke kumpulan Spark kustom, Anda hanya dikenakan biaya untuk periode waktu saat sesi aktif. Penagihan untuk sesi buku catatan tersebut berhenti setelah sesi Spark berhenti atau kedaluwarsa. Anda tidak dikenakan biaya untuk waktu yang diperlukan untuk memperoleh instans kluster dari cloud atau untuk waktu yang diperlukan untuk menginisialisasi konteks Spark.

Kemungkinan konfigurasi kumpulan kustom untuk F64 berdasarkan contoh sebelumnya:

SKU kapasitas fabric Unit kapasitas Spark VCores Ukuran simpul Jumlah maksimum simpul
F64 64 384 Bentuk dan 96
F64 64 384 Medium 48
F64 64 384 Bentuk dan 24
F64 64 384 X-Besar 12
F64 64 384 XX-Besar 6

Catatan

Untuk membuat kumpulan kustom, Anda memerlukan izin admin untuk ruang kerja. Dan admin kapasitas Microsoft Fabric harus memberikan izin untuk memungkinkan admin ruang kerja untuk mengukur kumpulan Spark kustom mereka. Untuk mempelajari lebih lanjut, lihat Mulai menggunakan kumpulan Spark kustom di Fabric

Simpul

Instans kumpulan Apache Spark terdiri dari satu simpul kepala dan simpul pekerja, dapat memulai minimal satu simpul dalam instans Spark. Simpul kepala menjalankan layanan manajemen tambahan seperti Livy, Yarn Resource Manager, Zookeeper, dan driver Apache Spark. Semua simpul menjalankan layanan seperti Node Agent dan Yarn Node Manager. Semua simpul pekerja menjalankan layanan Apache Spark Executor.

Ukuran node

Kumpulan Spark dapat didefinisikan dengan ukuran simpul yang berkisar dari simpul komputasi kecil (dengan memori 4 vCore dan 32 GB) hingga simpul komputasi ekstra besar ganda (dengan 64 vCore dan memori 512 GB per simpul). Ukuran simpul dapat diubah setelah pembuatan kumpulan, meskipun sesi aktif harus dimulai ulang.

Ukuran vCore Memori
Bentuk dan 4 32 GB
Medium 8 64 GB
Bentuk dan 16 128 GB
X-Besar 32 256 GB
XX-Besar 64 512 GB

Skala Otomatis

Penskalaan otomatis untuk kumpulan Apache Spark memungkinkan peningkatan dan penurunan skala sumber daya komputasi secara otomatis berdasarkan jumlah aktivitas. Saat mengaktifkan fitur skala otomatis, Anda mengatur jumlah minimum dan maksimum simpul untuk diskalakan. Saat Anda menonaktifkan fitur skala otomatis, jumlah set node tetap diperbaiki. Anda dapat mengubah pengaturan ini setelah pembuatan kumpulan, meskipun Anda mungkin perlu menghidupkan ulang instans.

Catatan

Secara default, spark.yarn.executor.decommission.enabled diatur ke true, memungkinkan pematian otomatis simpul yang kurang digunakan untuk mengoptimalkan efisiensi komputasi. Jika penurunan skala yang kurang agresif lebih disukai, konfigurasi ini dapat diatur ke false

Alokasi dinamis

Alokasi dinamis memungkinkan aplikasi Apache Spark untuk meminta lebih banyak pelaksana jika tugas melebihi beban yang dapat ditanggung eksekutor saat ini. Ini juga merilis pelaksana ketika pekerjaan selesai, dan jika aplikasi Spark bergerak ke status menganggur. Pengguna perusahaan sering merasa sulit untuk menyetel konfigurasi pelaksana karena mereka sangat berbeda di berbagai tahap proses eksekusi pekerjaan Spark. Konfigurasi ini juga tergantung pada volume data yang diproses, yang berubah dari waktu ke waktu. Anda dapat mengaktifkan opsi alokasi pelaksana dinamis sebagai bagian dari konfigurasi kumpulan, yang memungkinkan alokasi otomatis pelaksana ke aplikasi Spark berdasarkan simpul yang tersedia di kumpulan Spark.

Saat Anda mengaktifkan opsi alokasi dinamis untuk setiap aplikasi Spark yang dikirimkan, sistem mencadangkan pelaksana selama langkah pengiriman pekerjaan berdasarkan simpul minimum. Anda menentukan simpul maksimum untuk mendukung skenario skala otomatis yang berhasil.