Memilih teknologi pemrosesan batch di Azure

2024-08-01

Solusi big data sering terdiri dari tugas pemrosesan batch diskrit yang berkontribusi pada solusi pemrosesan data secara keseluruhan. Anda dapat menggunakan pemrosesan batch untuk beban kerja yang tidak memerlukan akses langsung ke wawasan. Pemrosesan batch dapat melengkapi persyaratan pemrosesan real time. Anda juga dapat menggunakan pemrosesan batch untuk menyeimbangkan kompleksitas dan mengurangi biaya untuk implementasi Anda secara keseluruhan.

Persyaratan mendasar dari mesin pemrosesan batch adalah untuk menskalakan komputasi untuk menangani volume data yang besar. Tidak seperti pemrosesan real-time, pemrosesan batch memiliki latensi, atau waktu antara penyerapan data dan menghitung hasil, menit atau jam.

Memilih teknologi untuk pemrosesan batch

Microsoft menawarkan beberapa layanan yang dapat Anda gunakan untuk melakukan pemrosesan batch.

Microsoft Fabric

Microsoft Fabric adalah platform all-in-one untuk analitik dan data bagi organisasi. Ini adalah perangkat lunak sebagai penawaran layanan yang menyederhanakan cara Anda menyediakan, mengelola, dan mengatur solusi analitik end-to-end. Fabric menangani pergerakan, pemrosesan, penyerapan, transformasi, dan pelaporan data. Fitur Fabric yang Anda gunakan untuk pemrosesan batch termasuk rekayasa data, gudang data, lakehouse, dan pemrosesan Apache Spark. Azure Data Factory in Fabric juga mendukung lakehouse. Untuk menyederhanakan dan mempercepat pengembangan, Anda dapat mengaktifkan Copilot berbasis AI.

Bahasa: R, Python, Java, Scala, dan SQL
Keamanan: Jaringan virtual terkelola dan kontrol akses berbasis peran OneLake (RBAC)
Penyimpanan utama: OneLake, yang memiliki pintasan dan opsi pencerminan
Spark: Kumpulan pemula yang telah dihidrasi sebelumnya dan kumpulan Spark kustom dengan ukuran simpul yang telah ditentukan sebelumnya

Azure Synapse Analytics

Azure Synapse Analytics adalah layanan analitik perusahaan yang menyatukan teknologi SQL dan Spark di bawah satu konstruksi ruang kerja. Azure Synapse Analytics menyederhanakan keamanan, tata kelola, dan manajemen. Setiap ruang kerja memiliki alur data terintegrasi yang dapat Anda gunakan untuk menulis alur kerja end-to-end. Anda juga dapat menyediakan kumpulan SQL khusus untuk analitik skala besar, titik akhir SQL tanpa server yang dapat Anda gunakan untuk langsung mengkueri lake, dan runtime Spark untuk pemrosesan data terdistribusi.

Bahasa: Python, Java, Scala, dan SQL
Keamanan: Jaringan virtual terkelola, RBAC dan kontrol akses, dan daftar kontrol akses penyimpanan di Azure Data Lake Storage
Penyimpanan utama: Data Lake Storage dan juga terintegrasi dengan sumber lain
Spark: Penyiapan konfigurasi Spark kustom dengan ukuran simpul yang telah ditentukan sebelumnya

Azure Databricks

Azure Databricks adalah platform analitik berbasis Spark. Fitur ini memiliki fitur Spark yang kaya dan premium yang dibangun di atas Spark sumber terbuka. Azure Databricks adalah layanan Microsoft yang terintegrasi dengan layanan Azure lainnya. Ini fitur konfigurasi tambahan untuk penyebaran kluster Spark. Dan Unity Catalog membantu menyederhanakan tata kelola objek Azure Databricks Spark.

Bahasa: R, Python, Java, Scala, dan Spark SQL.
Keamanan: Autentikasi pengguna dengan ID Microsoft Entra.
Penyimpanan utama: Integrasi bawaan dengan Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics, dan layanan lainnya. Untuk informasi selengkapnya, lihat Sumber data.

Manfaat lainnya meliputi:

Notebook berbasis web untuk kolaborasi dan eksplorasi data.
Waktu mulai kluster cepat, penghentian otomatis, dan penskalaan otomatis.
Dukungan untuk kluster yang diaktifkan GPU.

Kriteria pilihan utama

Untuk memilih teknologi Anda untuk pemrosesan batch, pertimbangkan pertanyaan berikut:

Apakah Anda menginginkan layanan terkelola, atau ingin mengelola server Anda sendiri?
Apakah Anda ingin menulis logika pemrosesan batch secara deklaratif atau imperatif?
Apakah Anda melakukan pemrosesan batch dalam burst? Jika ya, pertimbangkan opsi yang memberikan kemampuan untuk secara otomatis mengakhiri kluster atau yang memiliki model harga untuk setiap pekerjaan batch.
Apakah Anda perlu meminta penyimpanan data relasional bersama dengan pemrosesan batch Anda, misalnya untuk mencari data referensi? Jika ya, pertimbangkan opsi yang menyediakan kemampuan untuk mengkueri penyimpanan relasional eksternal.

Matriks kemampuan

Tabel berikut ini meringkas perbedaan utama dalam kemampuan antar layanan.

Kemampuan secara umum

Kemampuan	Kain	Azure Synapse Analytics	Azure Databricks
Perangkat lunak sebagai layanan	Ya¹	Tidak	Tidak
Layanan terkelola	Tidak	Ya	Ya
Penyimpanan data relasional	Ya	Ya	Ya
Rencana harga	Unit kapasitas	Kumpulan SQL atau jam kluster	Azure Databricks unit ² dan jam operasi kluster

[1] Kapasitas Fabric yang ditetapkan.

[2] Unit Azure Databricks adalah kemampuan pemrosesan per jam.

Kemampuan lainnya

Kemampuan	Kain	Azure Synapse Analytics	Azure Databricks
Penskalaan otomatis	Tidak	Tidak	Ya
Perincian skala-out	Per SKU Kain	Per kluster atau per kumpulan SQL	Per klaster
Mendukung penembolokan data dalam memori	Tidak	Ya	Ya
Kueri dari toko relasional eksternal	Ya	Tidak	Ya
Autentikasi	Microsoft Entra ID	ID SQL atau Microsoft Entra	Microsoft Entra ID
Audit	Ya	Ya	Ya
Keamanan tingkat baris	Ya	Ya ¹	Ya
Dudukungan firewall	Ya	Ya	Ya
Penyelubungan data dinamis	Ya	Ya	Ya

[1] Hanya predikat filter. Untuk informasi selengkapnya, lihat Keamanan tingkat baris.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Zoiner Tejada | CEO dan Arsitek
Pratima Valavala | Arsitek Solusi Utama

Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.

Bagikan melalui