Bagikan melalui


Memilih teknologi pemrosesan batch di Azure

Solusi big data sering terdiri dari tugas pemrosesan batch diskrit yang berkontribusi pada solusi pemrosesan data secara keseluruhan. Anda dapat menggunakan pemrosesan batch untuk beban kerja yang tidak memerlukan akses langsung ke wawasan. Pemrosesan batch dapat melengkapi persyaratan pemrosesan real time. Anda juga dapat menggunakan pemrosesan batch untuk menyeimbangkan kompleksitas dan mengurangi biaya untuk implementasi Anda secara keseluruhan.

Persyaratan mendasar dari mesin pemrosesan batch adalah untuk menskalakan komputasi untuk menangani volume data yang besar. Tidak seperti pemrosesan real-time, pemrosesan batch memiliki latensi, atau waktu antara penyerapan data dan menghitung hasil, menit atau jam.

Memilih teknologi untuk pemrosesan batch

Microsoft menawarkan beberapa layanan yang dapat Anda gunakan untuk melakukan pemrosesan batch.

Microsoft Fabric

Microsoft Fabric adalah platform all-in-one untuk analitik dan data bagi organisasi. Ini adalah perangkat lunak sebagai penawaran layanan yang menyederhanakan cara Anda menyediakan, mengelola, dan mengatur solusi analitik end-to-end. Fabric menangani pergerakan, pemrosesan, penyerapan, transformasi, dan pelaporan data. Fitur Fabric yang Anda gunakan untuk pemrosesan batch termasuk rekayasa data, gudang data, lakehouse, dan pemrosesan Apache Spark. Azure Data Factory in Fabric juga mendukung lakehouse. Untuk menyederhanakan dan mempercepat pengembangan, Anda dapat mengaktifkan Copilot berbasis AI.

  • Bahasa: R, Python, Java, Scala, dan SQL

  • Keamanan: Jaringan virtual terkelola dan kontrol akses berbasis peran OneLake (RBAC)

  • Penyimpanan utama: OneLake, yang memiliki pintasan dan opsi pencerminan

  • Spark: Kumpulan pemula yang telah dihidrasi sebelumnya dan kumpulan Spark kustom dengan ukuran simpul yang telah ditentukan sebelumnya

Azure Synapse Analytics

Azure Synapse Analytics adalah layanan analitik perusahaan yang menyatukan teknologi SQL dan Spark di bawah satu konstruksi ruang kerja. Azure Synapse Analytics menyederhanakan keamanan, tata kelola, dan manajemen. Setiap ruang kerja memiliki alur data terintegrasi yang dapat Anda gunakan untuk menulis alur kerja end-to-end. Anda juga dapat menyediakan kumpulan SQL khusus untuk analitik skala besar, titik akhir SQL tanpa server yang dapat Anda gunakan untuk langsung mengkueri lake, dan runtime Spark untuk pemrosesan data terdistribusi.

  • Bahasa: Python, Java, Scala, dan SQL

  • Keamanan: Jaringan virtual terkelola, RBAC dan kontrol akses, dan daftar kontrol akses penyimpanan di Azure Data Lake Storage

  • Penyimpanan utama: Data Lake Storage dan juga terintegrasi dengan sumber lain

  • Spark: Penyiapan konfigurasi Spark kustom dengan ukuran simpul yang telah ditentukan sebelumnya

Azure Databricks

Azure Databricks adalah platform analitik berbasis Spark. Fitur ini memiliki fitur Spark yang kaya dan premium yang dibangun di atas Spark sumber terbuka. Azure Databricks adalah layanan Microsoft yang terintegrasi dengan layanan Azure lainnya. Ini fitur konfigurasi tambahan untuk penyebaran kluster Spark. Dan Unity Catalog membantu menyederhanakan tata kelola objek Azure Databricks Spark.

  • Bahasa: R, Python, Java, Scala, dan Spark SQL.

  • Keamanan: Autentikasi pengguna dengan ID Microsoft Entra.

  • Penyimpanan utama: Integrasi bawaan dengan Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics, dan layanan lainnya. Untuk informasi selengkapnya, lihat Sumber data.

Manfaat lainnya meliputi:

Kriteria pilihan utama

Untuk memilih teknologi Anda untuk pemrosesan batch, pertimbangkan pertanyaan berikut:

  • Apakah Anda menginginkan layanan terkelola, atau ingin mengelola server Anda sendiri?

  • Apakah Anda ingin menulis logika pemrosesan batch secara deklaratif atau imperatif?

  • Apakah Anda melakukan pemrosesan batch dalam burst? Jika ya, pertimbangkan opsi yang memberikan kemampuan untuk secara otomatis mengakhiri kluster atau yang memiliki model harga untuk setiap pekerjaan batch.

  • Apakah Anda perlu meminta penyimpanan data relasional bersama dengan pemrosesan batch Anda, misalnya untuk mencari data referensi? Jika ya, pertimbangkan opsi yang menyediakan kemampuan untuk mengkueri penyimpanan relasional eksternal.

Matriks kemampuan

Tabel berikut ini meringkas perbedaan utama dalam kemampuan antar layanan.

Kemampuan secara umum

Kemampuan Kain Azure Synapse Analytics Azure Databricks
Perangkat lunak sebagai layanan Ya1 Tidak Tidak
Layanan terkelola Tidak Ya Ya
Penyimpanan data relasional Ya Ya Ya
Rencana harga Unit kapasitas Kumpulan SQL atau jam kluster Azure Databricks unit 2 dan jam operasi kluster

[1] Kapasitas Fabric yang ditetapkan.

[2] Unit Azure Databricks adalah kemampuan pemrosesan per jam.

Kemampuan lainnya

Kemampuan Kain Azure Synapse Analytics Azure Databricks
Penskalaan otomatis Tidak Tidak Ya
Perincian skala-out Per SKU Kain Per kluster atau per kumpulan SQL Per klaster
Mendukung penembolokan data dalam memori Tidak Ya Ya
Kueri dari toko relasional eksternal Ya Tidak Ya
Autentikasi Microsoft Entra ID ID SQL atau Microsoft Entra Microsoft Entra ID
Audit Ya Ya Ya
Keamanan tingkat baris Ya Ya 1 Ya
Dudukungan firewall Ya Ya Ya
Penyelubungan data dinamis Ya Ya Ya

[1] Hanya predikat filter. Untuk informasi selengkapnya, lihat Keamanan tingkat baris.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.

Langkah berikutnya