Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Solusi big data sering terdiri dari tugas pemrosesan batch diskrit yang berkontribusi pada solusi pemrosesan data secara keseluruhan. Anda dapat menggunakan pemrosesan batch untuk beban kerja yang tidak memerlukan akses langsung ke wawasan. Pemrosesan batch dapat melengkapi persyaratan pemrosesan real time. Anda juga dapat menggunakan pemrosesan batch untuk menyeimbangkan kompleksitas dan mengurangi biaya untuk implementasi Anda secara keseluruhan.
Persyaratan mendasar dari mesin pemrosesan batch adalah untuk menskalakan komputasi untuk menangani volume data yang besar. Tidak seperti pemrosesan real-time, pemrosesan batch memiliki latensi, atau waktu antara penyerapan data dan menghitung hasil, menit atau jam.
Memilih teknologi untuk pemrosesan batch
Microsoft menawarkan beberapa layanan yang dapat Anda gunakan untuk melakukan pemrosesan batch.
Microsoft Fabric
Microsoft Fabric adalah platform all-in-one untuk analitik dan data bagi organisasi. Ini adalah perangkat lunak sebagai penawaran layanan yang menyederhanakan cara Anda menyediakan, mengelola, dan mengatur solusi analitik end-to-end. Fabric menangani pergerakan, pemrosesan, penyerapan, transformasi, dan pelaporan data. Fitur Fabric yang Anda gunakan untuk pemrosesan batch termasuk rekayasa data, gudang data, lakehouse, dan pemrosesan Apache Spark. Azure Data Factory in Fabric juga mendukung lakehouse. Untuk menyederhanakan dan mempercepat pengembangan, Anda dapat mengaktifkan Copilot berbasis AI.
Bahasa: R, Python, Java, Scala, dan SQL
Keamanan: Jaringan virtual terkelola dan kontrol akses berbasis peran OneLake (RBAC)
Penyimpanan utama: OneLake, yang memiliki pintasan dan opsi pencerminan
Spark: Kumpulan pemula yang telah dihidrasi sebelumnya dan kumpulan Spark kustom dengan ukuran simpul yang telah ditentukan sebelumnya
Azure Synapse Analytics
Azure Synapse Analytics adalah layanan analitik perusahaan yang menyatukan teknologi SQL dan Spark di bawah satu konstruksi ruang kerja. Azure Synapse Analytics menyederhanakan keamanan, tata kelola, dan manajemen. Setiap ruang kerja memiliki alur data terintegrasi yang dapat Anda gunakan untuk menulis alur kerja end-to-end. Anda juga dapat menyediakan kumpulan SQL khusus untuk analitik skala besar, titik akhir SQL tanpa server yang dapat Anda gunakan untuk langsung mengkueri lake, dan runtime Spark untuk pemrosesan data terdistribusi.
Bahasa: Python, Java, Scala, dan SQL
Keamanan: Jaringan virtual terkelola, RBAC dan kontrol akses, dan daftar kontrol akses penyimpanan di Azure Data Lake Storage
Penyimpanan utama: Data Lake Storage dan juga terintegrasi dengan sumber lain
Spark: Penyiapan konfigurasi Spark kustom dengan ukuran simpul yang telah ditentukan sebelumnya
Azure Databricks
Azure Databricks adalah platform analitik berbasis Spark. Fitur ini memiliki fitur Spark yang kaya dan premium yang dibangun di atas Spark sumber terbuka. Azure Databricks adalah layanan Microsoft yang terintegrasi dengan layanan Azure lainnya. Ini fitur konfigurasi tambahan untuk penyebaran kluster Spark. Dan Unity Catalog membantu menyederhanakan tata kelola objek Azure Databricks Spark.
Bahasa: R, Python, Java, Scala, dan Spark SQL.
Keamanan: Autentikasi pengguna dengan ID Microsoft Entra.
Penyimpanan utama: Integrasi bawaan dengan Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics, dan layanan lainnya. Untuk informasi selengkapnya, lihat Sumber data.
Manfaat lainnya meliputi:
Notebook berbasis web untuk kolaborasi dan eksplorasi data.
Waktu mulai kluster cepat, penghentian otomatis, dan penskalaan otomatis.
Dukungan untuk kluster yang diaktifkan GPU.
Kriteria pilihan utama
Untuk memilih teknologi Anda untuk pemrosesan batch, pertimbangkan pertanyaan berikut:
Apakah Anda menginginkan layanan terkelola, atau ingin mengelola server Anda sendiri?
Apakah Anda ingin menulis logika pemrosesan batch secara deklaratif atau imperatif?
Apakah Anda melakukan pemrosesan batch dalam burst? Jika ya, pertimbangkan opsi yang memberikan kemampuan untuk secara otomatis mengakhiri kluster atau yang memiliki model harga untuk setiap pekerjaan batch.
Apakah Anda perlu meminta penyimpanan data relasional bersama dengan pemrosesan batch Anda, misalnya untuk mencari data referensi? Jika ya, pertimbangkan opsi yang menyediakan kemampuan untuk mengkueri penyimpanan relasional eksternal.
Matriks kemampuan
Tabel berikut ini meringkas perbedaan utama dalam kemampuan antar layanan.
Kemampuan secara umum
Kemampuan | Kain | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Perangkat lunak sebagai layanan | Ya1 | Tidak | Tidak |
Layanan terkelola | Tidak | Ya | Ya |
Penyimpanan data relasional | Ya | Ya | Ya |
Rencana harga | Unit kapasitas | Kumpulan SQL atau jam kluster | Azure Databricks unit 2 dan jam operasi kluster |
[1] Kapasitas Fabric yang ditetapkan.
[2] Unit Azure Databricks adalah kemampuan pemrosesan per jam.
Kemampuan lainnya
Kemampuan | Kain | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Penskalaan otomatis | Tidak | Tidak | Ya |
Perincian skala-out | Per SKU Kain | Per kluster atau per kumpulan SQL | Per klaster |
Mendukung penembolokan data dalam memori | Tidak | Ya | Ya |
Kueri dari toko relasional eksternal | Ya | Tidak | Ya |
Autentikasi | Microsoft Entra ID | ID SQL atau Microsoft Entra | Microsoft Entra ID |
Audit | Ya | Ya | Ya |
Keamanan tingkat baris | Ya | Ya 1 | Ya |
Dudukungan firewall | Ya | Ya | Ya |
Penyelubungan data dinamis | Ya | Ya | Ya |
[1] Hanya predikat filter. Untuk informasi selengkapnya, lihat Keamanan tingkat baris.
Kontributor
Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.
Penulis utama:
- Zoiner Tejada | CEO dan Arsitek
- Pratima Valavala | Arsitek Solusi Utama
Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.
Langkah berikutnya
- Apa itu Fabric?
- Panduan Pengambilan Keputusan Kain
- Pelatihan: Pengantar Azure Synapse Analytics
- Apa itu Azure HDInsight?
- Apa itu Azure Databricks?