Pilih teknologi penyimpanan big data di Azure

2024-10-05

Artikel ini membandingkan opsi untuk penyimpanan data untuk solusi big data—khususnya, penyimpanan data untuk penyerapan data massal dan pemrosesan batch, dibandingkan dengan penyimpanan data analitik atau penyerapan streaming real time.

Apa pilihan Anda saat memilih penyimpanan data di Azure?

Ada beberapa opsi untuk menyerap data ke Azure, tergantung pada kebutuhan Anda.

Data lake logis terpadu:

OneLake di Microsoft Fabric

Penyimpanan File:

Database NoSQL:

Database analitik:

Azure Data Explorer

OneLake in Fabric

OneLake in Fabric adalah data lake terpadu dan logis yang disesuaikan untuk seluruh organisasi. Ini berfungsi sebagai hub pusat untuk semua data analitik dan disertakan dengan setiap penyewa Microsoft Fabric. OneLake in Fabric dibangun di atas fondasi Data Lake Storage Gen2.

OneLake di Fabric:

Mendukung jenis file terstruktur dan tidak terstruktur.
Menyimpan semua data tabular dalam format Delta Parquet.
Menyediakan satu data lake dalam batas penyewa yang diatur secara default.
Mendukung pembuatan ruang kerja dalam penyewa sehingga organisasi dapat mendistribusikan kebijakan kepemilikan dan akses.
Mendukung pembuatan berbagai item data, seperti lakehouse dan warehouse, yang memungkinkan Anda mengakses data.

OneLake in Fabric berfungsi sebagai lokasi penyimpanan umum untuk penyerapan, transformasi, wawasan real time, dan visualisasi kecerdasan bisnis. Ini memusatkan berbagai layanan Fabric dan menyimpan item data yang digunakan oleh seluruh beban kerja di Fabric. Untuk memilih datastore yang tepat untuk beban kerja Fabric Anda, lihat Panduan keputusan Fabric: pilih datastore.

Blob Penyimpanan Azure

Azure Storage adalah layanan penyimpanan terkelola yang dapat diakses secara konsisten, aman, tahan lama, terukur, dan redundan. Microsoft menangani pemeliharaan dan menghandel masalah kritis untuk Anda. Azure Storage adalah solusi penyimpanan paling banyak di mana-mana yang disediakan Azure, karena jumlah layanan dan alat yang dapat digunakan dengannya.

Ada berbagai layanan Azure Storage yang dapat Anda gunakan untuk menyimpan data. Opsi yang paling fleksibel untuk menyimpan blob dari banyak sumber data adalah Blob storage. Blob pada dasarnya adalah file. Mereka menyimpan gambar, dokumen, file HTML, hard disk virtual (VHD), big data seperti log, cadangan database—hampir semua hal. Blob disimpan dalam kontainer, yang mirip dengan folder. Kontainer menyediakan pengelompokan dari kumpulan blob. Akun penyimpanan dapat berisi jumlah kontainer yang tidak terbatas, dan kontainer dapat menyimpan blob dalam jumlah tak terbatas.

Azure Storage adalah pilihan yang baik untuk solusi analitik dan big data, karena fleksibilitas, ketersediaan tinggi, dan biaya rendah. Ini menyediakan tingkat penyimpanan panas, dingin, dan arsip untuk kasus penggunaan yang berbeda. Untuk informasi selengkapnya, lihat Azure Blob Storage: Tingkat penyimpanan panas, dingin, dan arsip.

Penyimpanan Azure Blob dapat diakses dari Hadoop (tersedia melalui HDInsight). HDInsight dapat menggunakan kontainer blob di Azure Storage sebagai sistem file default untuk klaster. Melalui antarmuka Hadoop Distributed File System (HDFS) yang disediakan oleh driver WASB, set lengkap komponen dalam HDInsight dapat beroperasi langsung pada data terstruktur atau tidak terstruktur yang disimpan sebagai blob. Penyimpanan Azure Blob juga dapat diakses melalui Azure Synapse Analytics menggunakan fitur PolyBase-nya.

Fitur lain yang membuat Azure Storage pilihan yang baik adalah:

Beberapa strategi konkurensi.
Opsi pemulihan bencana dan ketersediaan tinggi.
Enkripsi tidak aktif.
Kontrol akses berbasis peran Azure (RBAC) untuk mengontrol akses menggunakan pengguna dan grup Microsoft Entra.

Data Lake Storage Gen2

Data Lake Storage Gen2 adalah repositori terpusat tunggal tempat Anda dapat menyimpan semua data Anda, baik terstruktur maupun tidak terstruktur. Data lake memungkinkan organisasi Anda untuk menyimpan, mengakses, dan menganalisis berbagai data dengan cepat dan lebih mudah dalam satu lokasi. Dengan data lake, Anda tidak perlu menyesuaikan data dengan struktur yang ada. Sebagai gantinya, Anda dapat menyimpan data dalam format mentah atau aslinya, biasanya sebagai file atau sebagai objek besar biner (blob).

Data Lake Storage Gen2 mempertemukan kemampuan Azure Data Lake Storage Gen1 dengan Azure Blob Storage. Misalnya, Data Lake Storage Gen2 menyediakan semantik sistem file, keamanan tingkat file, dan skala. Karena kemampuan ini dibangun di atas penyimpanan Blob, Anda juga mendapatkan penyimpanan berbiaya rendah dengan tingkatan, serta kemampuan ketersediaan tinggi dan pemulihan bencana.

Data Lake Storage Gen2 menjadikan Azure Storage sebagai fondasi untuk membangun data lake perusahaan di Azure. Dirancang sejak awal untuk melayani beberapa petabyte informasi sambil mempertahankan ratusan gigabit throughput, Data Lake Storage Gen2 memungkinkan Anda mengelola sejumlah besar data dengan mudah.

Azure Cosmos DB (layanan basis data global dari Microsoft)

Azure Cosmos DB adalah database berbagai model Microsoft yang didistribusikan secara global. Azure Cosmos DB menjamin latensi milidetik digit tunggal pada persentil ke-99 di mana saja di dunia, menyediakan beberapa model konsistensi yang terdefinisi dengan baik untuk menyempurnakan performa, dan menjamin ketersediaan tinggi dengan kemampuan multi-homing.

Azure Cosmos DB adalah skema-agnostik. Ini secara otomatis mengindeks semua data tanpa mengharuskan Anda untuk berurusan dengan skema dan manajemen indeks. Ini juga multi-model, secara bawaan mendukung model-model data dokumen, nilai kunci, grafik, dan kolom-keluarga.

Fitur Azure Cosmos DB:

Replikasi geografis
Penskalaan throughput dan penyimpanan elastis di seluruh dunia
Lima tingkat konsistensi yang terdefinisi dengan baik

HBase di HDInsight

Apache HBase adalah database sumber terbuka NoSQL yang dibangun di atas Hadoop dan dimodelkan setelah Google BigTable. HBase menyediakan akses acak dan konsistensi yang kuat untuk sejumlah besar data tidak terstruktur dan semi-terstruktur dalam database tanpa skema yang disusun oleh keluarga kolom.

Data disimpan dalam baris tabel, dan data dalam baris dikelompokkan menurut keluarga kolom. HBase tidak memiliki skema dalam arti bahwa baik kolom maupun jenis data yang tersimpan di dalamnya tidak perlu didefinisikan sebelum menggunakannya. Kode sumber terbuka menskalakan secara linier untuk menangani petabyte data pada ribuan simpul. Ini dapat mengandalkan redundansi data, pemrosesan batch, dan fitur lain yang disediakan oleh aplikasi terdistribusi di ekosistem Hadoop.

Implementasi HDInsight menggunakan arsitektur peluasan skala HBase untuk menyediakan pecahan tabel otomatis, konsistensi yang kuat untuk baca dan tulis, dan failover otomatis. Performa ditingkatkan dengan caching dalam memori untuk pembacaan data dan streaming berperforma tinggi untuk penulisan. Dalam kebanyakan kasus, Anda ingin membuat kluster HBase di dalam jaringan virtual sehingga kluster dan aplikasi HDInsight lainnya dapat langsung mengakses tabel.

Azure Data Explorer (layanan pencarian data)

Azure Data Explorer adalah layanan eksplorasi data yang cepat dan sangat dapat diskalakan untuk data log dan telemetri. Ini membantu Anda menghandel banyak aliran data yang dikeluarkan oleh perangkat lunak modern, sehingga Anda dapat mengumpulkan, menyimpan, dan menganalisis data. Azure Data Explorer sangat ideal untuk menganalisis volume besar data yang beragam dari sumber data apa pun, seperti situs web, aplikasi, perangkat IoT, dan banyak lagi. Data ini digunakan untuk diagnostik, pemantauan, pelaporan, pembelajaran mesin, dan kemampuan analitik tambahan. Azure Data Explorer memudahkan untuk mengimpor data ini dan memungkinkan Anda melakukan kueri kompleks yang tidak terencana pada data dalam hitungan detik.

Azure Data Explorer dapat diperluas secara linear untuk meningkatkan throughput pemrosesan ingesti dan kueri. Kluster Azure Data Explorer dapat digunakan ke Jaringan Virtual untuk mengaktifkan jaringan pribadi.

Kriteria pilihan utama

Untuk mempersempit pilihan, mulailah dengan menjawab pertanyaan-pertanyaan ini:

Apakah Anda memerlukan data lake terpadu dengan dukungan multicloud, tata kelola yang kuat, dan integrasi yang mulus dengan alat analitik? Jika ya, pilih OneLake di Fabric untuk manajemen data yang disederhanakan dan kolaborasi yang ditingkatkan.
Apakah Anda memerlukan penyimpanan berbasis cloud yang dikelola, berkecepatan tinggi, untuk semua jenis teks atau data biner? Jika ya, pilih salah satu opsi penyimpanan file atau analitik.
Apakah Anda memerlukan penyimpanan file yang dioptimalkan untuk beban kerja analitik paralel dan throughput/IOPS tinggi? Jika ya, pilih opsi yang disetel ke performa beban kerja analitik.
Apakah Anda perlu menyimpan data tidak terstruktur atau semi-terstruktur dalam database tanpa skema? Jika demikian, pilih salah satu opsi nonrelasi atau analitik. Bandingkan opsi untuk model pengindeksan dan database. Bergantung pada jenis data yang perlu Anda simpan, model database utama mungkin merupakan faktor terbesar.
Bisakah Anda menggunakan layanan di wilayah Anda? Periksa ketersediaan regional untuk setiap layanan Azure. Untuk informasi selengkapnya, lihat Produk yang tersedia berdasarkan wilayah.

Matriks kemampuan

Tabel berikut merangkum perbedaan utama kemampuan.

Kemampuan OneLake in Fabric

Kemampuan	OneLake in Fabric
Data lake terpadu	Menyediakan satu data lake terpadu untuk seluruh organisasi, yang menghilangkan silo data.
Dukungan multicloud	Mendukung integrasi dan kompatibilitas dengan berbagai platform cloud.
Tata kelola data	Mencakup fitur seperti silsilah data, perlindungan data, sertifikasi, dan integrasi katalog.
Hub data terpusat	Bertindak sebagai hub terpusat untuk penemuan dan manajemen data.
Dukungan mesin analisis	Kompatibel dengan beberapa mesin analitik. Kompatibilitas ini memungkinkan berbagai alat dan teknologi untuk beroperasi pada data yang sama.
Keamanan dan kepatuhan	Memastikan bahwa data sensitif tetap aman dan akses dibatasi hanya untuk pengguna yang berwenang.
Kemudahan penggunaan	Menyediakan desain yang mudah digunakan yang tersedia secara otomatis dengan setiap penyewa Fabric dan tidak memerlukan penyiapan.
Skalabilitas	Mampu menangani data dalam volume besar dari berbagai sumber.

Kemampuan penyimpanan file

Kemampuan	Data Lake Storage Gen2	Kontainer Azure Blob Storage
Tujuan	Penyimpanan yang dioptimalkan untuk beban kerja analitik data besar	Penyimpanan objek tujuan umum untuk berbagai skenario penyimpanan
Kasus penggunaan	Batch, analisis aliran, dan data pembelajaran mesin seperti file log, data IoT, aliran klik, himpunan data besar	Semua jenis teks atau data biner, seperti back end aplikasi, data cadangan, penyimpanan media untuk streaming, dan data tujuan umum
Struktur	Sistem file hierarkis	Penyimpanan objek dengan namespace datar
Autentikasi	Berdasarkan identitas Microsoft Entra	Berdasarkan rahasia bersama Kunci Akses Akun dan Kunci Tanda Tangan Akses Bersama, dan kontrol akses berbasis peran Azure (Azure RBAC)
Protokol otentikasi	Otorisasi Terbuka (OAuth) 2.0. Panggilan harus berisi JWT (token web JSON) yang valid yang dikeluarkan oleh ID Microsoft Entra	Kode Autentikasi Pesan Berbasis Hash (HMAC). Panggilan harus berisi hash SHA-256 yang dikodekan Base64 melalui bagian dari permintaan HTTP.
Otorisasi	Antarmuka Sistem Operasi Portabel (POSIX) daftar kontrol akses (ACL). ACL berdasarkan identitas Microsoft Entra dapat diatur pada tingkat file dan folder.	Untuk otorisasi tingkat akun – Gunakan Kunci Akses Akun. Untuk otorisasi akun, kontainer, atau blob - Gunakan Kunci Tanda Tangan Akses Bersama.
Mengaudit	Tersedia.	Tersedia
Enkripsi saat tidak aktif	Transparan dari sisi server	Transparan, sisi server; Enkripsi sisi klien
SDK pengembang	.NET, Java, Python, Node.js	.NET, Java, Python, Node.js, C++, Ruby
Performa Beban Kerja Analitik	Performa dioptimalkan untuk beban kerja analitik paralel, throughput tinggi, dan IOPS.	Tidak dioptimalkan untuk beban kerja analitik
Batas ukuran	Tidak ada batasan ukuran akun, ukuran file, atau jumlah file	Batas spesifik yang didokumentasikan di sini
Redundansi geografis	Redundan secara lokal (penyimpanan redundan lokal (LRS)), redundan secara global (penyimpanan geo-redundan (GRS)), akses baca redundan secara global (penyimpanan geo-redundan akses baca (RA-GRS)), zona-redundan (penyimpanan zona-redundan (ZRS)).	Redundan lokal (LRS), redundan global (GRS), redundan global dengan akses baca (RA-GRS), redundan zona (ZRS). Lihat Redundansi Azure Storage untuk informasi selengkapnya

Kemampuan database NoSQL

Kemampuan	Azure Cosmos DB (layanan basis data global dari Microsoft)	HBase di HDInsight
Model basis data utama	Penyimpanan dokumen, grafik, penyimpanan nilai kunci, penyimpanan kolom lebar	Penyimpanan basis data kolom lebar
Indeks sekunder	Ya	Tidak
Dukungan bahasa SQL	Ya	Ya (menggunakan driver Phoenix JDBC)
Konsistensi	Kuat, keterbatasan pembaruan, sesi, awalan yang konsisten, akhirnya konsisten	Kuat
Integrasi Asli Azure Functions	Ya	Tidak
Distribusi global otomatis	Ya	Tidak adareplikasi kluster HBase yang dapat dikonfigurasi di seluruh wilayah dengan konsistensi akhir
Rencana harga	Unit permintaan (RUs) yang dapat diskalakan secara elastis dibebankan per detik sesuai kebutuhan, penyimpanan yang dapat diskalakan secara elastis	Harga per menit untuk kluster HDInsight (penskalaan horizontal node), penyimpanan

Kemampuan database analitik

Kemampuan	Azure Data Explorer (layanan pencarian data)
Model basis data utama	Relasional (penyimpanan kolom), telemetri, dan penyimpanan deret waktu
Dukungan bahasa SQL	Ya
Rencana harga	Instans kluster yang dapat diskalakan secara elastis
Autentikasi	Berdasarkan identitas Microsoft Entra
Enkripsi saat tidak aktif	Kunci yang didukung dan dikelola pelanggan
Performa Beban Kerja Analitik	Performa yang dioptimalkan untuk beban kerja analitik paralel
Batas ukuran	Dapat diukur secara linear

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Zoiner Tejada | CEO dan Arsitek