Pilih teknologi penyimpanan big data di Azure
Artikel ini membandingkan opsi untuk penyimpanan data untuk solusi big data—khususnya, penyimpanan data untuk penyerapan data massal dan pemrosesan batch, dibandingkan dengan penyimpanan data analitik atau penyerapan streaming real time.
Apa pilihan Anda saat memilih penyimpanan data di Azure?
Ada beberapa opsi untuk menyerap data ke Azure, tergantung pada kebutuhan Anda.
Data lake logis terpadu:
Penyimpanan File:
Database NoSQL:
Database analitis:
OneLake in Fabric
OneLake in Fabric adalah data lake terpadu dan logis yang disesuaikan untuk seluruh organisasi. Ini berfungsi sebagai hub pusat untuk semua data analitik dan disertakan dengan setiap penyewa Microsoft Fabric. OneLake in Fabric dibangun di atas fondasi Data Lake Storage Gen2.
OneLake dalam Fabric:
- Mendukung jenis file terstruktur dan tidak terstruktur.
- Menyimpan semua data tabular dalam format Delta Parquet.
- Menyediakan satu data lake dalam batas penyewa yang diatur secara default.
- Mendukung pembuatan ruang kerja dalam penyewa sehingga organisasi dapat mendistribusikan kebijakan kepemilikan dan akses.
- Mendukung pembuatan berbagai item data, seperti lakehouse dan gudang, tempat Anda dapat mengakses data.
OneLake in Fabric berfungsi sebagai lokasi penyimpanan umum untuk penyerapan, transformasi, wawasan real time, dan visualisasi kecerdasan bisnis. Ini mempusatkan berbagai layanan Fabric dan menyimpan item data yang digunakan semua beban kerja di Fabric. Untuk memilih datastore yang tepat untuk beban kerja Fabric Anda, lihat Panduan keputusan Fabric: pilih datastore.
Blob Azure Storage
Azure Storage adalah layanan penyimpanan terkelola yang sangat tersedia, aman, tahan lama, terukur, dan berlebihan. Microsoft menangani pemeliharaan dan menghandel masalah kritis untuk Anda. Azure Storage adalah solusi penyimpanan paling banyak di mana-mana yang disediakan Azure, karena jumlah layanan dan alat yang dapat digunakan dengannya.
Ada berbagai layanan Azure Storage yang dapat Anda gunakan untuk menyimpan data. Opsi yang paling fleksibel untuk menyimpan blob dari banyak sumber data adalah penyimpanan Blob. Blob pada dasarnya adalah file. Mereka menyimpan gambar, dokumen, file HTML, hard disk virtual (VHD), big data seperti log, cadangan database—hampir semua hal. Blob disimpan dalam kontainer, yang mirip dengan folder. Kontainer menyediakan pengelompokan satu set blob. Akun penyimpanan dapat berisi jumlah kontainer yang tidak terbatas, dan kontainer dapat menyimpan blob dalam jumlah tak terbatas.
Azure Storage adalah pilihan yang baik untuk solusi analitik dan big data, karena fleksibilitas, ketersediaan tinggi, dan biaya rendah. Ini menyediakan tingkat penyimpanan panas, dingin, dan arsip untuk kasus penggunaan yang berbeda. Untuk informasi selengkapnya, lihat Azure Blob Storage: Tingkat penyimpanan panas, dingin, dan arsip.
Penyimpanan Azure Blob dapat diakses dari Hadoop (tersedia melalui HDInsight). HDInsight dapat menggunakan kontainer blob di Azure Storage sebagai sistem file default untuk klaster. Melalui antarmuka Hadoop Distributed File System (HDFS) yang disediakan oleh driver WASB, set lengkap komponen dalam HDInsight dapat beroperasi langsung pada data terstruktur atau tidak terstruktur yang disimpan sebagai blob. Penyimpanan Azure Blob juga dapat diakses melalui Azure Synapse Analytics menggunakan fitur PolyBase-nya.
Fitur lain yang membuat Azure Storage pilihan yang baik adalah:
- Beberapa strategi konkurensi.
- Pemulihan bencana dan opsi ketersediaan tinggi.
- Enkripsi tidak aktif.
- Kontrol akses berbasis peran Azure (RBAC) untuk mengontrol akses menggunakan pengguna dan grup Microsoft Entra.
Data Lake Storage Gen2
Data Lake Storage Gen2 adalah repositori terpusat tunggal tempat Anda dapat menyimpan semua data Anda, baik terstruktur maupun tidak terstruktur. Data lake memungkinkan organisasi Anda untuk menyimpan, mengakses, dan menganalisis berbagai data dengan cepat dan lebih mudah dalam satu lokasi. Dengan data lake, Anda tidak perlu menyesuaikan data dengan struktur yang ada. Sebagai gantinya, Anda dapat menyimpan data dalam format mentah atau aslinya, biasanya sebagai file atau sebagai objek besar biner (blob).
Data Lake Storage Gen2 mempertemukan kemampuan Azure Data Lake Storage Gen1 dengan Azure Blob Storage. Misalnya, Data Lake Storage Gen2 menyediakan semantik sistem file, keamanan tingkat file, dan skala. Karena kemampuan ini dibangun di atas penyimpanan Blob, Anda juga mendapatkan penyimpanan berbilang rendah, berjenjang, dengan ketersediaan tinggi/kemampuan pemulihan bencana.
Data Lake Storage Gen2 menjadikan Azure Storage sebagai fondasi untuk membangun data lake perusahaan di Azure. Dirancang sejak awal untuk melayani beberapa petabyte informasi sambil mempertahankan ratusan gigabit throughput, Data Lake Storage Gen2 memungkinkan Anda mengelola sejumlah besar data dengan mudah.
Azure Cosmos DB
Azure Cosmos DB adalah database berbagai model Microsoft yang didistribusikan secara global. Azure Cosmos DB menjamin latensi milidetik digit tunggal pada persentil ke-99 di mana saja di dunia, menyediakan beberapa model konsistensi yang terdefinisi dengan baik untuk menyempurnakan performa, dan menjamin ketersediaan tinggi dengan kemampuan multi-homing.
Azure Cosmos DB adalah skema-agnostik. Ini secara otomatis mengindeks semua data tanpa mengharuskan Anda untuk berurusan dengan skema dan manajemen indeks. Ini juga multi-model, dokumen pendukung asli, nilai kunci, grafik, dan model data kolom-keluarga.
Fitur Azure Cosmos DB:
- Replikasi geografis
- Penskalaan throughput dan penyimpanan elastis di seluruh dunia
- Lima tingkat konsistensi yang terdefinisi dengan baik
HBase di HDInsight
Apache HBase adalah database sumber terbuka NoSQL yang dibangun di atas Hadoop dan dimodelkan setelah Google BigTable. HBase menyediakan akses acak dan konsistensi yang kuat untuk sejumlah besar data tidak terstruktur dan semi-terstruktur dalam database tanpa skema yang disusun oleh keluarga kolom.
Data disimpan dalam baris tabel, dan data dalam baris dikelompokkan menurut keluarga kolom. HBase tidak memiliki skema dalam arti bahwa baik kolom maupun jenis data yang tersimpan di dalamnya tidak perlu didefinisikan sebelum menggunakannya. Kode sumber terbuka menskalakan secara linier untuk menangani petabyte data pada ribuan simpul. Ini dapat mengandalkan redundansi data, pemrosesan batch, dan fitur lain yang disediakan oleh aplikasi terdistribusi di ekosistem Hadoop.
Implementasi HDInsight menggunakan arsitektur peluasan skala HBase untuk menyediakan pecahan tabel otomatis, konsistensi yang kuat untuk baca dan tulis, dan failover otomatis. Performa ditingkatkan dengan penembolokan dalam memori untuk bacaan dan streaming throughput tinggi untuk menulis. Dalam kebanyakan kasus, Anda ingin membuat kluster HBase di dalam jaringan virtual sehingga kluster dan aplikasi HDInsight lainnya dapat langsung mengakses tabel.
Azure Data Explorer
Azure Data Explorer adalah layanan eksplorasi data yang cepat dan sangat dapat diskalakan untuk data log dan telemetri. Ini membantu Anda menghandel banyak aliran data yang dikeluarkan oleh perangkat lunak modern, sehingga Anda dapat mengumpulkan, menyimpan, dan menganalisis data. Azure Data Explorer sangat ideal untuk menganalisis volume besar data yang beragam dari sumber data apa pun, seperti situs web, aplikasi, perangkat IoT, dan banyak lagi. Data ini digunakan untuk diagnostik, pemantauan, pelaporan, pembelajaran mesin, dan kemampuan analitik tambahan. Azure Data Explorer memudahkan untuk menyerap data ini dan memungkinkan Anda melakukan kueri kompleks yang tidak dienkripsi pada data dalam hitung detik.
Azure Data Explorer dapat diskalakan secara linear untuk meningkatkan throughput pemrosesan konsumsi dan kueri. Kluster Azure Data Explorer dapat digunakan ke Jaringan Virtual untuk mengaktifkan jaringan pribadi.
Kriteria pilihan utama
Untuk mempersempit pilihan, mulailah dengan menjawab pertanyaan-pertanyaan ini:
Apakah Anda memerlukan data lake terpadu dengan dukungan multicloud, tata kelola yang kuat, dan integrasi yang mulus dengan alat analitik? Jika ya, pilih OneLake di Fabric untuk manajemen data yang disederhanakan dan kolaborasi yang ditingkatkan.
Apakah Anda memerlukan penyimpanan berbasis cloud yang dikelola, berkecepatan tinggi, untuk semua jenis teks atau data biner? Jika ya, pilih salah satu opsi penyimpanan file atau analitik.
Apakah Anda memerlukan penyimpanan file yang dioptimalkan untuk beban kerja analitik paralel dan throughput/IOPS tinggi? Jika ya, pilih opsi yang disetel ke performa beban kerja analitik.
Apakah Anda perlu menyimpan data tidak terstruktur atau semi-terstruktur dalam database tanpa skema? Jika demikian, pilih salah satu opsi nonrelasi atau analitik. Bandingkan opsi untuk model pengindeksan dan database. Bergantung pada jenis data yang perlu Anda simpan, model database utama mungkin merupakan faktor terbesar.
Bisakah Anda menggunakan layanan di wilayah Anda? Periksa ketersediaan regional untuk setiap layanan Azure. Untuk informasi selengkapnya, lihat Produk yang tersedia berdasarkan wilayah.
Matriks kemampuan
Tabel berikut merangkum perbedaan utama kemampuan.
Kemampuan OneLake in Fabric
Kemampuan | OneLake in Fabric |
---|---|
Data lake terpadu | Menyediakan satu data lake terpadu untuk seluruh organisasi, yang menghilangkan silo data. |
Dukungan multicloud | Mendukung integrasi dan kompatibilitas dengan berbagai platform cloud. |
Tata kelola data | Mencakup fitur seperti silsilah data, perlindungan data, sertifikasi, dan integrasi katalog. |
Hub data terpusat | Bertindak sebagai hub terpusat untuk penemuan dan manajemen data. |
Dukungan mesin analitik | Kompatibel dengan beberapa mesin analitik. Kompatibilitas ini memungkinkan berbagai alat dan teknologi untuk beroperasi pada data yang sama. |
Keamanan dan kepatuhan | Memastikan bahwa data sensitif tetap aman dan akses dibatasi hanya untuk pengguna yang berwenang. |
Kemudahan penggunaan | Menyediakan desain yang mudah digunakan yang tersedia secara otomatis dengan setiap penyewa Fabric dan tidak memerlukan penyiapan. |
Skalabilitas | Mampu menangani data dalam volume besar dari berbagai sumber. |
Kemampuan penyimpanan file
Kemampuan | Data Lake Storage Gen2 | Kontainer Azure Blob Storage |
---|---|---|
Tujuan | Penyimpanan yang dioptimalkan untuk beban kerja analitik data besar | Penyimpanan objek tujuan umum untuk berbagai skenario penyimpanan |
Kasus penggunaan | Batch, analisis streaming, dan data pembelajaran mesin seperti file log, data IoT, klik stream, himpunan data besar | Semua jenis teks atau data biner, seperti back end aplikasi, data cadangan, penyimpanan media untuk streaming, dan data tujuan umum |
Struktur | Sistem file hierarkis | Penyimpanan objek dengan namespace datar |
Autentikasi | Berdasarkan identitas Microsoft Entra | Berdasarkan rahasia bersama Kunci Akses Akun dan Kunci Tanda Tangan Akses Bersama, dan kontrol akses berbasis peran Azure (Azure RBAC) |
Protokol autentikasi | Buka Otorisasi (OAuth) 2.0. Panggilan harus berisi JWT (token web JSON) yang valid yang dikeluarkan oleh ID Microsoft Entra | Kode Autentikasi Pesan Berbasis Hash (HMAC). Panggilan harus berisi hash SHA-256 yang dikodekan Base64 melalui bagian dari permintaan HTTP. |
Authorization | Daftar kontrol akses (ACL) Portable Operating System Interface (POSIX). ACL berdasarkan identitas Microsoft Entra dapat diatur tingkat file dan folder. | Untuk otorisasi tingkat akun – Gunakan Kunci Akses Akun. Untuk otorisasi akun, kontainer, atau blob - Gunakan Kunci Tanda Tangan Akses Bersama. |
Audit | Tersedia. | Tersedia |
Enkripsi saat tidak aktif | Transparan, Sisi server | Transparan, sisi server; Enkripsi sisi klien |
SDK pengembang | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
Performa Beban Kerja Analitik | Performa dioptimalkan untuk beban kerja analitik paralel, Throughput Tinggi, dan IOPS | Tidak dioptimalkan untuk beban kerja analitik |
Batas ukuran | Tidak ada batasan ukuran akun, ukuran file, atau jumlah file | Batas spesifik yang didokumentasikan di sini |
Redundansi geografis | Redundan secara lokal (penyimpanan redundan lokal (LRS)), redundan secara global (penyimpanan geo-redundan (GRS)), akses baca redundan secara global (penyimpanan geo-redundan akses baca (RA-GRS)), zona-redundan (penyimpanan zona-redundan (ZRS)). | Redundan lokal (LRS), redundan global (GRS), akses baca redundan global (RA-GRS), redundan zona (ZRS). Lihat Redundansi Azure Storage untuk informasi selengkapnya |
Kemampuan database NoSQL
Kemampuan | Azure Cosmos DB | HBase di HDInsight |
---|---|---|
Model database utama | Penyimpanan dokumen, grafik, penyimpanan nilai kunci, penyimpanan kolom lebar | Penyimpanan kolom lebar |
Indeks sekunder | Ya | Tidak |
Dukungan bahasa SQL | Ya | Ya (menggunakan driver Phoenix JDBC) |
Konsistensi | Kuat, dibatasi-basi, sesi, awalan yang konsisten, akhirnya | Kuat |
Integrasi Native Azure Functions | Ya | Tidak |
Distribusi global otomatis | Ya | Tidak adareplikasi kluster HBase yang dapat dikonfigurasi di seluruh wilayah dengan konsistensi akhir |
Rencana harga | Unit permintaan (RUs) yang dapat diskalakan secara elastis dibebankan per detik sesuai kebutuhan, penyimpanan yang dapat diskalakan secara elastis | Harga per menit untuk kluster HDInsight (penskalaan horizontal node), penyimpanan |
Kemampuan database analitik
Kemampuan | Azure Data Explorer |
---|---|
Model database utama | Relasional (penyimpanan kolom), telemetri, dan penyimpanan deret waktu |
Dukungan bahasa SQL | Ya |
Rencana harga | Instans kluster yang dapat diskalakan secara elastis |
Autentikasi | Berdasarkan identitas Microsoft Entra |
Enkripsi saat tidak aktif | Kunci yang didukung dan dikelola pelanggan |
Performa Beban Kerja Analitik | Performa yang dioptimalkan untuk beban kerja analitik paralel |
Batas ukuran | Terukur secara linear |
Kontributor
Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.
Penulis utama:
- Zoiner Tejada | CEO dan Arsitek
Langkah berikutnya
- Apa itu Fabric
- Pengantar analitik end-to-end menggunakan Fabric
- Solusi dan Layanan Azure Cloud Storage
- Meninjau opsi penyimpanan Anda
- Pengenalan Azure Storage
- Pengantar Azure Data Explorer