Pilih teknologi penyimpanan big data di Azure

Catatan

Pada 29 Feb 2024, Azure Data Lake Storage Gen1 akan dihentikan. Untuk informasi selengkapnya, lihat pengumuman resmi. Jika Anda menggunakan Azure Data Lake Storage Gen1, pastikan untuk melakukan migrasi ke Azure Data Lake Storage Gen2 sebelum tanggal tersebut. Untuk mempelajari caranya, lihat Memigrasikan Azure Data Lake Storage dari Gen1 ke Gen2 dengan menggunakan portal Azure.

Kecuali Anda sudah memiliki akun Azure Data Lake Storage Gen1, Anda tidak dapat membuat yang baru.

Topik ini membandingkan opsi untuk penyimpanan data untuk solusi big data—khususnya, penyimpanan data untuk penyerapan data massal dan pemrosesan batch, dibandingkan dengan penyimpanan data analitik atau penyerapan streaming real time.

Apa pilihan Anda saat memilih penyimpanan data di Azure?

Ada beberapa opsi untuk menyerap data ke Azure, tergantung pada kebutuhan Anda.

Penyimpanan File:

Database NoSQL:

Database analitis:

Azure Data Explorer

Blob Azure Storage

Azure Storage adalah layanan penyimpanan terkelola yang sangat tersedia, aman, tahan lama, terukur, dan berlebihan. Microsoft menangani pemeliharaan dan menghandel masalah kritis untuk Anda. Azure Storage adalah solusi penyimpanan paling banyak di mana-mana yang disediakan Azure, karena jumlah layanan dan alat yang dapat digunakan dengannya.

Ada berbagai layanan Azure Storage yang dapat Anda gunakan untuk menyimpan data. Opsi yang paling fleksibel untuk menyimpan blob dari banyak sumber data adalah penyimpanan Blob. Blob pada dasarnya adalah file. Mereka menyimpan gambar, dokumen, file HTML, hard disk virtual (VHD), big data seperti log, cadangan database—hampir semua hal. Blob disimpan dalam kontainer, yang mirip dengan folder. Kontainer menyediakan pengelompokan satu set blob. Akun penyimpanan dapat berisi jumlah kontainer yang tidak terbatas, dan kontainer dapat menyimpan blob dalam jumlah tak terbatas.

Azure Storage adalah pilihan yang baik untuk solusi analitik dan big data, karena fleksibilitas, ketersediaan tinggi, dan biaya rendah. Ini menyediakan tingkat penyimpanan panas, dingin, dan arsip untuk kasus penggunaan yang berbeda. Untuk informasi selengkapnya, lihat Azure Blob Storage: Tingkat penyimpanan panas, dingin, dan arsip.

Penyimpanan Azure Blob dapat diakses dari Hadoop (tersedia melalui HDInsight). HDInsight dapat menggunakan kontainer blob di Azure Storage sebagai sistem file default untuk klaster. Melalui antarmuka Hadoop sistem file terdistribusi (HDFS) yang disediakan oleh driver WASB, set lengkap komponen dalam HDInsight dapat beroperasi langsung pada data terstruktur atau tidak terstruktur yang disimpan sebagai blob. Penyimpanan Azure Blob juga dapat diakses melalui Azure Synapse Analytics menggunakan fitur PolyBase-nya.

Fitur lain yang membuat Azure Storage pilihan yang baik adalah:

Azure Data Lake Storage Gen1

Azure Data Lake Storage Gen1 adalah repositori hyperscale di seluruh perusahaan untuk beban kerja analitik big data. Data Lake memungkinkan Anda untuk mengambil data dari berbagai ukuran, jenis, dan kecepatan konsumsi di satu lokasi aman tunggal untuk analisis operasional dan eksplorasi.

Azure Data Lake Storage Gen1 tidak memberlakukan batasan apa pun pada ukuran akun, ukuran file, atau jumlah data yang dapat disimpan di data lake. Data disimpan dengan durably dengan membuat beberapa salinan dan tidak ada batasan durasi waktu data dapat disimpan di Data Lake. Selain membuat beberapa salinan file untuk menjaga terhadap kegagalan yang tidak terduga, Data lake menyebarkan bagian dari file melalui sejumlah server penyimpanan individu. Ini meningkatkan throughput baca saat membaca file secara paralel untuk melakukan analitik data.

Azure Data Lake Storage Gen1 dapat diakses dari Hadoop (tersedia melalui HDInsight) menggunakan REST API yang kompatibel dengan WebHDFS. Anda dapat mempertimbangkan untuk menggunakan ini sebagai alternatif untuk Azure Storage ketika ukuran file individu atau gabungan Anda melebihi yang didukung oleh Azure Storage. Namun, ada panduan penyetelan performa yang harus Anda ikuti saat menggunakan Azure Data Lake Storage Gen1 sebagai penyimpanan utama Anda untuk kluster HDInsight, dengan panduan khusus untuk Spark, Apache Hive, dan MapReduce. Selain itu, pastikan untuk memeriksa ketersediaan regional Azure Data Lake Storage Gen1, karena tidak tersedia di wilayah sebanyak Azure Storage, dan perlu terletak di wilayah yang sama dengan kluster HDInsight Anda.

Ditambah dengan Azure Data Lake Analytics, Azure Data Lake Storage Gen1 dirancang untuk mengaktifkan analitik pada data yang disimpan dan disetel untuk performa untuk skenario analitik data. Azure Data Lake Storage Gen1 juga dapat diakses melalui Azure Synapse menggunakan fitur PolyBase-nya.

Azure Cosmos DB

Azure Cosmos DB adalah database berbagai model Microsoft yang didistribusikan secara global. Azure Cosmos DB menjamin latensi milidetik digit tunggal pada persentil ke-99 di mana saja di dunia, menawarkan beberapa model konsistensi yang terdefinisi dengan baik untuk menyempurnakan performa, dan menjamin ketersediaan tinggi dengan kemampuan multi-homing.

Azure Cosmos DB adalah skema-agnostik. Ini secara otomatis mengindeks semua data tanpa mengharuskan Anda untuk berurusan dengan skema dan manajemen indeks. Ini juga multi-model, dokumen pendukung asli, nilai kunci, grafik, dan model data kolom-keluarga.

Fitur Azure Cosmos DB:

HBase di HDInsight

Apache HBase adalah database sumber terbuka NoSQL yang dibangun di atas Hadoop dan dimodelkan setelah Google BigTable. HBase menyediakan akses acak dan konsistensi yang kuat untuk sejumlah besar data tidak terstruktur dan semi-terstruktur dalam database tanpa skema yang disusun oleh keluarga kolom.

Data disimpan dalam baris tabel, dan data dalam baris dikelompokkan menurut keluarga kolom. HBase tidak memiliki skema dalam arti bahwa baik kolom maupun jenis data yang tersimpan di dalamnya tidak perlu didefinisikan sebelum menggunakannya. Kode sumber terbuka menskalakan secara linier untuk menangani petabyte data pada ribuan simpul. Ini dapat mengandalkan redundansi data, pemrosesan batch, dan fitur lain yang disediakan oleh aplikasi terdistribusi di ekosistem Hadoop.

Penerapan HDInsight memanfaatkan arsitektur skala-out HBase untuk memberikan pecahan otomatis tabel, konsistensi yang kuat untuk membaca dan menulis, dan failover otomatis. Performa ditingkatkan dengan penembolokan dalam memori untuk bacaan dan streaming throughput tinggi untuk menulis. Dalam kebanyakan kasus, Anda akan ingin membuat kluster HBase di dalam jaringan virtual sehingga kluster dan aplikasi HDInsight lainnya dapat langsung mengakses tabel.

Azure Data Explorer

Azure Data Explorer adalah layanan eksplorasi data yang cepat dan sangat dapat diskalakan untuk data log dan telemetri. Ini membantu Anda menghandel banyak aliran data yang dikeluarkan oleh perangkat lunak modern, sehingga Anda dapat mengumpulkan, menyimpan, dan menganalisis data. Azure Data Explorer sangat ideal untuk menganalisis volume besar data yang beragam dari sumber data apa pun, seperti situs web, aplikasi, perangkat IoT, dan banyak lagi. Data ini digunakan untuk diagnostik, pemantauan, pelaporan, pembelajaran mesin, dan kemampuan analitik tambahan. Azure Data Explorer memudahkan untuk menelan data ini dan memungkinkan Anda melakukan kueri ad hoc yang kompleks pada data dalam hitungan detik.

Azure Data Explorer dapat diskalakan secara linear untuk meningkatkan throughput pemrosesan konsumsi dan kueri. Kluster Azure Data Explorer dapat digunakan ke Jaringan Virtual untuk mengaktifkan jaringan pribadi.

Kriteria pilihan utama

Untuk mempersempit pilihan, mulailah dengan menjawab pertanyaan-pertanyaan ini:

  • Apakah Anda memerlukan penyimpanan berbasis cloud yang dikelola, berkecepatan tinggi, untuk semua jenis teks atau data biner? Jika ya, pilih salah satu opsi penyimpanan file atau opsi analitik.

  • Apakah Anda memerlukan penyimpanan file yang dioptimalkan untuk beban kerja analitik paralel dan throughput/IOPS tinggi? Jika ya, pilih opsi yang disetel ke performa beban kerja analitik.

  • Apakah Anda perlu menyimpan data tidak terstruktur atau semi-terstruktur dalam database tanpa skema? Jika demikian, pilih salah satu opsi non-relasional atau analitik. Bandingkan opsi untuk model pengindeksan dan database. Tergantung pada jenis data yang perlu Anda simpan, model database utama mungkin merupakan faktor terbesar.

  • Bisakah Anda menggunakan layanan di wilayah Anda? Periksa ketersediaan regional untuk setiap layanan Azure. Lihat Produk tersedia menurut wilayah.

Matriks kemampuan

Tabel berikut merangkum perbedaan utama kemampuan.

Kemampuan penyimpanan file

Kemampuan Azure Data Lake Storage Gen1 Kontainer Azure Blob Storage
Tujuan Penyimpanan yang dioptimalkan untuk beban kerja analitik data besar Penyimpanan objek tujuan umum untuk berbagai skenario penyimpanan
Kasus penggunaan Batch, analisis streaming, dan data pembelajaran mesin seperti file log, data IoT, klik stream, himpunan data besar Semua jenis teks atau data biner, seperti back end aplikasi, data cadangan, penyimpanan media untuk streaming, dan data tujuan umum
Struktur Sistem file hierarkis Penyimpanan objek dengan namespace datar
Autentikasi Berdasarkan identitas Microsoft Entra Berdasarkan rahasia bersama Kunci Akses Akun dan Kunci Tanda Tangan Akses Bersama, dan kontrol akses berbasis peran Azure (Azure RBAC)
Protokol autentikasi OAuth 2.0. Panggilan harus berisi JWT (token web JSON) yang valid yang dikeluarkan oleh ID Microsoft Entra Kode Autentikasi Pesan Berbasis Hash (HMAC). Panggilan harus berisi hash SHA-256 yang dikodekan Base64 melalui bagian dari permintaan HTTP.
Otorisasi Daftar Kontrol Akses (ACL) POSIX. ACL berdasarkan identitas Microsoft Entra dapat diatur tingkat file dan folder. Untuk otorisasi tingkat akun – Gunakan Kunci Akses Akun. Untuk otorisasi akun, kontainer, atau blob - Gunakan Kunci Tanda Tangan Akses Bersama.
Audit Tersedia. Tersedia
Enkripsi saat tidak aktif Transparan, Sisi server Transparan, sisi server; Enkripsi sisi klien
SDK pengembang .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Performa Beban Kerja Analitik Performa dioptimalkan untuk beban kerja analitik paralel, Throughput Tinggi, dan IOPS Tidak dioptimalkan untuk beban kerja analitik
Batas ukuran Tidak ada batasan ukuran akun, ukuran file, atau jumlah file Batas spesifik yang didokumentasikan di sini
Redundansi geografis Redundan lokal (LRS), redundan global (GRS), akses baca redundan global (RA-GRS), redundan zona (ZRS). Redundan lokal (LRS), redundan global (GRS), akses baca redundan global (RA-GRS), redundan zona (ZRS). Lihat di sini untuk informasi selengkapnya

Kemampuan database NoSQL

Kemampuan Azure Cosmos DB HBase di HDInsight
Model database utama Penyimpanan dokumen, grafik, penyimpanan nilai kunci, penyimpanan kolom lebar Penyimpanan kolom lebar
Indeks sekunder Ya Tidak
Dukungan bahasa SQL Ya Ya (menggunakan driver Phoenix JDBC)
Konsistensi Kuat, dibatasi-basi, sesi, awalan yang konsisten, akhirnya Kuat
Integrasi Native Azure Functions Ya Tidak
Distribusi global otomatis Ya Tidak adareplikasi kluster HBase yang dapat dikonfigurasi di seluruh wilayah dengan konsistensi akhir
Rencana harga Unit permintaan (RUs) yang dapat diskalakan secara elastis dibebankan per detik sesuai kebutuhan, penyimpanan yang dapat diskalakan secara elastis Harga per menit untuk kluster HDInsight (penskalaan horizontal node), penyimpanan

Kemampuan database analitik

Kemampuan Azure Data Explorer
Model database utama Relasional (penyimpanan kolom), telemetri, dan penyimpanan deret waktu
Dukungan bahasa SQL Ya
Rencana harga Instans kluster yang dapat diskalakan secara elastis
Autentikasi Berdasarkan identitas Microsoft Entra
Enkripsi saat tidak aktif Didukung, kunci terkelola pelanggan
Performa Beban Kerja Analitik Performa yang dioptimalkan untuk beban kerja analitik paralel
Batas ukuran Terukur secara linear

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Langkah berikutnya