Bagikan melalui


Memilih penyimpanan data analitis di Azure

Dalam arsitektur big data , sering kali ada kebutuhan akan penyimpanan data analitik yang melayani data yang diproses dalam format terstruktur yang dapat dikueri dengan menggunakan alat analitik. Penyimpanan data analitik yang mendukung kueri data jalur panas dan jalur dingin secara kolektif disebut sebagai lapisan penyajian, atau penyimpanan penyajian data.

Lapisan penyajian menangani data yang diproses dari jalur panas dan jalur dingin. Dalam arsitektur Lambda, lapisan penyajian dibagi menjadi dua lapisan. Lapisan penyajian kecepatan berisi data yang diproses secara bertahap. Lapisan penyajian batch berisi output yang diproses batch. Lapisan penyajian membutuhkan dukungan yang kuat untuk bacaan acak yang memiliki latensi rendah. Penyimpanan data untuk lapisan kecepatan juga harus mendukung penulisan acak karena memuat data batch ke penyimpanan ini memperkenalkan penundaan yang tidak diinginkan. Atau, penyimpanan data untuk lapisan batch perlu mendukung penulisan batch, bukan tulisan acak.

Tidak ada satu pun pilihan manajemen data terbaik untuk semua tugas penyimpanan data. Solusi manajemen data yang berbeda dioptimalkan untuk tugas yang berbeda. Sebagian besar aplikasi cloud dunia nyata dan proses big data memiliki berbagai persyaratan penyimpanan data dan sering menggunakan kombinasi solusi penyimpanan data.

Solusi analitik modern, seperti Microsoft Fabric, menyediakan platform komprehensif yang mengintegrasikan berbagai layanan dan alat data untuk memenuhi kebutuhan analitik yang beragam. Fabric mencakup OneLake, yang merupakan data lake logis tunggal, terpadu untuk seluruh organisasi Anda. OneLake dirancang untuk menyimpan, mengelola, dan mengamankan semua data organisasi di satu lokasi. Fleksibilitas ini memungkinkan organisasi Anda untuk mengatasi berbagai persyaratan penyimpanan dan pemrosesan data.

Memilih toko data analitis

Ada beberapa opsi untuk penyimpanan penyajian data di Azure, tergantung kebutuhan Anda:

Model database berikut dioptimalkan untuk berbagai jenis tugas:

  • Database kunci-nilai menyimpan satu objek berseri untuk setiap nilai kunci. Mereka sangat cocok untuk mengelola data dalam volume besar saat pengambilan didasarkan pada kunci tertentu, tanpa perlu mengkueri properti item lainnya.

  • Database dokumen adalah database kunci-nilai di mana nilai adalah dokumen. Dalam konteks ini, dokumen adalah kumpulan bidang dan nilai bernama. Database biasanya menyimpan data dalam format seperti XML, YAML, JSON, atau JSON biner, tetapi mungkin menggunakan teks biasa. Database dokumen dapat mengkueri bidang non-kunci dan menentukan indeks sekunder untuk meningkatkan efisiensi kueri. Kemampuan ini membuat database dokumen lebih cocok untuk aplikasi yang perlu mengambil data berdasarkan kriteria yang lebih kompleks daripada nilai kunci dokumen. Misalnya, Anda dapat melakukan kueri di bidang seperti ID produk, ID pelanggan, atau nama pelanggan.

  • Database penyimpanan kolom adalah penyimpanan data kunci-nilai yang menyimpan setiap kolom secara terpisah di disk. Database penyimpanan kolom lebar adalah jenis database penyimpanan kolom yang menyimpan keluarga kolom, tidak hanya kolom tunggal. Misalnya, database sensus mungkin memiliki keluarga kolom terpisah untuk setiap item berikut:

    • Nama depan, tengah, dan belakang seseorang

    • Alamat orang itu

    • Informasi profil orang tersebut, seperti tanggal lahir atau jenis kelamin mereka

    Database dapat menyimpan setiap keluarga kolom dalam partisi terpisah, sambil menyimpan semua data untuk satu orang yang terkait dengan kunci yang sama. Aplikasi dapat membaca satu keluarga kolom tanpa memindai semua data untuk entitas.

  • Database grafik menyimpan informasi sebagai kumpulan objek dan hubungan. Database grafik dapat secara efisien melakukan kueri yang melintasi jaringan objek dan hubungan di antaranya. Misalnya, objek mungkin adalah karyawan dalam database sumber daya manusia, dan Anda mungkin ingin memfasilitasi pertanyaan seperti "menemukan semua karyawan yang secara langsung atau tidak langsung bekerja untuk Scott."

  • Database telemetri dan deret waktu adalah kumpulan objek yang hanya dapat ditambahkan. Database telemetri secara efisien mengindeks data di berbagai penyimpanan kolom dan struktur dalam memori. Kemampuan ini menjadikan mereka pilihan optimal untuk menyimpan dan menganalisis sejumlah besar telemetri dan data rangkaian waktu.

Fabric mendukung berbagai model database, termasuk database kunci-nilai, dokumen, penyimpanan kolom, grafik, dan telemetri. Fleksibilitas ini memastikan skalabilitas untuk berbagai tugas analitik. Untuk memilih datastore Fabric yang tepat untuk beban kerja analitik Anda, lihat Panduan keputusan Fabric: pilih datastore.

Kriteria pilihan utama

Untuk memperbaiki proses pemilihan, pertimbangkan kriteria berikut:

  • Apakah Anda memerlukan penyimpanan yang berfungsi sebagai jalur akses cepat untuk data Anda? Jika ya, persempit opsi Anda dengan opsi yang dioptimalkan untuk lapisan penyajian cepat.

  • Apakah Anda memerlukan dukungan pemrosesan paralel secara besar-besaran, di mana kueri didistribusikan secara otomatis di beberapa proses atau simpul? Jika ya, pilih opsi yang mendukung peluasan skala kueri.

  • Apakah Anda lebih suka menggunakan penyimpanan data relasional? Jika Anda melakukannya, persempit opsi Anda dengan opsi yang memiliki model database relasional. Namun, beberapa penyimpanan nonrelasional mendukung sintaks SQL untuk kueri, dan alat seperti Titik Akhir SQL dapat digunakan untuk mengkueri penyimpanan data nonrelasional seperti OneLake.

  • Apakah Anda mengumpulkan data rangkaian waktu? Apakah Anda menggunakan data yang hanya bisa ditambahkan? Fabric OneLake mendukung beberapa mesin analitik, termasuk Analysis Services, T-SQL, dan Apache Spark. Fabric Eventhouse membuatnya cocok untuk berbagai pemrosesan data dan kebutuhan kueri data rangkaian waktu.

Matriks kemampuan

Tabel berikut ini meringkas perbedaan utama dalam kemampuan dalam layanan terkelola ini.

Kemampuan secara umum

Kemampuan Fabric Lakehouse Gudang Kain Fabric Eventhouse Fabric SQL Database Azure SQL Database Azure Cosmos DB Analysis Services
Model database utama Format data lake terpadu dan relasional, serta delta lake yang dikelola oleh pengguna menggunakan apache parquet Format data lake terpadu, relasional, delta lake yang dikelola sistem menggunakan apache parquet Penyimpanan data berorientasi pada penambahan seri waktu, grafik, vektor Relasional (format penyimpanan kolom saat Anda menggunakan indeks penyimpan kolom) Relasional (format penyimpanan kolom saat Anda menggunakan indeks penyimpan kolom) Penyimpanan dokumen, grafik, penyimpanan nilai kunci, penyimpanan kolom lebar Model tabular semantik
Dukungan bahasa SQL Yes1 Ya Ya2 Ya Ya Ya Tidak
Dioptimalkan untuk kecepatan pada lapisan penyajian Ya Ya Ya3 Ya4 Ya5 Ya Tidak

[1] T-SQL melalui Endpoint Analitik SQL.

[2] KQL memiliki dukungan bahasa T-SQL parsial.

[3] Mendukung ingesti antrian dan ingesti streaming.

[4] Mendukung presisi transaksi dengan akses latensi rendah dan pembaruan real time.

[5] Menggunakan tabel yang dioptimalkan untuk memori dan indeks hash atau nonclustered.

Kemampuan skalabilitas

Kemampuan Fabric Lakehouse Gudang Kain Fabric Eventhouse Fabric SQL Database Azure SQL Database Azure Cosmos DB Analysis Services
Server regional redundan untuk ketersediaan tinggi Ya1,2 Ya1,2 Ya Ya Ya Ya Ya
Mendukung peluasan skala pertanyaan Ya3 Ya4 Ya5 Ya Tidak Ya Ya
Skalabilitas dinamis (skala naik) Ya3 Ya4 Ya5 Ya Ya Ya Ya
Mendukung penyimpanan sementara data dalam memori Ya6 Ya6 Ya7 Ya Ya Ya Tidak

[1] SQL Endpoint dirutekan melalui pengelola lalu lintas global, tetapi data selalu diproses di wilayah kapasitas Fabric yang telah ditetapkan.

[2] Lakehouse dan Warehouse menyimpan data di OneLake menggunakan format Delta Parquet, yang mendukung kueri dan replikasi di seluruh mesin.

[3] Lakehouse mendukung peluasan skala berbasis Spark untuk data yang tidak terstruktur dan terstruktur.

[4] Gudang menggunakan T-SQL dan mendukung transaksi multi-tabel, manajemen beban kerja otonom, dan pemrosesan kueri terdistribusi (DQP). DQP bertindak seperti manajer kluster, secara dinamis mengalokasikan sumber daya komputasi berdasarkan kompleksitas kueri.

[5] Eventhouse mendukung federasi KQL dan SQL, memungkinkan analitik real time di beberapa sumber serta meningkatkan sumber daya komputasi jika penggunaan cache panas melebihi ~95%.

[6] Cache cerdas untuk pekerjaan Spark, penyimpanan sementara dalam memori, penyimpanan sementara set hasil untuk titik akhir analitik SQL.

[7] Data yang sering diakses disimpan dalam cache panas yang mencakup penyimpanan dalam memori dan SSD.

Kemampuan keamanan

Kemampuan Fabric Lakehouse Gudang Kain Fabric Eventhouse Fabric SQL Database Azure SQL Database Azure Cosmos DB Analysis Services
Autentikasi Microsoft Entra ID Microsoft Entra ID Microsoft Entra ID Microsoft Entra ID ID SQL atau Microsoft Entra Pengguna database atau ID Microsoft Entra melalui kontrol akses (manajemen identitas dan akses) Microsoft Entra ID
Enkripsi data saat istirahat Ya Ya Ya Ya Yes1 Ya Ya
Keamanan tingkat baris Ya Ya Ya Ya Ya Tidak Ya
Dudukungan firewall Ya2 Ya2 Ya3 Ya Ya Ya Ya
Penyelubungan data dinamis Ya4 Ya4 Tidak Ya Ya Tidak Tidak

[1] Mengharuskan Anda menggunakan enkripsi data transparan untuk mengenkripsi dan mendekripsi data Anda saat tidak aktif.

[2] Private Links dan Entra Conditional Access dapat digunakan untuk membatasi akses ke sumber daya Fabric.

[3] Beban kerja Fabric Eventhouse dan Real-Time Intelligence dapat mengambil data dari sumber yang aman seperti Kafka, Azure Event Hubs, dan AMQP, dengan merutekan melalui titik akhir yang aman.

[4] Ini dapat diterapkan di Tingkat Titik Akhir Fabric SQL

Kontributor

Microsoft mempertahankan artikel ini. Kontributor berikut menulis artikel ini.

Penulis utama:

Untuk melihat profil LinkedIn nonpublik, masuk ke LinkedIn.

Langkah berikutnya