Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Dalam arsitektur big data , sering kali ada kebutuhan akan penyimpanan data analitik yang melayani data yang diproses dalam format terstruktur yang dapat dikueri dengan menggunakan alat analitik. Penyimpanan data analitik yang mendukung kueri data jalur panas dan jalur dingin secara kolektif disebut sebagai lapisan penyajian, atau penyimpanan penyajian data.
Lapisan penyajian menangani data yang diproses dari jalur panas dan jalur dingin. Dalam arsitektur Lambda, lapisan penyajian dibagi menjadi dua lapisan. Lapisan penyajian kecepatan berisi data yang diproses secara bertahap. Lapisan penyajian batch berisi output yang diproses batch. Lapisan penyajian membutuhkan dukungan yang kuat untuk bacaan acak yang memiliki latensi rendah. Penyimpanan data untuk lapisan kecepatan juga harus mendukung penulisan acak karena memuat data batch ke penyimpanan ini memperkenalkan penundaan yang tidak diinginkan. Atau, penyimpanan data untuk lapisan batch perlu mendukung penulisan batch, bukan tulisan acak.
Tidak ada satu pun pilihan manajemen data terbaik untuk semua tugas penyimpanan data. Solusi manajemen data yang berbeda dioptimalkan untuk tugas yang berbeda. Sebagian besar aplikasi cloud dunia nyata dan proses big data memiliki berbagai persyaratan penyimpanan data dan sering menggunakan kombinasi solusi penyimpanan data.
Solusi analitik modern, seperti Microsoft Fabric, menyediakan platform komprehensif yang mengintegrasikan berbagai layanan dan alat data untuk memenuhi kebutuhan analitik yang beragam. Fabric mencakup OneLake, yang merupakan data lake logis tunggal, terpadu untuk seluruh organisasi Anda. OneLake dirancang untuk menyimpan, mengelola, dan mengamankan semua data organisasi di satu lokasi. Fleksibilitas ini memungkinkan organisasi Anda untuk mengatasi berbagai persyaratan penyimpanan dan pemrosesan data.
Memilih toko data analitis
Ada beberapa opsi untuk penyimpanan penyajian data di Azure, tergantung kebutuhan Anda:
- Fabric, khususnya:
- Azure Databricks
- Azure SQL Database
- SQL Server di Azure VM
- Layanan Analisis Azure
- Azure Cosmos DB
Model database berikut dioptimalkan untuk berbagai jenis tugas:
Database kunci-nilai menyimpan satu objek berseri untuk setiap nilai kunci. Mereka sangat cocok untuk mengelola data dalam volume besar saat pengambilan didasarkan pada kunci tertentu, tanpa perlu mengkueri properti item lainnya.
Database dokumen adalah database kunci-nilai di mana nilai adalah dokumen. Dalam konteks ini, dokumen adalah kumpulan bidang dan nilai bernama. Database biasanya menyimpan data dalam format seperti XML, YAML, JSON, atau JSON biner, tetapi mungkin menggunakan teks biasa. Database dokumen dapat mengkueri bidang non-kunci dan menentukan indeks sekunder untuk meningkatkan efisiensi kueri. Kemampuan ini membuat database dokumen lebih cocok untuk aplikasi yang perlu mengambil data berdasarkan kriteria yang lebih kompleks daripada nilai kunci dokumen. Misalnya, Anda dapat melakukan kueri di bidang seperti ID produk, ID pelanggan, atau nama pelanggan.
Database penyimpanan kolom adalah penyimpanan data kunci-nilai yang menyimpan setiap kolom secara terpisah di disk. Database penyimpanan kolom lebar adalah jenis database penyimpanan kolom yang menyimpan keluarga kolom, tidak hanya kolom tunggal. Misalnya, database sensus mungkin memiliki keluarga kolom terpisah untuk setiap item berikut:
Nama depan, tengah, dan belakang seseorang
Alamat orang itu
Informasi profil orang tersebut, seperti tanggal lahir atau jenis kelamin mereka
Database dapat menyimpan setiap keluarga kolom dalam partisi terpisah, sambil menyimpan semua data untuk satu orang yang terkait dengan kunci yang sama. Aplikasi dapat membaca satu keluarga kolom tanpa memindai semua data untuk entitas.
Database grafik menyimpan informasi sebagai kumpulan objek dan hubungan. Database grafik dapat secara efisien melakukan kueri yang melintasi jaringan objek dan hubungan di antaranya. Misalnya, objek mungkin adalah karyawan dalam database sumber daya manusia, dan Anda mungkin ingin memfasilitasi pertanyaan seperti "menemukan semua karyawan yang secara langsung atau tidak langsung bekerja untuk Scott."
Database telemetri dan deret waktu adalah kumpulan objek yang hanya dapat ditambahkan. Database telemetri secara efisien mengindeks data di berbagai penyimpanan kolom dan struktur dalam memori. Kemampuan ini menjadikan mereka pilihan optimal untuk menyimpan dan menganalisis sejumlah besar telemetri dan data rangkaian waktu.
Fabric mendukung berbagai model database, termasuk database kunci-nilai, dokumen, penyimpanan kolom, grafik, dan telemetri. Fleksibilitas ini memastikan skalabilitas untuk berbagai tugas analitik. Untuk memilih datastore Fabric yang tepat untuk beban kerja analitik Anda, lihat Panduan keputusan Fabric: pilih datastore.
Kriteria pilihan utama
Untuk memperbaiki proses pemilihan, pertimbangkan kriteria berikut:
Apakah Anda memerlukan penyimpanan yang berfungsi sebagai jalur akses cepat untuk data Anda? Jika ya, persempit opsi Anda dengan opsi yang dioptimalkan untuk lapisan penyajian cepat.
Apakah Anda memerlukan dukungan pemrosesan paralel secara besar-besaran, di mana kueri didistribusikan secara otomatis di beberapa proses atau simpul? Jika ya, pilih opsi yang mendukung peluasan skala kueri.
Apakah Anda lebih suka menggunakan penyimpanan data relasional? Jika Anda melakukannya, persempit opsi Anda dengan opsi yang memiliki model database relasional. Namun, beberapa penyimpanan nonrelasional mendukung sintaks SQL untuk kueri, dan alat seperti Titik Akhir SQL dapat digunakan untuk mengkueri penyimpanan data nonrelasional seperti OneLake.
Apakah Anda mengumpulkan data rangkaian waktu? Apakah Anda menggunakan data yang hanya bisa ditambahkan? Fabric OneLake mendukung beberapa mesin analitik, termasuk Analysis Services, T-SQL, dan Apache Spark. Fabric Eventhouse membuatnya cocok untuk berbagai pemrosesan data dan kebutuhan kueri data rangkaian waktu.
Matriks kemampuan
Tabel berikut ini meringkas perbedaan utama dalam kemampuan dalam layanan terkelola ini.
Kemampuan secara umum
| Kemampuan | Fabric Lakehouse | Gudang Kain | Fabric Eventhouse | Fabric SQL Database | Azure SQL Database | Azure Cosmos DB | Analysis Services |
|---|---|---|---|---|---|---|---|
| Model database utama | Format data lake terpadu dan relasional, serta delta lake yang dikelola oleh pengguna menggunakan apache parquet | Format data lake terpadu, relasional, delta lake yang dikelola sistem menggunakan apache parquet | Penyimpanan data berorientasi pada penambahan seri waktu, grafik, vektor | Relasional (format penyimpanan kolom saat Anda menggunakan indeks penyimpan kolom) | Relasional (format penyimpanan kolom saat Anda menggunakan indeks penyimpan kolom) | Penyimpanan dokumen, grafik, penyimpanan nilai kunci, penyimpanan kolom lebar | Model tabular semantik |
| Dukungan bahasa SQL | Yes1 | Ya | Ya2 | Ya | Ya | Ya | Tidak |
| Dioptimalkan untuk kecepatan pada lapisan penyajian | Ya | Ya | Ya3 | Ya4 | Ya5 | Ya | Tidak |
[1] T-SQL melalui Endpoint Analitik SQL.
[2] KQL memiliki dukungan bahasa T-SQL parsial.
[3] Mendukung ingesti antrian dan ingesti streaming.
[4] Mendukung presisi transaksi dengan akses latensi rendah dan pembaruan real time.
[5] Menggunakan tabel yang dioptimalkan untuk memori dan indeks hash atau nonclustered.
Kemampuan skalabilitas
| Kemampuan | Fabric Lakehouse | Gudang Kain | Fabric Eventhouse | Fabric SQL Database | Azure SQL Database | Azure Cosmos DB | Analysis Services |
|---|---|---|---|---|---|---|---|
| Server regional redundan untuk ketersediaan tinggi | Ya1,2 | Ya1,2 | Ya | Ya | Ya | Ya | Ya |
| Mendukung peluasan skala pertanyaan | Ya3 | Ya4 | Ya5 | Ya | Tidak | Ya | Ya |
| Skalabilitas dinamis (skala naik) | Ya3 | Ya4 | Ya5 | Ya | Ya | Ya | Ya |
| Mendukung penyimpanan sementara data dalam memori | Ya6 | Ya6 | Ya7 | Ya | Ya | Ya | Tidak |
[1] SQL Endpoint dirutekan melalui pengelola lalu lintas global, tetapi data selalu diproses di wilayah kapasitas Fabric yang telah ditetapkan.
[2] Lakehouse dan Warehouse menyimpan data di OneLake menggunakan format Delta Parquet, yang mendukung kueri dan replikasi di seluruh mesin.
[3] Lakehouse mendukung peluasan skala berbasis Spark untuk data yang tidak terstruktur dan terstruktur.
[4] Gudang menggunakan T-SQL dan mendukung transaksi multi-tabel, manajemen beban kerja otonom, dan pemrosesan kueri terdistribusi (DQP). DQP bertindak seperti manajer kluster, secara dinamis mengalokasikan sumber daya komputasi berdasarkan kompleksitas kueri.
[5] Eventhouse mendukung federasi KQL dan SQL, memungkinkan analitik real time di beberapa sumber serta meningkatkan sumber daya komputasi jika penggunaan cache panas melebihi ~95%.
[6] Cache cerdas untuk pekerjaan Spark, penyimpanan sementara dalam memori, penyimpanan sementara set hasil untuk titik akhir analitik SQL.
[7] Data yang sering diakses disimpan dalam cache panas yang mencakup penyimpanan dalam memori dan SSD.
Kemampuan keamanan
| Kemampuan | Fabric Lakehouse | Gudang Kain | Fabric Eventhouse | Fabric SQL Database | Azure SQL Database | Azure Cosmos DB | Analysis Services |
|---|---|---|---|---|---|---|---|
| Autentikasi | Microsoft Entra ID | Microsoft Entra ID | Microsoft Entra ID | Microsoft Entra ID | ID SQL atau Microsoft Entra | Pengguna database atau ID Microsoft Entra melalui kontrol akses (manajemen identitas dan akses) | Microsoft Entra ID |
| Enkripsi data saat istirahat | Ya | Ya | Ya | Ya | Yes1 | Ya | Ya |
| Keamanan tingkat baris | Ya | Ya | Ya | Ya | Ya | Tidak | Ya |
| Dudukungan firewall | Ya2 | Ya2 | Ya3 | Ya | Ya | Ya | Ya |
| Penyelubungan data dinamis | Ya4 | Ya4 | Tidak | Ya | Ya | Tidak | Tidak |
[1] Mengharuskan Anda menggunakan enkripsi data transparan untuk mengenkripsi dan mendekripsi data Anda saat tidak aktif.
[2] Private Links dan Entra Conditional Access dapat digunakan untuk membatasi akses ke sumber daya Fabric.
[3] Beban kerja Fabric Eventhouse dan Real-Time Intelligence dapat mengambil data dari sumber yang aman seperti Kafka, Azure Event Hubs, dan AMQP, dengan merutekan melalui titik akhir yang aman.
[4] Ini dapat diterapkan di Tingkat Titik Akhir Fabric SQL
Kontributor
Microsoft mempertahankan artikel ini. Kontributor berikut menulis artikel ini.
Penulis utama:
- Mohit Agarwal | Arsitek Solusi Cloud Utama
Untuk melihat profil LinkedIn nonpublik, masuk ke LinkedIn.
Langkah berikutnya
- Membawa Data Anda ke OneLake dengan Lakehouse
- Buat Gudang Kain
- Membuat Eventhouse
- Menganalisis data di gudang data relasional
- Membuat database tunggal di SQL Database
- Membuat ruang kerja Azure Databricks
- Menjelajahi database Azure dan layanan analitik
- Mengkueri Azure Cosmos DB dengan menggunakan API untuk NoSQL