Bagikan melalui


Menyinkronkan Azure Cosmos DB

Mirroring di Microsoft Fabric memberikan pengalaman tanpa ETL yang mulus untuk mengintegrasikan data Azure Cosmos DB yang ada dengan sisa data Anda di Microsoft Fabric untuk Pemrosesan Transaksional/Analitik Hibrid (HTAP) sejati dengan isolasi beban kerja lengkap antara sistem transaksional dan analitik. Data Azure Cosmos DB Anda terus direplikasi dalam waktu hampir nyata langsung ke Fabric OneLake, tanpa mengurangi performa pada beban kerja transaksional Anda atau menggunakan Request Units (RU).

Data di OneLake disimpan dalam format delta sumber terbuka dan secara otomatis tersedia untuk semua mesin analitik di Fabric.

Anda dapat menggunakan kemampuan Power BI bawaan untuk mengakses data di OneLake dalam mode DirectLake. Dengan peningkatan Copilot di Fabric, Anda dapat menggunakan kekuatan AI generatif untuk mendapatkan wawasan utama tentang data bisnis Anda. Selain Power BI, Anda dapat menggunakan T-SQL untuk menjalankan kueri agregat kompleks atau menggunakan Spark untuk eksplorasi data. Anda dapat mengakses data dengan mulus di notebook dan menggunakan ilmu data untuk membangun model pembelajaran mesin.

Penting

Saat ini, hanya Azure Cosmos DB untuk akun NoSQL yang didukung.

Mengapa menggunakan pencerminan di Fabric?

Dengan Mirroring in Fabric, Anda tidak perlu mengumpulkan layanan yang berbeda dari beberapa vendor. Sebagai gantinya, Anda dapat menikmati produk yang sangat terintegrasi, end-to-end, dan mudah digunakan yang dirancang untuk menyederhanakan kebutuhan analitik Anda dan dibangun untuk kebukaan.

Jika Anda mencari pelaporan atau analitik BI pada data operasional Anda di Azure Cosmos DB, pencerminan menyediakan:

  • Akses hemat biaya tanpa ETL ke data Azure Cosmos DB Anda hampir secara waktu nyata tanpa memengaruhi konsumsi request unit.
  • Kemudahan membawa data di berbagai sumber ke Fabric OneLake
  • Pengoptimalan tabel Delta dengan v-order untuk pembacaan secepat kilat
  • Integrasi satu klik dengan Power BI dengan Direct Lake dan Copilot
  • Wawasan bisnis yang kaya dengan menggabungkan data di berbagai sumber
  • Integrasi aplikasi yang lebih kaya untuk mengakses kueri dan tampilan

Data OneLake disimpan dalam format Delta Lake sumber terbuka, memungkinkan Anda menggunakannya dengan berbagai solusi di dalam dan di luar Microsoft. Format data ini membantu mempermudah pembangunan satu data estate untuk kebutuhan analitik Anda.

Pengalaman analitik apa yang sudah terintegrasi?

Database yang dicerminkan adalah item di Fabric Data Warehousing yang berbeda dari Gudang dan titik akhir analitik SQL.

Diagram Pencerminan Fabric untuk Azure Cosmos DB.

Setiap item Azure Cosmos DB yang dicerminkan menciptakan item-item ini yang dapat Anda gunakan untuk berinteraksi di ruang kerja Fabric Anda.

  • Item database yang dicerminkan. Pencerminan mengelola replikasi data ke OneLake dan konversi ke Parquet, dalam format siap analitik. Ini memungkinkan skenario hilir seperti rekayasa data, ilmu data, dan banyak lagi.
  • Titik akhir analitik SQL, yang dibuat secara otomatis

Database yang dicerminkan

Database yang dicerminkan menunjukkan status replikasi dan kontrol untuk menghentikan atau memulai replikasi di Fabric OneLake. Anda juga bisa menampilkan database sumber Anda, dalam mode baca-saja, menggunakan Azure Cosmos DB data explorer. Dengan menggunakan penjelajah data, Anda bisa menampilkan kontainer Anda di database Azure Cosmos DB sumber Anda dan mengkuerinya. Operasi ini menggunakan unit permintaan (RU) dari akun Azure Cosmos DB Anda. Setiap perubahan pada database sumber segera tercermin dalam tampilan database sumber Fabric. Menulis ke database sumber tidak diizinkan dari Fabric, karena Anda hanya dapat melihat data.

Ujung Analitik SQL

Setiap basis data cermin memiliki titik akhir analitik SQL yang dihasilkan secara otomatis yang memberikan pengalaman analitik yang kaya pada tabel Delta OneLake yang dibuat melalui proses pencerminan. Anda memiliki akses ke perintah T-SQL yang familier yang dapat menentukan dan mengkueri objek data tetapi tidak memanipulasi data dari titik akhir analitik SQL, karena ini adalah salinan baca-saja.

Anda dapat melakukan tindakan berikut di titik akhir analitik SQL:

  • Jelajahi tabel Delta Lake menggunakan T-SQL. Setiap tabel dipetakan ke kontainer dari database Azure Cosmos DB Anda.
  • Buat kueri dan tampilan tanpa kode dan jelajahi secara visual tanpa menulis baris kode.
  • Gabungkan dan jalankan kueri data di database yang dicerminkan, "Gudang", dan "Lakehouse" dalam ruang kerja yang sama.
  • Anda dapat dengan mudah memvisualisasikan dan membangun laporan BI berdasarkan kueri atau tampilan SQL.

Selain editor kueri SQL, ada ekosistem alat yang luas. Alat-alat ini termasuk ekstensi MSSQL untuk Visual Studio Code, SQL Server Management Studio (SSMS), dan bahkan GitHub Copilot. Anda dapat mengoptimalkan analisis dan pengembangan wawasan menggunakan alat pilihan Anda.

Model semantik

Anda dapat membuat Model Semantik Power BI pada database untuk memungkinkan metrik bisnis dibuat, dibagikan, dan digunakan kembali. Untuk informasi selengkapnya, lihat Buat model semantik Power BI.

Bagaimana cara kerja replikasi mendekati real-time?

Saat Anda mengaktifkan pencerminan pada database Azure Cosmos DB Anda, penyisipan, pembaruan, dan penghapusan operasi pada data pemrosesan transaksi online (OLTP) Anda secara terus-menerus direplikasi ke Fabric OneLake untuk keperluan analitik.

Fitur pencadangan berkelanjutan adalah prasyarat untuk pencerminan. Anda dapat mengaktifkan pencadangan berkelanjutan 7 hari atau 30 hari di akun Azure Cosmos DB Anda. Jika Anda mengaktifkan pencadangan berkelanjutan khusus untuk pencerminan data, disarankan untuk menggunakan pencadangan berkelanjutan selama 7 hari, karena layanan ini gratis.

Nota

Pencerminan tidak menggunakan penyimpanan analitik Azure Cosmos DB atau umpan perubahan sebagai sumber penangkapan perubahan data. Anda dapat terus menggunakan kemampuan ini secara independen, bersama dengan pencerminan.

Dibutuhkan beberapa menit untuk mereplikasi Data Azure Cosmos DB Anda ke Fabric OneLake. Bergantung pada rekam jepret awal data Anda atau frekuensi pembaruan/penghapusan, replikasi juga dapat memakan waktu lebih lama dalam beberapa kasus. Replikasi tidak memengaruhi unit permintaan (RU) yang Anda alokasikan untuk beban kerja transaksional Anda.

Apa yang diharapkan dari pencerminan

Ada beberapa pertimbangan dan skenario yang didukung yang perlu Anda ketahui sebelum melakukan pencerminan.

Pertimbangan penyiapan

Untuk mencerminkan database, database harus sudah disediakan dalam Azure. Anda harus mengaktifkan pencadangan berkelanjutan pada akun sebagai prasyarat.

  • Anda hanya dapat mencerminkan setiap database satu per satu. Anda dapat memilih database mana yang akan dicerminkan.
  • Anda dapat mereplikasi database yang sama beberapa kali dalam ruang kerja yang sama. Sebagai praktik terbaik, satu salinan database dapat digunakan kembali di seluruh lakehouse, gudang data, atau database cermin lainnya. Anda tidak perlu menyiapkan beberapa replikasi untuk database yang sama.
  • Anda juga dapat mereplikasi database yang sama di berbagai ruang kerja atau tenant Fabric.
  • Anda dapat memilih kontainer mana yang akan dicerminkan dalam database Anda.
  • Perubahan pada kontainer Azure Cosmos DB, seperti menambahkan kontainer baru dan menghapus kontainer yang ada, direplikasi dengan mulus ke Fabric. Anda dapat memulai replikasi pada database kosong tanpa kontainer, misalnya, dan replikasi tersebut akan dengan mulus mencakup kontainer yang ditambahkan di waktu yang lain.

Dukungan untuk data berlapis

Data berlapis ditampilkan sebagai string JSON dalam tabel titik akhir analitik SQL. Anda dapat menggunakan OPENJSON, CROSS APPLY, dan OUTER APPLY dalam kueri atau tampilan T-SQL untuk memperluas data ini secara selektif. Jika Anda menggunakan Power Query, Anda juga dapat menerapkan fungsi ToJson untuk memperluas data ini.

Melalui inferensi skema otomatis, data bersarang dapat diratakan melalui OPENJSON tanpa harus secara eksplisit menentukan skema bersarang. Ini sangat berguna untuk beban kerja dengan skema berlapis dinamis atau tidak dapat diprediksi. Untuk informasi selengkapnya, lihat cara mengkueri data berlapis.

Menangani perubahan skema

Pencerminan secara otomatis mereplikasi properti di seluruh item di Azure Cosmos DB, termasuk perubahan skema. Setiap properti baru yang ditemukan dalam item ditampilkan sebagai kolom baru dan properti yang hilang, jika ada, dinyatakan sebagai null dalam Fabric.

Jika Anda mengganti nama properti dalam item, tabel Fabric akan mempertahankan kolom lama dan baru. Kolom lama akan menampilkan null dan yang baru akan menampilkan nilai terbaru, untuk item apa pun yang direplikasi setelah operasi penggantian nama.

Jika Anda mengubah tipe data properti dalam item Azure Cosmos DB, perubahan didukung untuk tipe data yang kompatibel yang dapat dikonversi. Jika jenis data tidak kompatibel untuk konversi di Delta, jenis data tersebut direpresentasikan sebagai nilai null.

Tabel titik akhir analitik SQL mengonversi jenis data Delta menjadi jenis data T-SQL.

Nama kolom duplikat

Azure Cosmos DB mendukung nama kolom yang tidak peka terhadap penggunaan huruf besar/kecil, sesuai dengan standar JSON. Pencerminan mendukung nama kolom duplikat ini dengan menambahkan _n ke nama kolom, di mana n akan menjadi nilai numerik.

Misalnya, jika item Azure Cosmos DB memiliki addressName dan AddressName sebagai properti unik, tabel Fabric memiliki kolom addressName dan AddressName_1 yang sesuai. Untuk informasi selengkapnya, lihat batasan replikasi.

Dukungan untuk Beban Kerja AI

Azure Cosmos DB Mirroring mendukung akun yang menggunakan pencarian dan pengindeksan vektor, memungkinkan beban kerja AI dan pembelajaran mesin untuk memanfaatkan sepenuhnya analitik kuat Microsoft Fabric—sambil terus memanfaatkan kemampuan vektor berkinerja tinggi Azure Cosmos DB.

Untuk detail selengkapnya, jelajahi dokumentasi tentang Pencarian dan Pengindeksan Vektor untuk Cosmos DB dan Fabric Data Science dan Pengalaman AI.

Keamanan

Anda dapat tersambung ke akun sumber menggunakan Microsoft Entra ID dan kontrol akses berbasis peran atau kunci tingkat akun.

Jika Anda menggunakan kunci dan memutar atau meregenerasi kunci, Anda perlu memperbarui koneksi untuk memastikan replikasi berfungsi. Untuk informasi selengkapnya, lihat koneksi. Kunci akun tidak langsung terlihat oleh pengguna Fabric lain setelah koneksi disiapkan. Anda dapat membatasi siapa yang memiliki akses ke koneksi yang dibuat di Fabric. Penulisan tidak diperbolehkan ke database Azure Cosmos DB baik dari penjelajah data maupun dari titik akhir analitik dalam database cermin Anda. Pencerminan saat ini tidak mendukung autentikasi menggunakan kunci akun baca-saja.

Untuk autentikasi Microsoft Entra ID, izin RBAC berikut diperlukan: & . Untuk informasi selengkapnya, lihat dokumentasi kontrol akses berbasis peran bidang data.

Petunjuk / Saran

Setelah data direplikasi ke Fabric OneLake, Anda juga harus mengamankan akses ke data ini.

Fitur perlindungan data

Keamanan terperinci dapat dikonfigurasi dalam database cermin di Microsoft Fabric. Untuk informasi selengkapnya, lihat izin granular di Microsoft Fabric.

Anda dapat mengamankan filter kolom dan filter baris berbasis predikat pada tabel ke peran dan pengguna di Microsoft Fabric:

Anda juga dapat menutupi data sensitif dari pengguna non admin menggunakan masking data dinamis:

Keamanan jaringan

Akun Azure Cosmos DB dengan jaringan virtual atau titik akhir privat didukung pencerminan Fabric menggunakan fitur Network ACL Bypass. Ini memungkinkan ruang kerja Fabric resmi Anda untuk mengakses akun Cosmos DB tanpa memerlukan gateway data, sambil mempertahankan keamanan jaringan yang ditingkatkan. Untuk petunjuk konfigurasi terperinci, lihat Konfigurasi jaringan privat untuk Microsoft Fabric database cermin dari Azure Cosmos DB.

Saat ini, pencerminan tidak didukung kunci yang dikelola pelanggan (CMK) di OneLake.

Pemulihan bencana dan latensi replikasi

Di Fabric, Anda dapat menyebarkan konten ke pusat data di wilayah selain wilayah asal penyewa Fabric. Untuk informasi selengkapnya, silakan lihat dukungan multi-geo.

Untuk akun Azure Cosmos DB dengan wilayah tulis utama dan beberapa wilayah baca, pencerminan memilih wilayah baca Azure Cosmos DB paling dekat dengan wilayah tempat kapasitas Fabric dikonfigurasi. Pilihan ini membantu menyediakan replikasi berlatensi rendah untuk pencerminan.

Saat Anda mengalihkan akun Azure Cosmos DB Anda ke wilayah pemulihan, pencerminan secara otomatis memilih wilayah Azure Cosmos DB terdekat lagi.

Nota

Pencerminan tidak mendukung akun dengan beberapa wilayah tulis.

Data Cosmos DB Anda yang direplikasi ke OneLake perlu dikonfigurasi untuk menangani pemadaman di seluruh wilayah. Untuk informasi selengkapnya, lihat pemulihan bencana di OneLake.

Menjelajahi data Anda dengan mirroring

Anda dapat langsung melihat dan mengakses data yang disalin di OneLake. Anda juga dapat mengakses data terduplikasi dengan lancar tanpa perlu memindahkan data lebih lanjut.

Pelajari selengkapnya tentang cara mengakses OneLake menggunakan API ADLS Gen2 atau SDK, OneLake File explorer, dan Azure Storage explorer.

Anda dapat menyambungkan ke titik akhir analitik SQL dari alat seperti SQL Server Management Studio (SSMS) atau menggunakan driver seperti Microsoft Open Database Connectivity (ODBC) dan Java Database Connectivity (JDBC). Untuk informasi selengkapnya, lihat Konektivitas titik akhir analitik SQL.

Anda juga dapat mengakses data yang dicerminkan melalui layanan seperti:

  • layanan Azure seperti Azure Databricks, Azure HDInsight, atau Azure Synapse Analytics
  • Fabric Lakehouse menggunakan pintasan untuk skenario rekayasa data dan ilmu data
  • Database atau gudang cermin lainnya di ruang kerja Fabric

Anda juga dapat membangun solusi arsitektur medali, membersihkan dan mengubah data yang mendarat menjadi database cermin sebagai lapisan perunggu. Untuk informasi selengkapnya, lihat dukungan arsitektur medali di Fabric.

Pricing

Penggunaan Fabric Compute untuk mereplikasi data Cosmos DB Anda ke dalam Fabric OneLake gratis. Penyimpanan di OneLake bebas biaya berdasarkan ukuran kapasitas. Untuk informasi selengkapnya, lihat Harga OneLake untuk mirroring. Penggunaan komputasi untuk mengkueri data melalui SQL, Power BI, atau Spark masih dikenakan biaya berdasarkan Kapasitas Fabric.

Jika Anda menggunakan penjelajah data dalam pencerminan Fabric, biaya akan terakumulasi berdasarkan penggunaan unit permintaan (RU) untuk menjelajahi kontainer dan mengkueri item di database Azure Cosmos DB sumber. Fitur pencadangan berkelanjutan pada Azure Cosmos DB adalah prasyarat untuk pencerminan: Biaya standar untuk pencadangan berkelanjutan berlaku. Tidak ada biaya tambahan untuk pencerminan pada penagihan cadangan berkelanjutan. Untuk informasi selengkapnya, lihat harga Azure Cosmos DB.

Langkah selanjutnya