Dublowanie usługi Azure Cosmos DB (wersja zapoznawcza)

2025-05-07

Replikacja w Microsoft Fabric zapewnia płynne doświadczenie bez ETL, umożliwiające zintegrowanie istniejących danych z Azure Cosmos DB z pozostałymi danymi w Microsoft Fabric. Dane w Azure Cosmos DB są stale replikowane bezpośrednio do usługi Fabric OneLake niemal w czasie rzeczywistym, bez wpływu na wydajność obciążeń transakcyjnych ani zużycia jednostek żądań (RU).

Dane w usłudze OneLake są przechowywane w formacie open-source delta i automatycznie udostępniane wszystkim aparatom analitycznym na platformie Fabric.

Wbudowane funkcje usługi Power BI umożliwiają uzyskiwanie dostępu do danych w usłudze OneLake w trybie DirectLake. Dzięki Copilot ulepszeniom w usłudze Fabric możesz użyć możliwości generowania sztucznej inteligencji, aby uzyskać kluczowe szczegółowe informacje na temat danych biznesowych. Oprócz usługi Power BI można używać języka T-SQL do uruchamiania złożonych zagregowanych zapytań lub używania platformy Spark do eksploracji danych. Możesz bezproblemowo uzyskiwać dostęp do danych w notesach i używać nauki o danych do tworzenia modeli uczenia maszynowego.

Ważne

Odwzorowywanie dla usługi Azure Cosmos DB jest obecnie dostępne w wersji zapoznawczej. Obciążenia produkcyjne nie są obsługiwane w wersji zapoznawczej. Obecnie obsługiwane są tylko konta usługi Azure Cosmos DB for NoSQL.

Dlaczego warto używać mirroringu w sieci Fabric?

Przy użyciu Mirroring w Fabric, nie trzeba łączyć różnych usług od wielu dostawców. Zamiast tego możesz korzystać z wysoce zintegrowanego, kompleksowego i łatwego w użyciu produktu, który został zaprojektowany, aby uprościć potrzeby analizy i zbudowany z myślą o otwartości.

Jeśli szukasz raportów analizy biznesowej lub analizy danych operacyjnych w usłudze Azure Cosmos DB, dublowanie zapewnia:

Brak ETL, kosztowo efektywny, prawie w czasie rzeczywistym dostęp do danych Azure Cosmos DB bez wpływu na zużycie jednostek żądania
Łatwość noszenia danych między różnymi źródłami w usłudze Fabric OneLake
Optymalizacje tabeli delta z porządkiem V dla błyskawicznego odczytu
Integracja jednym kliknięciem z Power BI za pomocą Direct Lake i Copilot
Rozbudowane szczegółowe informacje biznesowe dzięki dołączaniu danych do różnych źródeł
Bogatsza integracja aplikacji w celu uzyskiwania dostępu do zapytań i widoków

Dane usługi OneLake są przechowywane w formacie usługi Delta Lake typu open source, co umożliwia używanie ich z różnymi rozwiązaniami w firmie Microsoft i poza nią. Ten format danych ułatwia tworzenie pojedynczego majątku danych dla potrzeb analitycznych.

Jakie rozwiązania analityczne są wbudowane?

Zmirorowane bazy danych są elementem w Fabric Data Warehousing, odrębnym od magazynu i punktu końcowego analiz SQL.

Diagram dublowania sieci szkieletowej dla usługi Azure Cosmos DB.

Każda lustrzana baza danych Azure Cosmos DB ma trzy elementy, z którymi można wchodzić w interakcję w obszarze roboczym Fabric.

Element zmirrorowanej bazy danych. Odwzorowywanie zarządza replikacją danych do OneLake i konwersją na Parquet w formacie gotowym do analiz. Umożliwia to wykonywanie scenariuszy podrzędnych, takich jak inżynieria danych, nauka o danych i nie tylko.
Punkt końcowy analizy SQL, który jest generowany automatycznie
Domyślny model semantyczny, który jest generowany automatycznie

Dublowana baza danych

Dublowana baza danych pokazuje stan replikacji oraz kontrolki, które mają zatrzymać lub uruchomić replikację w usłudze Fabric OneLake. Możesz również wyświetlić źródłową bazę danych w trybie tylko do odczytu przy użyciu Eksploratora danych usługi Azure Cosmos DB. Za pomocą Eksploratora danych możesz wyświetlać kontenery w źródłowej bazie danych usługi Azure Cosmos DB i wykonywać względem nich zapytania. Te operacje zużywają jednostki żądań (RU) z konta usługi Azure Cosmos DB. Wszelkie zmiany źródłowej bazy danych są natychmiast odzwierciedlane w widoku źródłowej bazy danych w Fabric. Zapisywanie w źródłowej bazie danych nie jest dozwolone z poziomu Fabric, ponieważ można jedynie przeglądać dane.

Punkt końcowy analizy SQL

Każda zreplikowana baza danych ma automatycznie wygenerowany punkt analiz SQL, który zapewnia bogate środowisko analityczne oparte na tabelach Delta OneLake utworzonych przez proces replikacji. Masz dostęp do znanych poleceń języka T-SQL, które mogą definiować obiekty danych i wykonywać względem niego zapytania, ale nie manipulować danymi z punktu końcowego analizy SQL, ponieważ jest to kopia tylko do odczytu.

Następujące akcje można wykonać w punkcie końcowym analizy SQL:

Eksplorowanie tabel usługi Delta Lake przy użyciu języka T-SQL. Każda tabela jest mapowana na kontener z bazy danych usługi Azure Cosmos DB.
Tworzenie zapytań i widoków bez kodu oraz eksplorowanie ich wizualnie bez konieczności pisania wiersza kodu.
Dołączaj i przesyłaj zapytania dotyczące danych w innych lustrzanych bazach danych, magazynach danych i Lakehouse'ach w tym samym obszarze roboczym.
Raporty analizy biznesowej można łatwo wizualizować i tworzyć na podstawie zapytań LUB widoków SQL.

Oprócz edytora zapytań SQL istnieje szeroki ekosystem narzędzi. Te narzędzia obejmują rozszerzenie mssql z programem Visual Studio Code, programem SQL Server Management Studio (SSMS), a nawet usługą GitHub Copilot. Możesz wzmocnić analizę i generowanie wniosków z wybranego narzędzia.

Model semantyczny

Domyślny model semantyczny to automatycznie aprowizowany model semantyczny usługi Power BI. Ta funkcja umożliwia tworzenie, udostępnianie i ponowne używanie metryk biznesowych. Aby uzyskać więcej informacji, zobacz semantyczne modele.

Jak działa replikacja niemal w czasie rzeczywistym?

Gdy włączysz dublowanie w bazie danych Azure Cosmos DB, operacje wstawiania, aktualizowania i usuwania danych przetwarzania transakcji online (OLTP) są ciągle replikowane do usługi Fabric OneLake na potrzeby analizy.

Funkcja ciągłej kopii zapasowej jest wymaganiem wstępnym do dublowania. Możesz włączyć 7-dniową lub 30-dniową ciągłą kopię zapasową na koncie usługi Azure Cosmos DB. Jeśli włączasz ciągłą kopię zapasową specjalnie na potrzeby dublowania, zalecane jest wykonywanie 7-dniowej ciągłej kopii zapasowej, ponieważ jest to bezpłatne.

Uwaga

Dublowanie nie używa magazynu analitycznego ani zestawienia zmian usługi Azure Cosmos DB jako źródła przechwytywania danych zmian. Możesz dalej używać tych funkcji niezależnie, wraz z mirrorowaniem.

Replikacja danych usługi Azure Cosmos DB do usługi Fabric OneLake może potrwać kilka minut. W zależności od początkowej migawki danych lub częstotliwości aktualizacji/usuwania replikacja może również trwać dłużej w niektórych przypadkach. Replikacja nie ma wpływu na jednostki zapytań przydzielone dla obciążeń transakcyjnych.

Czego można oczekiwać od dublowania

Przed replikacją należy wziąć pod uwagę kilka zagadnień i obsługiwanych scenariuszy.

Zagadnienia dotyczące konfiguracji

Aby zdublować bazę danych, należy ją już aprowizować na platformie Azure. Musisz włączyć ciągłą kopię zapasową na koncie jako wymaganie wstępne.

W danym momencie można lustrzać każdą bazę danych tylko pojedynczo. Możesz wybrać bazę danych do dublowania.
Tę samą bazę danych można dublować wiele razy w tym samym obszarze roboczym. Najlepszym rozwiązaniem jest ponowne użycie pojedynczej kopii bazy danych w magazynach typu lakehouse, magazynach lub innych dublowanych bazach danych. Nie powinno się konfigurować wielu luster do tej samej bazy danych.
Tę samą bazę danych można również replikować między różnymi obszarami roboczymi lub dzierżawami Fabric.
Możesz wybrać kontenery do replikowania w swojej bazie danych.
Zmiany w kontenerach usługi Azure Cosmos DB, takie jak dodawanie nowych kontenerów i usuwanie istniejących, są bezproblemowo replikowane do sieci szkieletowej. Możesz rozpocząć dublowanie pustej bazy danych bez kontenerów, na przykład, a dublowanie bezproblemowo pobiera kontenery dodane w późniejszym punkcie w czasie.

Obsługa zagnieżdżonych danych

Zagnieżdżone dane są wyświetlane jako ciąg JSON w tabelach punktów końcowych analizy SQL. Do selektywnego rozszerzania tych danych można używać OPENJSON, CROSS APPLY i OUTER APPLY w zapytaniach lub widokach języka T-SQL. Jeśli używasz dodatku Power Query, możesz również zastosować funkcję ToJson w celu rozwinięcia tych danych.

Dzięki automatycznemu wnioskowaniu schematu zagnieżdżone dane można spłaszczać poprzez OPENJSON bez konieczności wyraźnego definiowania zagnieżdżonego schematu. Jest to szczególnie przydatne dla obciążeń z dynamicznymi lub nieprzewidywalnymi zagnieżdżonymi schematami. Aby uzyskać więcej informacji, zobacz jak wykonywać zapytania dotyczące zagnieżdżonych danych.

Uwaga

Warstwa ma ograniczenie dotyczące kolumn tekstowych o rozmiarze 8 KB. Aby uzyskać więcej informacji i nasze obecne rozwiązanie obejściowe, zapoznaj się z Ograniczeniami magazynu danych.

Obsługa zmian schematu

Odwzorowanie automatycznie replikuje właściwości w poprzek elementów usługi Azure Cosmos DB, łącznie ze zmianami schematu. Wszystkie nowe właściwości odnalezione w elemencie są wyświetlane jako nowe kolumny, a brakujące właściwości , jeśli istnieją, są reprezentowane jako null w sieci szkieletowej.

Jeśli zmienisz nazwę właściwości w elemencie, tabele Fabric zachowają zarówno stare, jak i nowe kolumny. Stara kolumna będzie zawierać wartość null, a nowa będzie zawierać najnowszą wartość dla wszystkich elementów replikowanych po operacji zmiany nazwy.

W przypadku zmiany typu danych właściwości w elementach usługi Azure Cosmos DB zmiany są obsługiwane w przypadku zgodnych typów danych, które można przekonwertować. Jeśli typy danych nie są zgodne z konwersją w funkcji Delta, są one reprezentowane jako wartości null.

Punkty końcowe SQL Analytics konwertują typy danych Delta na typy danych T-SQL.

Zduplikowane nazwy kolumn

Usługa Azure Cosmos DB obsługuje nazwy kolumn bez uwzględniania wielkości liter na podstawie standardu JSON. Funkcja odzwierciedlania obsługuje te zduplikowane nazwy kolumn, dodając _n do nazwy kolumny, gdzie n jest wartością liczbową.

Na przykład, jeśli element usługi Azure Cosmos DB ma addressName i AddressName jako unikatowe właściwości, tabele mają odpowiednie kolumny addressName i AddressName_1. Aby uzyskać więcej informacji, zobacz Ograniczenia replikacji.

Obsługa obciążeń sztucznej inteligencji

Mirroring w usłudze Azure Cosmos DB obsługuje konta korzystające z wyszukiwania wektorów i indeksowania, dzięki czemu obciążenia sztucznej inteligencji i uczenia maszynowego mogą w pełni korzystać z zaawansowanych analiz usługi Microsoft Fabric, jednocześnie wykorzystując wysoką wydajność wektorową platformy Azure Cosmos DB.

Aby uzyskać więcej informacji, zapoznaj się z dokumentacją dotyczącą wyszukiwania wektorów i indeksowania dla usług Cosmos DB i Fabric Data Science and AI Experiences.

Zabezpieczenia

Możesz nawiązać połączenie ze źródłem konta przy użyciu identyfikatora Microsoft Entra ID i kontroli dostępu opartej na rolach lub kluczy na poziomie konta.

Jeśli używasz kluczy i obracasz lub ponownie generujesz klucze, musisz zaktualizować połączenia, aby upewnić się, że replikacja działa. Aby uzyskać więcej informacji, zobacz połączenia. Klucze konta nie są bezpośrednio widoczne dla innych użytkowników sieci Szkieletowej po skonfigurowaniu połączenia. Możesz ograniczyć, kto ma dostęp do połączeń utworzonych w usłudze Fabric. Zapisy nie są dozwolone w bazie danych usługi Azure Cosmos DB z eksploratora danych lub punktu końcowego analizy w dublowanej bazie danych. Mirroring nie obsługuje obecnie uwierzytelniania przy użyciu kluczy konta o uprawnieniach tylko do odczytu.

W przypadku uwierzytelniania Microsoft Entra ID wymagane są następujące uprawnienia RBAC: Microsoft.DocumentDB/databaseAccounts/readMetadata & Microsoft.DocumentDB/databaseAccounts/readAnalytics. Aby uzyskać więcej informacji, zobacz dokumentację kontroli dostępu opartej na rolach płaszczyzny danych.

Wskazówka

Gdy dane są replikowane do usługi Fabric OneLake, należy również zabezpieczyć dostęp do tych danych.

Funkcje ochrony danych

Szczegółowe zabezpieczenia można skonfigurować w dublowanej bazie danych w usłudze Microsoft Fabric. Aby uzyskać więcej informacji, zobacz szczegółowe uprawnienia w usłudze Microsoft Fabric.

Filtry kolumn oraz filtry wierszy oparte na predykatach można przypisać do ról i użytkowników w usłudze Microsoft Fabric.

Możesz również maskować poufne dane od użytkowników niebędących administratorami przy użyciu dynamicznego maskowania danych:

Dynamiczne maskowanie danych w magazynowaniu danych w Fabric

Bezpieczeństwo sieci

Obecnie dublowanie nie obsługuje prywatnych punktów końcowych ani kluczy zarządzanych przez klienta (CMK) w usłudze OneLake. Dublowanie nie jest obsługiwane w przypadku kont usługi Azure Cosmos DB z konfiguracjami zabezpieczeń sieci mniej permissywnymi niż wszystkie sieci, przy użyciu punktów końcowych usługi, używania prywatnych punktów końcowych, adresów IP ani innych ustawień, które mogą ograniczyć dostęp do sieci publicznej do konta. Konta usługi Azure Cosmos DB powinny być otwarte dla wszystkich sieci do pracy z dublowaniem.

Odzyskiwanie po awarii i opóźnienie replikacji

W Fabric można wdrożyć zawartość w centrach danych w obrębie regionów innych niż region macierzysty dzierżawy. Aby uzyskać więcej informacji, zobacz Obsługa wielu regionów geograficznych.

W przypadku konta usługi Azure Cosmos DB z podstawowym regionem zapisu i wieloma regionami odczytu funkcja mirroringu wybiera region odczytu usługi Azure Cosmos DB najbliżej regionu, w którym skonfigurowano pojemność Fabric. Ten wybór pomaga zapewnić replikację o małych opóźnieniach na potrzeby dublowania.

Po przełączeniu konta usługi Azure Cosmos DB do regionu odzyskiwania funkcja dublowania automatycznie wybiera najbliższy region usługi Azure Cosmos DB ponownie.

Uwaga

Dublowanie nie obsługuje kont z wieloma regionami zapisu.

Dane usługi Cosmos DB replikowane do usługi OneLake muszą być skonfigurowane do obsługi awarii w całym regionie. Aby uzyskać więcej informacji, zobacz Odzyskiwanie po awarii w usłudze OneLake.

Eksplorowanie danych za pomocą dublowania

Zmirrorowane dane można wyświetlać bezpośrednio i uzyskiwać dostęp do nich w usłudze OneLake. Możesz również bezproblemowo uzyskiwać dostęp do zmirrorowanych danych bez dalszego przenoszenia danych.

Dowiedz się więcej na temat uzyskiwania dostępu do usługi OneLake przy użyciu interfejsów API lub zestawu SDK usługi ADLS Gen2, Eksploratora plików usługi OneLake i Eksploratora usługi Azure Storage.

Możesz nawiązać połączenie z punktem końcowym analizy SQL za pomocą narzędzi, takich jak SQL Server Management Studio (SSMS) lub używając sterowników, takich jak Microsoft Open Database Connectivity (ODBC) i Java Database Connectivity (JDBC). Aby uzyskać więcej informacji, zobacz Łączność punktów końcowych analizy SQL.

Dostęp do danych dublowanych można również uzyskać za pomocą usług, takich jak:

Usługi platformy Azure, takie jak Azure Databricks, Azure HDInsight lub Azure Synapse Analytics
Korzystanie z Fabric Lakehouse przy użyciu skrótów w scenariuszach inżynierii danych i nauki o danych
Inne zreplikowane bazy danych lub magazyny w obszarze roboczym Fabric

Możesz również tworzyć rozwiązania architektury medalionu, czyścić i przekształcać dane przybywające do zreplikowanej bazy danych jako warstwa brązu. Aby uzyskać więcej informacji, zobacz wsparcie dla architektury medalionu w Fabric.

Cennik

Zasoby obliczeniowe sieci szkieletowej używane do replikowania danych usługi Cosmos DB do usługi Fabric OneLake są bezpłatne. Przechowywanie w OneLake jest bezpłatne zależnie od rozmiaru pojemności. Aby uzyskać więcej informacji, zobacz Cennik usługi OneLake na potrzeby dublowania. Użycie zasobów obliczeniowych do wykonywania zapytań dotyczących danych za pośrednictwem usług SQL, Power BI lub Spark jest nadal naliczane na podstawie pojemności sieci szkieletowej.

Jeśli korzystasz z Eksploratora Danych w mirrorowaniu Fabric, typowe koszty są naliczane na podstawie użycia jednostek żądań (RU) podczas eksploracji kontenerów i wykonywania zapytań dotyczących elementów w źródłowej bazie danych Azure Cosmos DB. Funkcja ciągłej kopii zapasowej usługi Azure Cosmos DB jest wymaganiem wstępnym do dublowania: obowiązują standardowe opłaty za ciągłą kopię zapasową. Nie są naliczane dodatkowe opłaty za mirrorowanie w ramach ciągłych rozliczeń kopii zapasowej. Aby uzyskać więcej informacji, zobacz Cennik usługi Azure Cosmos DB.

Następny krok

Samouczek: konfigurowanie replikowanych baz danych Microsoft Fabric z Azure Cosmos DB (wersja zapoznawcza)

Udostępnij za pośrednictwem

Dublowanie usługi Azure Cosmos DB (wersja zapoznawcza)

Dlaczego warto używać mirroringu w sieci Fabric?

Jakie rozwiązania analityczne są wbudowane?

Dublowana baza danych

Punkt końcowy analizy SQL

Model semantyczny

Jak działa replikacja niemal w czasie rzeczywistym?

Czego można oczekiwać od dublowania

Zagadnienia dotyczące konfiguracji

Obsługa zagnieżdżonych danych

Obsługa zmian schematu

Zduplikowane nazwy kolumn

Obsługa obciążeń sztucznej inteligencji

Zabezpieczenia

Funkcje ochrony danych

Bezpieczeństwo sieci

Odzyskiwanie po awarii i opóźnienie replikacji

Eksplorowanie danych za pomocą dublowania

Cennik

Następny krok

Powiązana zawartość

Opinia

Dodatkowe zasoby