Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Usługa Microsoft Fabric oferuje wiele opcji magazynowania przeznaczonych do obsługi analizy, przetwarzania w czasie rzeczywistym i raportowania operacyjnego w ujednoliconej platformie. Wybór odpowiedniego środowiska magazynu ułatwia optymalizowanie wydajności, zarządzanie kosztami i dopasowywanie architektury danych do wymagań dotyczących obciążeń. Niezależnie od źródła lub metody przygotowywania wszystkie dane trafiają do zunifikowanej bazy przechowywania o nazwie OneLake.
W tym artykule wyjaśniono, jak dane są przechowywane w Fabric i opisano dostępne podstawowe doświadczenia przechowywania. W poniższych sekcjach omówiono:
- OneLake — zunifikowane, logiczne jezioro danych, które stanowi podstawę wszystkich obciążeń Fabric.
- Lakehouse — przechowywanie i analizowanie danych ze strukturą i bez struktury przy użyciu tabel delty.
- Warehouse — przechowywanie danych relacyjnych zoptymalizowanych pod kątem analizy SQL o wysokiej wydajności.
- Eventhouse — wysokowydajne przechowywanie i przeszukiwanie danych o zdarzeniach w czasie rzeczywistym.
- Bazy danych i inne doświadczenia przechowywania — poznaj dodatkowe możliwości magazynu dostępne w ramach Fabricu.
Skorzystaj z tego przeglądu, aby zrozumieć, jak działa każda opcja magazynu, i wybrać najlepsze rozwiązanie dla scenariuszy analitycznych i operacyjnych.
Usługa Lakehouse do elastycznego magazynu danych
Lakehouse to podstawowy element magazynowania w usłudze Fabric, który używa OneLake do przechowywania danych zarówno w formatach plików, jak i tabel. Usługa Lakehouse reprezentuje nadzorowaną strukturę folderów w usłudze OneLake i zawiera interfejs SQL. Usługa Lakehouse przechowuje dane jako pliki Delta Parquet. Można organizować pliki pierwotne, takie jak pliki CSV lub obrazy, w folderach i tworzyć zarządzane tabele Delta dla danych strukturyzowanych. Ten model obsługuje zarówno dane ustrukturyzowane, jak i nieustrukturyzowane w tym samym środowisku.
Fabric automatycznie aprowizuje punkt końcowy analizy SQL dla każdego Lakehouse. Ty i narzędzia, takie jak Usługa Power BI, mogą wykonywać zapytania dotyczące tabel delty przy użyciu języka Transact-SQL, tak jak w przypadku wykonywania zapytań względem relacyjnej bazy danych. Usługa Lakehouse łączy skalowalność i elastyczność usługi Data Lake z podstawowymi możliwościami magazynu, w tym bezpośrednim wykonywaniem zapytań dotyczących tabel i zarządzaniem schematami.
Magazyn do analizy ustrukturyzowanej
Magazyn w Fabric zapewnia tradycyjne środowisko magazynu danych SQL (z tabelami, widokami SQL, procedurami składowanymi i nie tylko) w ujednoliconym magazynie Fabric. Podczas tworzenia magazynu, dane są przechowywane w usłudze OneLake w formacie Delta jako zorganizowany zestaw tabel Delta z interfejsem ANSI SQL. Magazyn zapewnia dedykowane zasoby obliczeniowe i zoptymalizowaną wydajność do obsługi złożonych zapytań SQL oraz obciążeń w stylu BI (Business Intelligence). Obsługuje funkcje, takie jak indeksowanie, procedury składowane i niezawodne transakcje ACID w tabelach.
Data Warehouse i Lakehouse współużytkują ten sam bazowy magazyn OneLake. Można je zintegrować przy użyciu skrótów lub innych funkcji współdziałania w razie potrzeby. Jednak zazwyczaj są one oddzielone dla różnych przypadków użycia. Hurtownia danych jest idealna do przechowywania strukturalnych, relacyjnych danych w schemacie gwiazdowym, które wymagają przetwarzania i analizy z użyciem języka SQL. Potoki Fabric pozwalają na ładowanie danych do magazynu. Usługa Power BI może łączyć się przy użyciu usługi Direct Lake lub DirectQuery w celu pobrania danych bez importowania.
Przewodnik po decyzjach: Lakehouse vs. Warehouse
Magazyny i Lakehouse'y pełnią odrębne, ale uzupełniające role.
Magazyny są zoptymalizowane pod kątem magazynowania danych w skali przedsiębiorstwa z pełną obsługą języka T-SQL, transakcjami ACID i silnym wymuszaniem schematu — idealne do analizy biznesowej i raportowania. Wybierz zarządzany magazyn dla obciążeń SQL o wysokiej wydajności i usługi Lakehouse na potrzeby przetwarzania big data, analizy eksploracyjnej i scenariuszy obejmujących różne formaty danych lub integrację z zewnętrznym jeziorem danych.
Usługa Lakehouses oferuje elastyczny, skalowalny magazyn zarówno dla danych ze strukturą, jak i bez struktury, obsługując inżynierię danych opartą na platformie Spark i analizę SQL tylko do odczytu za pośrednictwem automatycznych punktów końcowych.
Wiele organizacji korzysta z obu tych rozwiązań: usługa Lakehouses do pozyskiwania i transformacji oraz magazyny na potrzeby wyrafinowanej analizy i raportowania. Aby dowiedzieć się więcej, zobacz przewodnik po decyzjach.
Lustrzane bazy danych do replikacji niemal w czasie rzeczywistym
Dublowana baza danych w usłudze Fabric to stale replikowana kopia zewnętrznej operacyjnej bazy danych, takiej jak Azure SQL Database, SQL Server, Azure Cosmos DB lub Snowflake. Platforma Fabric przechowuje dane lustrzane w OneLake w formacie Delta Lake.
Mirrorowanie synchronizuje zmiany źródła z Fabric niemal w czasie rzeczywistym bez konieczności użycia tradycyjnych potoków wyodrębniania, transformacji i ładowania (ETL). Po replikacji dane stają się natychmiast dostępne do zapytań za pośrednictwem punktów końcowych SQL i są dostępne w ramach obciążeń Fabric, w tym w usłudze Power BI, notebookach Spark i potokach.
Ta architektura obsługuje hybrydowe scenariusze przetwarzania transakcyjnego i analitycznego (HTAP), w których analizujesz dane operacyjne przy zachowaniu integralności systemu źródłowego. Jeśli dane źródłowe są już przechowywane w lokalizacji dostępnej za pośrednictwem skrótów usługi OneLake (takich jak usługa Azure Data Lake Storage lub inny obszar roboczy usługi Fabric), rozważ użycie skrótów do dostępu bez kopiowania zamiast dublowania. Mirroring najlepiej nadaje się do operacyjnych baz danych, które wymagają ciągłego przechwytywania danych o zmianach, podczas gdy skróty dostępu są idealne, gdy potrzebujesz bieżącego dostępu tylko do odczytu bez replikacji.
Skróty oneLake na potrzeby dostępu do danych bez kopiowania
Skróty OneLake to linki logiczne odwołujące się do danych w zewnętrznych systemach przechowywania danych lub w innych obszarach roboczych Fabric bez kopiowania. Skróty sprawiają, że odwołania do danych są wyświetlane jako część lokalnej przestrzeni nazw OneLake, więc wszystkie aparaty obliczeniowe Fabric (Spark, SQL, Power BI) mogą wysyłać zapytania do docelowych lokalizacji skrótów obok danych natywnych. Takie podejście utrzymuje jedną spójną wersję danych i unika powielania przechowywania danych.
Możesz również użyć udostępniania danych usługi OneLake, aby rozszerzyć dostęp skrótów przez granice dzierżaw Microsoft Entra. Właściciele danych udzielają usłudze OneLake uprawnień dla zewnętrznych tożsamości, a odbiorcy tworzą skróty do udostępnionych danych we własnych obszarach roboczych. Polityki zarządzania pozostają stosowane w źródle. Aby uzyskać więcej informacji, zobacz OneLake shortcuts and external data sharing (Skróty oneLake i udostępnianie danych zewnętrznych).
Eventhouse na potrzeby analizy zdarzeń w czasie rzeczywistym
Usługa Eventhouse udostępnia skalowalne środowisko analityczne w czasie rzeczywistym przeznaczone do pozyskiwania, przechowywania i analizowania dużych ilości danych zdarzeń. To podstawowy silnik obciążeń związanych z analizą Inteligencji w czasie rzeczywistym.
Jednostka Eventhouse hostuje jedną lub więcej baz danych używających języka zapytań Kusto, opartych na silniku Kusto. Te bazy danych automatycznie indeksuje i partycjonuje dane według czasu pozyskiwania. Zapytujesz dane przy użyciu języka Kusto.
Eventhouse jest dobrze przystosowany do telemetrii, dzienników zabezpieczeń, rekordów zgodności i transakcji finansowych, gdzie wymagana jest analiza wykonywana w trybie niskiego opóźnienia oraz przetwarzanie na dużą skalę.
Baza danych SQL dla obciążeń transakcyjnych
Bazy danych SQL w platformie Fabric obsługują obciążenia transakcyjne i analitykę operacyjną. Zapewniają one w pełni zarządzane środowisko relacyjnej bazy danych z obsługą języka T-SQL, w tym funkcji definicji danych (DDL), manipulowania (DML) i wykonywania zapytań (DQL). Do tworzenia rozwiązań transakcyjnych i analitycznych można użyć procedur składowanych, widoków i funkcji.
Bazy danych SQL używają usługi automatycznego dublowania do replikowania tabel transakcyjnych do usługi OneLake na potrzeby analizy. Podczas tworzenia bazy danych SQL, Fabric uruchamia aparat replikacji, który przechwytuje operacje wstawiania, aktualizowania i usuwania za pośrednictwem kanału zmian w aparacie SQL i zapisuje te zmiany w OneLake jako pliki Delta Parquet. Replikacja odbywa się niemal w czasie rzeczywistym i jest uruchamiana automatycznie. Wszystkie obsługiwane tabele są domyślnie odzwierciedlone. To zachowanie gwarantuje, że kopia OneLake pozostaje zsynchronizowana z operacyjną bazą danych.
Bazy danych SQL integrują się z innymi środowiskami usługi Fabric, takimi jak Power BI, notesy, funkcje użytkownika związane z danymi, potoki i narzędzia zewnętrzne za pośrednictwem protokołu TDS. Ta integracja umożliwia tworzenie kompleksowego rozwiązania — od pozyskiwania i przekształcania danych do wizualizacji i raportowania bez opuszczania środowiska sieci szkieletowej. Platforma automatycznie obsługuje indeksowanie i optymalizację wydajności, więc nie trzeba ręcznie dostrajać infrastruktury ani zarządzać nią.
Usługa Cosmos DB dla rozproszonych obciążeń NoSQL
Usługa Cosmos DB w usłudze Microsoft Fabric to w pełni zarządzana rozproszona baza danych NoSQL przeznaczona dla aplikacji o wysokiej przepływności i globalnie rozproszonych. Obsługuje elastyczne modele schematów i częściowo ustrukturyzowane dane JSON.
Cosmos DB jest automatycznie replikowana w OneLake w formacie Delta, aby wspierać analizy bez wpływania na wydajność operacyjną. Replikacja jest ciągła i niemal w czasie rzeczywistym i nie wymaga ręcznej konfiguracji.
Po replikacji dane stają się dostępne za pośrednictwem punktu końcowego analizy SQL. Można wykonywać zapytania na danych za pomocą języka Transact-SQL, tworzyć widoki i integrować je z usługą Power BI, notebookami i potokami.
Punkt końcowy analizy SQL udostępnia interfejs tylko do odczytu z danych lustrzanych, aby zapytania analityczne nie ingerowały w operacje transakcyjne. Ta architektura obsługuje hybrydowe przetwarzanie transakcyjne i analityczne (HTAP), dzięki czemu można ujednolicić obciążenia operacyjne i analityczne w ramach jednej platformy.
Semantyczny model logiki biznesowej i raportowania
Modele semantyczne zapewniają ustrukturyzowaną, wyselekcjonowaną warstwę, która definiuje logikę biznesową, miary, hierarchie, relacje i metadane na podstawie nieprzetworzonych danych w usłudze Microsoft Fabric. Tworzą one możliwość interpretowania danych i wielokrotnego użytku na platformie na potrzeby środowisk analitycznych.
Modele semantyczne w usłudze Fabric są ściśle zintegrowane z modelem pojemności platformy i strukturą obszaru roboczego. Modele semantyczne obsługują trzy tryby zapytań: Import, DirectQuery i Direct Lake. Każdy tryb oferuje różne kompromisy między wydajnością, świeżością i skalowalnością:
Tryb importu kopiuje dane ze źródła do modelu semantycznego podczas zaplanowanych lub ręcznych odświeżeń. Ten tryb zapewnia najszybszą wydajność zapytań, ponieważ usługa Power BI działa na danych w pamięci, ale wprowadza opóźnienia między aktualizacjami źródłowymi i widocznością raportu. Tryb importu jest idealny dla pulpitów nawigacyjnych o wysokiej wydajności, w których dane w czasie rzeczywistym nie są krytyczne.
Tryb DirectQuery bezpośrednio wysyła zapytania do systemu źródłowego podczas działania, bez przechowywania danych w modelu semantycznym. Takie podejście zapewnia aktualne wyniki, ale może prowadzić do wolniejszego działania w zależności od reakcji systemu źródłowego. Tryb DirectQuery jest odpowiedni w scenariuszach, w których świeżość danych jest ważniejsza niż szybkość, na przykład raportowanie operacyjne.
Tryb Direct Lake umożliwia usłudze Power BI wykonywanie zapytań dotyczących tabel różnicowych przechowywanych bezpośrednio w usłudze OneLake. Łączy ona charakterystykę wydajności Importu ze świeżością DirectQuery. Pozwala uniknąć duplikowania danych i używa architektury natywnej typu lake do skalowalnej analizy niemal w czasie rzeczywistym. Direct Lake jest zalecany w przypadku analizy na dużą skalę na danych zarządzanych przez Fabric.
Modele semantyczne umożliwiają również konwersacyjną sztuczną inteligencję, wyszukiwanie semantyczne, raportowanie korporacyjne i analizowanie między domenami, łącząc zaawansowane funkcje, takie jak Agenci Danych Fabric, Power BI Copilot, Ontologie i raporty usługi Power BI. Użytkownicy biznesowi mogą również uzyskiwać dostęp do modeli semantycznych za pośrednictwem programu Excel, gdzie mogą eksplorować dane i szczegółowe informacje w interfejsie tabeli przestawnej, który korzysta z danych na żywo z modelu semantycznego.
Przewodnik po decyzjach: wybieranie odpowiedniego magazynu danych
Usługa Microsoft Fabric udostępnia wiele opcji magazynu danych, z których każda jest zoptymalizowana pod kątem określonych obciążeń:
- Lakehouse do inżynierii danych na dużą skalę i otwartego formatu magazynowania, takiego jak Delta i Iceberg, z obsługą silników Spark i SQL.
- Magazyn danych z funkcjami SQL o wysokiej wydajności, do analiz strukturalnych i relacyjnych oraz raportowania korporacyjnego.
- Usługa Eventhouse na potrzeby telemetrii i analizy dzienników w czasie rzeczywistym przy użyciu języka zapytań Kusto.
- Baza danych SQL na potrzeby obciążeń transakcyjnych i analizy operacyjnej.
- Usługa Cosmos DB dla globalnie rozproszonych aplikacji NoSQL, aplikacji wielomodelowych z dostępem o małych opóźnieniach.
- Skróty OneLake zapewniają dostęp typu zero-copy do danych przechowywanych w magazynie zewnętrznym lub w innych obszarach roboczych oraz dzierżawach usługi Fabric, kiedy nie jest potrzebna oddzielna kopia i chcesz utrzymać jedną wersję prawdy.
Wybór odpowiedniego magazynu zależy od struktury danych, wymagań dotyczących opóźnień, złożoności zapytań i potrzeb integracji. Gdy potrzebne dane już istnieją w dostępnej lokalizacji, skróty mogą całkowicie wyeliminować potrzebę replikacji. Aby uzyskać więcej wskazówek, zobacz Wybieranie odpowiedniego sklepu.