Co to jest magazynowanie danych w usłudze Microsoft Fabric?

Dotyczy: punkt końcowy analizy SQL i magazyn w usłudze Microsoft Fabric

Usługa Microsoft Fabric udostępnia klientom ujednolicony produkt, który zajmuje się każdym aspektem ich majątku danych, oferując kompletną platformę danych, analizy i sztucznej inteligencji SaaS, która jest skoncentrowana na środowisku typu lake i otwarta. Podstawy usługi Microsoft Fabric umożliwiają początkującym użytkownikom korzystanie z doświadczonych specjalistów w zakresie korzystania z obciążeń Database, Analytics, Messaging, Integracja danych i Business Intelligence dzięki rozbudowanym, łatwym w użyciu środowisku SaaS w usłudze Microsoft OneLake jako centralnym elementem.

Oparte na jeziorze środowisko SaaS utworzone dla dowolnego poziomu umiejętności

Usługa Microsoft Fabric wprowadza magazyn danych skoncentrowany na środowisku typu lake oparty na akompaniacie przetwarzania rozproszonego klasy korporacyjnej, który zapewnia wiodącą w branży wydajność na dużą skalę, eliminując konieczność konfiguracji i zarządzania. Dzięki łatwemu użyciu środowiska SaaS, które jest ściśle zintegrowane z usługą Power BI w celu łatwej analizy i raportowania, magazyn w usłudze Microsoft Fabric łączy świat magazynów i magazynów danych w celu znacznego uproszczenia inwestycji w zasoby analityczne organizacji. Obciążenia magazynowania danych korzystają z rozbudowanych możliwości aparatu SQL w otwartym formacie danych, dzięki czemu klienci mogą skupić się na przygotowaniu, analizie i raportowaniu danych w ramach pojedynczej kopii danych przechowywanych w usłudze Microsoft OneLake.

Magazyn jest tworzony dla dowolnego poziomu umiejętności — od dewelopera obywatela do profesjonalnego dewelopera, administratora bazy danych lub inżyniera danych. Bogaty zestaw środowisk wbudowanych w obszar roboczy usługi Microsoft Fabric umożliwia klientom skrócenie czasu na szczegółowe informacje dzięki łatwemu w użyciu, zawsze połączonemu modelowi semantycznemu zintegrowanemu z usługą Power BI w trybie DirectLake. Umożliwia to uzyskanie wiodącej w branży wydajności od drugiej do żadnej, co zapewnia, że raport klienta zawsze zawiera najnowsze dane do analizy i raportowania. Wykonywanie zapytań między bazami danych można wykorzystać do szybkiego i bezproblemowego używania wielu źródeł danych obejmujących wiele baz danych w celu uzyskania szybkich szczegółowych informacji i zerowej duplikacji danych.

Magazyny wirtualne z wykonywaniem zapytań między bazami danych

Usługa Microsoft Fabric zapewnia klientom możliwość tworzenia magazynów wirtualnych zawierających dane z praktycznie dowolnego źródła przy użyciu skrótów. Klienci mogą tworzyć magazyn wirtualny, tworząc skróty do danych, gdziekolwiek się znajdują. Magazyn wirtualny może składać się z danych z usługi OneLake, Usługi Azure Data Lake Storage lub dowolnego innego magazynu dostawcy usług w chmurze w ramach jednej granicy i bez duplikowania danych.

Bezproblemowo odblokuj wartość z różnych źródeł danych za pomocą bogactwa zapytań między bazami danych w usłudze Microsoft Fabric. Wykonywanie zapytań między bazami danych umożliwia klientom szybkie i bezproblemowe korzystanie z wielu źródeł danych w celu szybkiego wglądu w szczegółowe informacje i bez duplikowania danych. Dane przechowywane w różnych źródłach można łatwo połączyć, umożliwiając klientom dostarczanie szczegółowych informacji, które wcześniej wymagały znacznego nakładu pracy zespołów ds. integracji danych i inżynierów.

Zapytania obejmujące wiele baz danych można tworzyć za pomocą edytora zapytań wizualnych, który oferuje ścieżkę bez kodu do szczegółowych informacji w wielu tabelach. Edytor zapytań SQL lub inne znane narzędzia, takie jak SQL Server Management Studio (SSMS), mogą również służyć do tworzenia zapytań obejmujących wiele baz danych.

Autonomiczne zarządzanie obciążeniami

Magazyny w usłudze Microsoft Fabric korzystają z wiodącego w branży aparatu przetwarzania zapytań rozproszonych, który zapewnia klientom obciążenia, które mają naturalną granicę izolacji. Nie ma pokrętła, które można włączyć z autonomiczną alokacją i zrezygnować z zasobów, aby zapewnić najlepszą wydajność w rasie z wbudowaną automatyczną skalą i współbieżnością. Prawdziwa izolacja jest osiągana przez oddzielenie obciążeń z różnymi cechami, dzięki czemu zadania ETL nigdy nie zakłócają wykonywania analiz ad hoc i raportowania obciążeń.

Otwarty format na potrzeby bezproblemowego współdziałania aparatu

Dane w magazynie są przechowywane w formacie pliku parquet i publikowane jako dzienniki usługi Delta Lake, umożliwiając transakcje ACID i współdziałanie między aparatami, które mogą być używane za pośrednictwem innych obciążeń usługi Microsoft Fabric, takich jak Spark, Pipelines, Power BI i Azure Data Explorer. Klienci nie muszą już tworzyć wielu kopii swoich danych, aby umożliwić specjalistom ds. danych różne zestawy umiejętności. Inżynierowie danych, którzy są przyzwyczajeni do pracy w języku Python, mogą łatwo używać tych samych danych, które zostały modelowane i obsługiwane przez specjalistę magazynu danych, który jest przyzwyczajony do pracy w języku SQL. Równolegle specjaliści ds. analizy biznesowej mogą szybko i łatwo używać tych samych danych, aby utworzyć bogaty zestaw wizualizacji w usłudze Power BI z rekordową wydajnością i bez duplikowania danych.

Rozdzielenie magazynu i zasobów obliczeniowych

Zasoby obliczeniowe i magazyn są oddzielone w magazynie, co umożliwia klientom skalowanie niemal natychmiast w celu spełnienia wymagań firmy. Dzięki temu wiele aparatów obliczeniowych może odczytywać z dowolnego obsługiwanego źródła magazynu z niezawodnymi zabezpieczeniami i pełnymi gwarancjami transakcyjnymi ACID.

Łatwe pozyskiwanie, ładowanie i przekształcanie na dużą skalę

Dane można pozyskiwać do magazynu za pomocą potoków, przepływów danych, wykonywania zapytań między bazami danych lub polecenia COPY INTO. Po pozyskiwaniu dane mogą być analizowane przez wiele grup biznesowych za pomocą funkcji, takich jak udostępnianie i wykonywanie zapytań między bazami danych. Czas wglądu w szczegółowe dane jest przyspieszany za pośrednictwem w pełni zintegrowanego środowiska analizy biznesowej za pomocą graficznego modelowania danych, łatwego w użyciu środowiska internetowego do wykonywania zapytań w edytorze magazynu.

Elementy magazynowania danych w usłudze Microsoft Fabric

Istnieją dwa odrębne elementy magazynowania danych: punkt końcowy analizy SQL w usłudze Lakehouse i Magazyn.

Punkt końcowy analizy SQL usługi Lakehouse

Punkt końcowy analizy SQL to magazyn, który jest automatycznie generowany na podstawie usługi Lakehouse w usłudze Microsoft Fabric. Klient może przejść z widoku "Lake" usługi Lakehouse (która obsługuje inżynierię danych i platformę Apache Spark) do widoku "SQL" tego samego usługi Lakehouse. Punkt końcowy analizy SQL jest tylko do odczytu, a dane można modyfikować tylko za pomocą widoku "Lake" usługi Lakehouse przy użyciu platformy Spark.

Za pośrednictwem punktu końcowego analizy SQL usługi Lakehouse użytkownik ma podzbiór poleceń SQL, które mogą definiować obiekty danych i wykonywać względem niego zapytania, ale nie manipulować danymi. Następujące akcje można wykonać w punkcie końcowym analizy SQL:

  • Wykonywanie zapytań względem tabel odwołujących się do danych w folderach usługi Delta Lake w usłudze Lake.
  • Tworzenie widoków, wbudowanych funkcji TVF i procedur w celu hermetyzacji semantyki i logiki biznesowej w języku T-SQL.
  • Zarządzanie uprawnieniami do obiektów.

W obszarze roboczym usługi Microsoft Fabric punkt końcowy analizy SQL ma etykietę "Punkt końcowy analizy SQL" w kolumnie Typ . Każdy lakehouse ma automatycznie wygenerowany punkt końcowy analizy SQL, który można wykorzystać za pomocą znanych narzędzi SQL, takich jak SQL Server Management Studio, Azure Data Studio, Microsoft Fabric SQL Edytor Power Query.

Zrzut ekranu przedstawiający typ punktu końcowego analizy SQL w obszarze roboczym.

Aby rozpocząć pracę z punktem końcowym analizy SQL, zobacz Better together: the lakehouse and warehouse in Microsoft Fabric (Lepsze razem: magazyn lakehouse i magazyn w usłudze Microsoft Fabric).

Magazyn danych usługi Synapse

W obszarze roboczym usługi Microsoft Fabric magazyn danych usługi Synapse lub Magazyn jest oznaczony jako "Warehouse" w kolumnie Typ . Magazyn obsługuje transakcje, zapytania DDL i DML.

Zrzut ekranu przedstawiający typ magazynu w obszarze roboczym.

W przeciwieństwie do punktu końcowego analizy SQL, który obsługuje tylko zapytania tylko do odczytu i tworzenie widoków i plików TVFs, magazyn ma pełną obsługę języka DDL transakcyjnego i DML i jest tworzony przez klienta. Magazyn jest wypełniany przez jedną z obsługiwanych metod pozyskiwania danych, takich jak COPY INTO, Pipelines, Dataflows lub cross database ingestion options, np. CREATE TABLE AS SELECT (CTAS), INSERT.. WYBIERZ LUB WYBIERZ DO.

Aby rozpocząć pracę z magazynem, zobacz Tworzenie magazynu w usłudze Microsoft Fabric.

Porównanie magazynu i punktu końcowego analizy SQL usługi Lakehouse

W tej sekcji opisano różnice między punktem końcowym magazynu i analizy SQL w usłudze Microsoft Fabric.

Diagram obszaru roboczego Sieć szkieletowa na potrzeby magazynowania danych, w tym punkt końcowy analizy SQL i magazyn.

Punkt końcowy analizy SQL to magazyn tylko do odczytu, który jest generowany automatycznie podczas tworzenia z usługi Lakehouse w usłudze Microsoft Fabric. Tabele różnicowe tworzone za pośrednictwem platformy Spark w usłudze Lakehouse są automatycznie wykrywalne w punkcie końcowym analizy SQL jako tabele. Punkt końcowy analizy SQL umożliwia inżynierom danych utworzenie warstwy relacyjnej na podstawie danych fizycznych w usłudze Lakehouse i uwidocznienie ich w narzędziach do analizy i raportowania przy użyciu parametry połączenia SQL. Analitycy danych mogą następnie używać języka T-SQL do uzyskiwania dostępu do danych usługi Lakehouse przy użyciu usługi Synapse Data Warehouse. Użyj punktu końcowego analizy SQL, aby zaprojektować magazyn na potrzeby analizy biznesowej i obsługiwać dane.

Magazyn danych usługi Synapse lub Warehouse to "tradycyjny" magazyn danych i obsługuje pełne transakcyjne możliwości języka T-SQL, takie jak magazyn danych przedsiębiorstwa. W przeciwieństwie do punktu końcowego analizy SQL, w którym tabele i dane są tworzone automatycznie, masz pełną kontrolę nad tworzeniem tabel, ładowaniem, przekształcaniem i wykonywaniem zapytań dotyczących danych w magazynie danych przy użyciu portalu usługi Microsoft Fabric lub poleceń języka T-SQL.

Aby uzyskać więcej informacji na temat wykonywania zapytań dotyczących danych w usłudze Microsoft Fabric, zobacz Query the SQL analytics endpoint or Warehouse in Microsoft Fabric (Wykonywanie zapytań dotyczących punktu końcowego analizy SQL lub magazynu w usłudze Microsoft Fabric).

Porównanie różnych możliwości magazynowania

Aby najlepiej obsługiwać przypadki użycia analizy, dostępne są różne możliwości. Ogólnie rzecz biorąc, magazyn może być uważany za nadzbiór wszystkich innych możliwości, zapewniając synergistyczną relację między wszystkimi innymi ofertami analitycznymi, które zapewniają język T-SQL.

W sieci szkieletowej istnieją użytkownicy, którzy mogą potrzebować zdecydować między magazynem, usługą Lakehouse, a nawet magazynem danych usługi Power BI.

Oferta usługi Microsoft Fabric

Magazyn

Punkt końcowy analizy SQL usługi Lakehouse

Datamart w usłudze Power BI


Licencjonowanie

Sieć szkieletowa lub usługa Power BI Premium

Sieć szkieletowa lub usługa Power BI Premium

Tylko usługa Power BI Premium


Podstawowe możliwości

Zgodne ze standardem ACID pełne magazynowanie danych z obsługą transakcji w języku T-SQL.

Tylko do odczytu, system wygenerował punkt końcowy analizy SQL dla usługi Lakehouse na potrzeby wykonywania zapytań i obsługi języka T-SQL. Obsługuje analizy w tabelach delty usługi Lakehouse oraz foldery usługi Delta Lake, do których odwołuje się skróty.

Magazynowanie danych bez kodu i wykonywanie zapytań T-SQL


Profil dewelopera

Deweloperzy sql lub deweloperzy obywateli

inżynierowie danych lub deweloperzy SQL

Tylko deweloper obywatel


Zalecany przypadek użycia

  • Magazyn danych do użytku w przedsiębiorstwie
  • Magazyn danych obsługi działu, jednostki biznesowej lub korzystania z samoobsługi
  • Analiza danych strukturalnych w języku T-SQL z tabelami, widokami, procedurami i funkcjami oraz zaawansowaną obsługą języka SQL dla analizy biznesowej
  • Eksplorowanie i wykonywanie zapytań dotyczących tabel różnicowych z lakehouse
  • Dane przejściowe i strefa archiwalna na potrzeby analizy
  • Medallion lakehouse architektura ze strefami do analizy brązu, srebra i złota
  • Parowanie z magazynem na potrzeby przypadków użycia analizy przedsiębiorstwa
  • Małe przypadki użycia magazynowania działów lub jednostek biznesowych
  • Przypadki użycia samoobsługowego magazynowania danych
  • Strefa docelowa dla przepływów danych usługi Power BI i prosta obsługa języka SQL dla analizy biznesowej

Środowisko programistyczne

  • Edytor magazynu z pełną obsługą pozyskiwania danych T-SQL, modelowania, programowania i wykonywania zapytań w interfejsie użytkownika na potrzeby pozyskiwania, modelowania i wykonywania zapytań dotyczących danych
  • Obsługa odczytu/zapisu dla narzędzi 1 i innych firm
  • Punkt końcowy analizy SQL usługi Lakehouse z ograniczoną obsługą języka T-SQL dla widoków, funkcji wartości tabeli i zapytań SQL
  • Środowiska interfejsu użytkownika do modelowania i wykonywania zapytań
  • Ograniczona obsługa języka T-SQL dla narzędzi 1 i innych firm
  • Edytor Datamart z obsługą środowisk interfejsu użytkownika i zapytań
  • Środowiska interfejsu użytkownika na potrzeby pozyskiwania danych, modelowania i wykonywania zapytań
  • Obsługa tylko do odczytu dla narzędzi 1 i innych firm

Możliwości języka T-SQL

Pełna obsługa języka DQL, DML i DDL języka T-SQL, pełna obsługa transakcji

Pełna obsługa języka DQL, brak DML, ograniczona obsługa języka T-SQL języka DDL, takich jak widoki SQL i pliki TVF

Tylko pełne DQL


Ładowanie danych

SQL, potoki, przepływy danych

Spark, potoki, przepływy danych, skróty

Tylko przepływy danych


Obsługa tabeli różnicowej

Odczytuje i zapisuje tabele różnicowe

Odczytuje tabele różnicowe

NA


Warstwa magazynu

Otwieranie formatu danych — delta

Otwieranie formatu danych — delta

NA


Automatycznie wygenerowany schemat w punkcie końcowym analizy SQL usługi Lakehouse

Punkt końcowy analizy SQL zarządza automatycznie wygenerowanymi tabelami, aby użytkownicy obszaru roboczego nie mogli ich modyfikować. Użytkownicy mogą wzbogacić model bazy danych, dodając własne schematy SQL, widoki, procedury i inne obiekty bazy danych.

Dla każdej tabeli delty w usłudze Lakehouse punkt końcowy analizy SQL automatycznie generuje jedną tabelę.

Tabele w punkcie końcowym analizy SQL są tworzone z opóźnieniem. Po utworzeniu lub zaktualizowaniu folderu/tabeli usługi Delta Lake w usłudze Lake tabela magazynu odwołująca się do danych lake nie zostanie natychmiast utworzona/odświeżona. Zmiany zostaną zastosowane w magazynie po upływie 5–10 sekund.

Aby uzyskać informacje o automatycznie wygenerowanych typach danych schematu dla punktu końcowego analizy SQL, zobacz Typy danych w usłudze Microsoft Fabric.