Udostępnij za pośrednictwem


Lepsze razem: jezioro i magazyn

Dotyczy: punkt końcowy analizy SQL i magazyn w usłudze Microsoft Fabric

W tym artykule wyjaśniono obciążenie magazynowania danych za pomocą punktu końcowego analizy SQL usługi Lakehouse oraz scenariusze użycia usługi Lakehouse w magazynowaniu danych.

Co to jest punkt końcowy analizy SQL usługi Lakehouse?

W usłudze Fabric po utworzeniu magazynu magazyn jest tworzony automatycznie.

Punkt końcowy analizy SQL umożliwia wykonywanie zapytań dotyczących danych w usłudze Lakehouse przy użyciu języka T-SQL i protokołu TDS. Każda usługa Lakehouse ma jeden punkt końcowy analizy SQL, a każdy obszar roboczy może mieć więcej niż jeden magazyn lakehouse. Liczba punktów końcowych analizy SQL w obszarze roboczym jest zgodna z liczbą elementów usługi Lakehouse.

  • Punkt końcowy analizy SQL jest generowany automatycznie dla każdego usługi Lakehouse i uwidacznia tabele delta z usługi Lakehouse jako tabele SQL, które można wykonywać zapytania przy użyciu języka T-SQL.
  • Każda tabela różnicowa z usługi Lakehouse jest reprezentowana jako jedna tabela. Dane powinny być w formacie różnicowym.
  • Domyślny model semantyczny usługi Power BI jest tworzony dla każdego punktu końcowego analizy SQL i jest zgodny z konwencją nazewnictwa obiektów usługi Lakehouse.

Nie ma potrzeby tworzenia punktu końcowego analizy SQL w usłudze Microsoft Fabric. Użytkownicy usługi Microsoft Fabric nie mogą utworzyć punktu końcowego analizy SQL w obszarze roboczym. Punkt końcowy analizy SQL jest tworzony automatycznie dla każdego usługi Lakehouse. Aby uzyskać punkt końcowy analizy SQL, utwórz usługę Lakehouse i punkt końcowy analizy SQL zostanie automatycznie utworzony dla usługi Lakehouse.

Uwaga

W tle punkt końcowy analizy SQL używa tego samego aparatu, co magazyn do obsługi zapytań SQL o wysokiej wydajności i małych opóźnieniach.

Automatyczne odnajdywanie metadanych

Bezproblemowy proces odczytuje dzienniki różnicowe i z folderu plików oraz zapewnia, że metadane SQL dla tabel, takich jak statystyki, są zawsze aktualne. Nie jest wymagana żadna akcja użytkownika i nie trzeba importować, kopiować danych ani konfigurować infrastruktury. Aby uzyskać więcej informacji, zobacz Automatycznie wygenerowany schemat w punkcie końcowym analizy SQL.

Scenariusze, w których usługa Lakehouse umożliwia magazynowanie danych

W usłudze Fabric oferujemy jeden magazyn.

Usługa Lakehouse z punktem końcowym analizy SQL obsługiwanym przez magazyn może uprościć tradycyjne drzewo decyzyjne wzorców architektury partii, przesyłania strumieniowego lub lambda. Wraz z magazynem usługa Lakehouse umożliwia korzystanie z wielu scenariuszy analizy addytywnej. W tej sekcji opisano sposób używania usługi Lakehouse razem z magazynem w celu uzyskania najlepszej strategii analizy rasy.

Analiza ze złotą warstwą usługi Fabric Lakehouse

Jedną z dobrze znanych strategii organizacji danych typu lake jest architektura medalionu, w której pliki są zorganizowane w nieprzetworzonych (brązowych), skonsolidowanych (srebrnych) i wyrafinowanych (złotych) warstwach. Punkt końcowy analizy SQL może służyć do analizowania danych w złotej warstwie architektury medalionu, jeśli pliki są przechowywane w Delta Lake formacie, nawet jeśli są przechowywane poza usługą Microsoft Fabric OneLake.

Skróty oneLake umożliwiają odwołowanie się do folderów gold na zewnętrznych kontach usługi Azure Data Lake Storage zarządzanych przez aparaty usługi Synapse Spark lub Azure Databricks.

Magazyny można również dodawać jako rozwiązania dotyczące dziedziny lub domeny dla konkretnych zagadnień, które mogą mieć wymagania dotyczące analizy na zamówienie.

Jeśli zdecydujesz się zachować dane w sieci szkieletowej, zawsze będzie ona otwarta i dostępna za pośrednictwem interfejsów API, formatu delta i oczywiście języka T-SQL.

Wykonywanie zapytań jako usługi za pośrednictwem tabel różnicowych z usługi Lakehouse i innych elementów z centrum danych OneLake

Istnieją przypadki użycia, w których analityk, analityk danych lub inżynier danych może wymagać wykonywania zapytań dotyczących danych w usłudze Data Lake. W usłudze Fabric to kompleksowe środowisko jest całkowicie saaSified.

OneLake to jedno, ujednolicone, logiczne jezioro danych dla całej organizacji. OneLake to usługa OneDrive dla danych. Usługa OneLake może zawierać wiele obszarów roboczych, na przykład wzdłuż działów organizacyjnych. Każdy element w usłudze Fabric sprawia, że dane są dostępne za pośrednictwem usługi OneLake.

Dane w usłudze Microsoft Fabric Lakehouse są fizycznie przechowywane w usłudze OneLake z następującą strukturą folderów:

  • Folder /Files zawiera nieprzetworzone i niekonsolidowane (brązowe) pliki, które powinny być przetwarzane przez inżynierów danych przed ich przeanalizowaniem. Pliki mogą być w różnych formatach, takich jak CSV, Parquet, różne typy obrazów itp.
  • Folder /Tables zawiera uściślione i skonsolidowane (złote) dane, które są gotowe do analizy biznesowej. Skonsolidowane dane są w formacie usługi Delta Lake.

Punkt końcowy analizy SQL może odczytywać dane w /tables folderze w usłudze OneLake. Analiza jest tak prosta, jak wykonywanie zapytań względem punktu końcowego analizy SQL usługi Lakehouse. Wraz z magazynem uzyskujesz również zapytania obejmujące wiele baz danych i możliwość bezproblemowego przełączania się z zapytań tylko do odczytu do tworzenia dodatkowej logiki biznesowej na podstawie danych usługi OneLake za pomocą usługi Synapse Data Warehouse.

inżynierowie danych za pomocą platformy Spark i obsługa przy użyciu języka SQL

Przedsiębiorstwa oparte na danych muszą zachować swoje systemy zaplecza i analizy niemal w czasie rzeczywistym z aplikacjami dostępnymi dla klientów. Wpływ transakcji musi odzwierciedlać dokładnie przez kompleksowe procesy, powiązane aplikacje i systemy przetwarzania transakcji online (OLTP).

W sieci szkieletowej możesz użyć przesyłania strumieniowego platformy Spark lub inżynierowie danych do curate danych. Punkt końcowy analizy SQL usługi Lakehouse umożliwia weryfikowanie jakości danych i istniejących procesów języka T-SQL. Można to zrobić w architekturze medalonu lub w wielu warstwach lakehouse, służąc brązu, srebra, złota lub inscenizacji, wyselekcjonowanych i wyrafinowanych danych. Możesz dostosować foldery i tabele utworzone za pomocą platformy Spark, aby spełnić wymagania inżynieryjne i biznesowe. Gdy wszystko będzie gotowe, magazyn może obsługiwać wszystkie podrzędne aplikacje analizy biznesowej i inne przypadki użycia analizy, bez kopiowania danych, przy użyciu widoków lub uściślania danych przy użyciu CREATE TABLE AS SELECT (CTAS), procedur składowanych i innych poleceń DML/DDL.

Integracja ze złotą warstwą usługi Open Lakehouse

Punkt końcowy analizy SQL nie jest zakresem analizy danych tylko w usłudze Fabric Lakehouse. Punkt końcowy analizy SQL umożliwia analizowanie danych typu lake w dowolnej usłudze Lakehouse, przy użyciu platformy Synapse Spark, usługi Azure Databricks lub dowolnego innego aparatu inżynierii danych skoncentrowanej na środowisku typu lake. Dane mogą być przechowywane w usłudze Azure Data Lake Storage lub Amazon S3.

Ścisła, dwukierunkowa integracja z usługą Fabric Lakehouse jest zawsze dostępna za pośrednictwem dowolnego aparatu z otwartymi interfejsami API, formatem delta i oczywiście językiem T-SQL.

Wirtualizacja danych zewnętrznych magazynów danych ze skrótami

Skróty OneLake umożliwiają odwołowanie się do folderów gold na zewnętrznych kontach usługi Azure Data Lake Storage zarządzanych przez aparaty usługi Synapse Spark lub Azure Databricks, a także dowolnej tabeli różnicowej przechowywanej w usłudze Amazon S3.

Dowolny folder, do którego odwołuje się skrót, można analizować z punktu końcowego analizy SQL, a tabela SQL jest tworzona dla przywoływałych danych. Tabela SQL może służyć do uwidaczniania danych w zarządzanych zewnętrznie magazynach data lake i włączania na nich analiz.

Ten skrót działa jako magazyn wirtualny, który może korzystać z magazynu w celu uzyskania dodatkowych wymagań analizy podrzędnej lub zapytań bezpośrednio.

Wykonaj następujące kroki, aby analizować dane na zewnętrznych kontach magazynu typu data lake:

  1. Utwórz skrót, który odwołuje się do folderu w usłudze Azure Data Lake Storage lub na koncie usługi Amazon S3. Po wprowadzeniu szczegółów połączenia i poświadczeń w usłudze Lakehouse zostanie wyświetlony skrót.
  2. Przejdź do punktu końcowego analizy SQL usługi Lakehouse i znajdź tabelę SQL zawierającą nazwę zgodną z nazwą skrótu. Ta tabela SQL odwołuje się do folderu w folderze ADLS/S3.
  3. Wykonaj zapytanie względem tabeli SQL, która odwołuje się do danych w usłudze ADLS/S3. Tabela może być używana jako dowolna inna tabela w punkcie końcowym analizy SQL. Tabele odwołujące się do danych można łączyć na różnych kontach magazynu.

Uwaga

Jeśli tabela SQL nie jest natychmiast wyświetlana w punkcie końcowym analizy SQL, może być konieczne odczekenie kilku minut. Tabela SQL, która odwołuje się do danych na zewnętrznym koncie magazynu, jest tworzona z opóźnieniem.

Analizowanie zarchiwizowanych lub historycznych danych w usłudze Data Lake

Partycjonowanie danych to dobrze znana technika optymalizacji dostępu do danych w magazynach data lake. Partycjonowane zestawy danych są przechowywane w strukturach folderów hierarchicznych w formacie /year=<year>/month=<month>/day=<day>, gdzie year, monthi day są kolumnami partycjonowania. Dzięki temu można przechowywać dane historyczne logicznie oddzielone w formacie, który umożliwia aparatom obliczeniowym odczytywanie danych zgodnie z potrzebami przy wydajnym filtrowaniu, a także odczytywanie całego katalogu i wszystkich zawartych w nich folderów i plików.

Partycjonowane dane umożliwiają szybszy dostęp, jeśli zapytania filtrują predykaty, które porównują kolumny predykatu z wartością.

Punkt końcowy analizy SQL może łatwo odczytać tego typu dane bez konieczności konfigurowania. Na przykład można użyć dowolnej aplikacji do archiwizowania danych w usłudze Data Lake, w tym programu SQL Server 2022 lub usługi Azure SQL Managed Instance. Po partycjonowaniu danych i wylądowaniu ich w jeziorze do celów archiwalnych z tabelami zewnętrznymi punkt końcowy analizy SQL może odczytywać partycjonowane tabele usługi Delta Lake jako tabele SQL i umożliwić organizacji ich analizowanie. Zmniejsza to całkowity koszt posiadania, zmniejsza duplikowanie danych i włącza dane big data, sztuczną inteligencję, inne scenariusze analityczne.

Wirtualizacja danych sieci szkieletowej ze skrótami

W ramach sieci szkieletowej obszary robocze umożliwiają segregowanie danych na podstawie złożonych wymagań biznesowych, geograficznych lub regulacyjnych.

Punkt końcowy analizy SQL umożliwia pozostawienie danych w miejscu i analizowanie danych w magazynie lub lakehouse, nawet w innych obszarach roboczych usługi Microsoft Fabric za pośrednictwem bezproblemowej wirtualizacji. Każda usługa Microsoft Fabric Lakehouse przechowuje dane w usłudze OneLake.

Skróty umożliwiają odwołują się do folderów w dowolnej lokalizacji oneLake.

Każdy magazyn usługi Microsoft Fabric Przechowuje dane tabeli w usłudze OneLake. Jeśli tabela jest tylko dołączana, dane tabeli są uwidocznione jako dane usługi Delta Lake w usłudze OneLake. Skróty umożliwiają odwołują się do folderów w dowolnym elemencie OneLake, w którym są widoczne tabele magazynu.

Współużytkowanie i wykonywanie zapytań między obszarami roboczymi

Chociaż obszary robocze umożliwiają segregowanie danych na podstawie złożonych wymagań biznesowych, geograficznych lub regulacyjnych, czasami trzeba ułatwić udostępnianie tych wierszy dla określonych potrzeb analitycznych.

Punkt końcowy analizy SQL usługi Lakehouse umożliwia łatwe udostępnianie danych między działami i użytkownikami, gdzie użytkownik może przynieść własną pojemność i magazyn. Obszary robocze organizują działy, jednostki biznesowe lub domeny analityczne. Za pomocą skrótów użytkownicy mogą znaleźć dowolne dane magazynu lub usługi Lakehouse. Użytkownicy mogą natychmiast wykonywać własne dostosowane analizy na podstawie tych samych udostępnionych danych. Oprócz pomocy w przypadku obciążeń zwrotnych działu i alokacji użycia, jest to również wersja zerowa kopiowania danych.

Punkt końcowy analizy SQL umożliwia wykonywanie zapytań dotyczących dowolnej tabeli i łatwe udostępnianie. Dodano mechanizmy kontroli ról obszaru roboczego i ról zabezpieczeń, które można dodatkowo warstwować w celu spełnienia dodatkowych wymagań biznesowych.

Aby włączyć analizę danych między obszarami roboczymi, wykonaj następujące czynności:

  1. Utwórz skrót OneLake odwołujący się do tabeli lub folderu w obszarze roboczym, do którego można uzyskać dostęp.
  2. Wybierz usługę Lakehouse lub Warehouse zawierającą tabelę lub folder usługi Delta Lake, który chcesz przeanalizować. Po wybraniu tabeli/folderu w usłudze Lakehouse zostanie wyświetlony skrót.
  3. Przejdź do punktu końcowego analizy SQL usługi Lakehouse i znajdź tabelę SQL, która ma nazwę zgodną z nazwą skrótu. Ta tabela SQL odwołuje się do folderu w innym obszarze roboczym.
  4. Wykonaj zapytanie względem tabeli SQL, która odwołuje się do danych w innym obszarze roboczym. Tabela może być używana jako dowolna inna tabela w punkcie końcowym analizy SQL. Tabele odwołujące się do danych w różnych obszarach roboczych można łączyć.

Uwaga

Jeśli tabela SQL nie jest natychmiast wyświetlana w punkcie końcowym analizy SQL, może być konieczne odczekenie kilku minut. Tabela SQL, która odwołuje się do danych w innym obszarze roboczym, jest tworzona z opóźnieniem.

Analizowanie danych partycjonowanych

Partycjonowanie danych to dobrze znana technika optymalizacji dostępu do danych w magazynach data lake. Partycjonowane zestawy danych są przechowywane w strukturach folderów hierarchicznych w formacie /year=<year>/month=<month>/day=<day>, gdzie year, monthi day są kolumnami partycjonowania. Partycjonowane zestawy danych umożliwiają szybszy dostęp do danych, jeśli zapytania filtrują dane przy użyciu predykatów filtrujących dane, porównując kolumny predykatu z wartością.

Punkt końcowy analizy SQL może reprezentować partycjonowane zestawy danych usługi Delta Lake jako tabele SQL i umożliwić ich analizowanie.