Kompleksowe scenariusze usługi Lakehouse: omówienie i architektura

Microsoft Fabric to rozwiązanie do analizy "wszystko w jednym" dla przedsiębiorstw, które obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym i analizy biznesowej. Oferuje kompleksowy zestaw usług, w tym usług data lake, inżynierii danych i integracji danych, w jednym miejscu. Aby uzyskać więcej informacji, zobacz Co to jest usługa Microsoft Fabric?

W tym samouczku przedstawiono kompleksowe scenariusze pozyskiwania danych do użycia danych. Pomaga to w tworzeniu podstawowego zrozumienia usługi Fabric, w tym różnych środowisk i sposobu ich integracji, a także profesjonalnych i obywatelskich środowisk deweloperów, które są dostarczane z pracą nad tą platformą. Ten samouczek nie jest przeznaczony do stosowania architektury referencyjnej, wyczerpującej listy funkcji i funkcji ani zalecenia dotyczącego konkretnych najlepszych rozwiązań.

Ważne

Usługa Microsoft Fabric jest dostępna w wersji zapoznawczej.

Scenariusz kompleksowej usługi Lakehouse

Tradycyjnie organizacje budują nowoczesne magazyny danych na potrzeby analizy danych transakcyjnych i ustrukturyzowanych. Ponadto usługi data lakehouse na potrzeby analizy danych big data (częściowo/bez struktury). Te dwa systemy działały równolegle, tworząc silosy, duplikowanie danych i zwiększając całkowity koszt posiadania.

Sieć szkieletowa ze zjednoczeniem magazynu danych i standaryzacji w formacie usługi Delta Lake pozwala wyeliminować silosy, usunąć duplikowanie danych i drastycznie zmniejszyć całkowity koszt posiadania.

Dzięki elastyczności oferowanej przez usługę Fabric można zaimplementować architektury typu lakehouse lub magazynu danych lub połączyć je razem, aby uzyskać najlepsze rozwiązania z prostą implementacją. W tym samouczku przyjrzysz się przykładowi organizacji handlu detalicznego i utworzysz jej lakehouse od początku do końca. Używa architektury medalonu , w której warstwa brązu ma nieprzetworzone dane, warstwa srebra ma zweryfikowane i deduplikowane dane, a warstwa złota ma wysoce uściślane dane. Możesz podjąć to samo podejście, aby wdrożyć lakehouse dla dowolnej organizacji z dowolnej branży.

W tym samouczku wyjaśniono, jak deweloper w fikcyjnej firmie Wide World Importers z domeny detalicznej wykonuje następujące czynności:

  1. Zaloguj się do konta usługi Power BI i zarejestruj się w celu uzyskania bezpłatnej wersji próbnej usługi Microsoft Fabric. Jeśli nie masz licencji usługi Power BI, utwórz konto bezpłatnej licencji usługi Power BI , a następnie możesz uruchomić wersję próbną usługi Fabric (wersja zapoznawcza).

  2. Skompiluj i zaimplementuj kompleksową usługę lakehouse dla organizacji:

  3. Wyczyść zasoby , usuwając obszar roboczy i inne elementy.

Architektura

Na poniższej ilustracji przedstawiono kompleksową architekturę usługi Lakehouse. Składniki, które są zaangażowane, zostały opisane na poniższej liście.

Diagram kompleksowej architektury jeziora w usłudze Microsoft Fabric.

  • Źródła danych: sieć szkieletowa umożliwia szybkie i łatwe łączenie się z usługami Azure Data Services, a także z innymi platformami opartymi na chmurze i lokalnymi źródłami danych w celu usprawnienia pozyskiwania danych.

  • Pozyskiwanie: możesz szybko tworzyć szczegółowe informacje dla organizacji przy użyciu ponad 200 łączników natywnych. Te łączniki są zintegrowane z potokiem sieci szkieletowej i korzystają z przyjaznego dla użytkownika przekształcenia przeciągania i upuszczania danych z przepływem danych. Ponadto za pomocą funkcji Skrót w sieci szkieletowej można połączyć się z istniejącymi danymi bez konieczności kopiowania lub przenoszenia.

  • Przekształcanie i przechowywanie: Sieć szkieletowa standandaryzuje format usługi Delta Lake. Oznacza to, że wszystkie aparaty sieci szkieletowej mogą uzyskiwać dostęp do tego samego zestawu danych przechowywanego w usłudze OneLake i manipulować nim bez duplikowania danych. Ten system magazynowania zapewnia elastyczność tworzenia lokacji typu lakehouse przy użyciu architektury medalionu lub siatki danych, w zależności od wymagań organizacji. Możesz wybrać między funkcją przekształcania danych z małą ilością kodu lub brakiem kodu, korzystając z potoków/przepływów danych lub notesu/platformy Spark w celu uzyskania środowiska opartego na kodzie.

  • Korzystanie: usługa Power BI może korzystać z danych z usługi Lakehouse na potrzeby raportowania i wizualizacji. Każda usługa Lakehouse ma wbudowany punkt końcowy TDS/SQL, który umożliwia łatwą łączność i wykonywanie zapytań dotyczących danych w tabelach usługi Lakehouse z innych narzędzi do raportowania. Ponadto po utworzeniu usługi Lakehouse odpowiedni element pomocniczy o nazwie Warehouse jest generowany automatycznie o takiej samej nazwie jak lakehouse. Zapewnia użytkownikom funkcję punktu końcowego TDS/SQL.

Przykładowy zestaw danych

W tym samouczku użyto przykładowej bazy danych Wide World Importers (WWI). W przypadku scenariusza kompleksowego usługi Lakehouse wygenerowaliśmy wystarczające dane, aby zapoznać się z możliwościami skalowania i wydajności platformy Fabric.

Wide World Importers (WWI) to hurtowy importer i dystrybutor towarów nowości działający z obszaru San Francisco Bay. Jako hurtownik klienci II wojny światowej głównie obejmują firmy, które odsprzedają się osobom fizycznym. WWI sprzedaje klientom detalicznym w całym Stany Zjednoczone w tym sklepy specjalne, supermarkety, sklepy obliczeniowe, sklepy turystyczne i niektóre osoby. Ii wojna światowa sprzedaje również innym hurtowniom za pośrednictwem sieci agentów, którzy promują produkty w imieniu II wojny światowej. Aby dowiedzieć się więcej na temat profilu i operacji firmy, zobacz Przykładowe bazy danych Wide World Importers dla usługi Microsoft SQL.

Ogólnie rzecz biorąc, dane są przenoszone z systemów transakcyjnych lub aplikacji biznesowych do jeziora. Jednak ze względu na prostotę w tym samouczku używamy modelu wymiarowego dostarczonego przez WWI jako początkowego źródła danych. Używamy go jako źródła do pozyskiwania danych do jeziora i przekształcania ich przez różne etapy (Brązowy, Srebrny i Złoty) architektury medalonu.

Model danych

Chociaż model wymiarowy WWI zawiera wiele tabel faktów, w tym samouczku używamy tabeli faktów Sprzedaż i skorelowanych wymiarów. W poniższym przykładzie przedstawiono model danych II wojny światowej:

Diagram tabeli Sprzedaż faktów i powiązanych wymiarów dla modelu danych tego samouczka.

Przepływ danych i transformacji

Jak opisano wcześniej, używamy przykładowych danych z przykładowych danych wide world importers (WWI) w celu utworzenia kompleksowej bazy danych typu lakehouse. W tej implementacji przykładowe dane są przechowywane na koncie usługi Azure Data Storage w formacie pliku Parquet dla wszystkich tabel. Jednak w rzeczywistych scenariuszach dane zwykle pochodzą z różnych źródeł i w różnych formatach.

Na poniższej ilustracji przedstawiono przekształcenie źródła, miejsca docelowego i danych:

Diagram przedstawiający sposób przepływu i przekształcania danych w usłudze Microsoft Fabric.

  • Źródło danych: dane źródłowe są w formacie pliku Parquet i w niepartej strukturze. Jest on przechowywany w folderze dla każdej tabeli. W tym samouczku skonfigurujemy potok w celu pozyskiwania pełnych danych historycznych lub jednorazowych do jeziora.

    W tym samouczku używamy tabeli faktów Sprzedaż , która zawiera jeden folder nadrzędny z danymi historycznymi przez 11 miesięcy (z jednym podfolderem dla każdego miesiąca) i innym folderem zawierającym dane przyrostowe przez trzy miesiące (jeden podfolder dla każdego miesiąca). Podczas początkowego pozyskiwania danych dane są pozyskiwane do tabeli lakehouse przez 11 miesięcy. Jednak po nadejściu przyrostowych danych zawiera zaktualizowane dane dla października i listopada, a nowe dane dla grudnia i listopada są scalane z istniejącymi danymi, a nowe dane z grudnia są zapisywane w tabeli lakehouse, jak pokazano na poniższej ilustracji:

    Diagram przedstawiający sposób przyrostowego scalenia zmienionych danych z początkowo pozyskiwanych danych w lakehouse.

  • Lakehouse: w tym samouczku utworzysz lakehouse, pozyskujesz dane w sekcji plików lakehouse, a następnie utworzysz tabele delta lake w sekcji Tabele w lakehouse.

  • Przekształcanie: w przypadku przygotowywania i przekształcania danych są widoczne dwa różne podejścia. Pokazujemy użycie notesów/platformy Spark dla użytkowników, którzy preferują środowisko code-first i używają potoków/przepływu danych dla użytkowników, którzy preferują środowisko o niskim kodzie lub bez kodu.

  • Użycie: aby zademonstrować użycie danych, zobaczysz, jak za pomocą funkcji DirectLake usługi Power BI tworzyć raporty, pulpity nawigacyjne i bezpośrednio wysyłać zapytania o dane z usługi Lakehouse. Ponadto pokazujemy, jak udostępnić dane narzędziom do raportowania innych firm przy użyciu punktu końcowego TDS/SQL. Ten punkt końcowy umożliwia nawiązywanie połączenia z magazynem i uruchamianie zapytań SQL na potrzeby analizy.

Następne kroki

Przejdź do następnego artykułu, aby dowiedzieć się, jak