Logiczny magazyn danych z bezserwerowymi pulami SQL usługi Azure Synapse

Azure Cosmos DB
Azure Data Factory
Azure Data Lake
Azure Synapse Analytics
Power BI

Pomysły dotyczące rozwiązań

W tym artykule opisano pomysł rozwiązania. Architekt chmury może użyć tych wskazówek, aby ułatwić wizualizowanie głównych składników dla typowej implementacji tej architektury. Skorzystaj z tego artykułu jako punktu wyjścia, aby zaprojektować dobrze zaprojektowane rozwiązanie zgodne z konkretnymi wymaganiami obciążenia.

Wzorzec magazynu danych logicznych (LDW) stanowi uproszczoną zwirtualizowaną warstwę relacyjną na podstawie danych przechowywanych w usłudze Data Lake lub bazie danych. Ta warstwa wirtualizacji zapewnia dostęp do magazynu danych bez konieczności przenoszenia danych. To rozwiązanie może łączyć dane przetwarzania transakcji online (OLTP) z danymi analitycznymi z magazynów danych w celu uzyskania niskiego, małego opóźnienia w celu obsługi obciążeń analizy biznesowej i analiz.

Apache Spark™ jest znakiem towarowym platformy Apache Software Foundation w Stany Zjednoczone i/lub innych krajach/regionach. Użycie tego znaku nie jest dorozumiane przez fundację Apache Software Foundation.

Architektura

Diagram przedstawiający przepływ danych od lewej do prawej, jak opisano kroki.

Pobierz plik programu PowerPoint ze wszystkich diagramów w tym artykule.

Przepływ danych

  1. Usługa Azure Data Factory integruje dane z systemów źródłowych z usługą Data Lake przedsiębiorstwa.

  2. Dane urządzeń i czujników są również przesyłane strumieniowo z urządzeń brzegowych do chmury za pośrednictwem usługi Azure IoT Hub. Usługa Azure Stream Analytics przetwarza dane i wysyła je do magazynu data lake przedsiębiorstwa.

  3. Bezserwerowe pule SQL usługi Azure Synapse definiują LDW z tabelami logicznymi i widokami dostępnymi za pośrednictwem bezserwerowego punktu końcowego SQL puli SQL usługi Azure Synapse.

  4. Usługa Azure Synapse Link dla usługi Azure Cosmos DB wysyła zapytania do danych transakcyjnych w czasie rzeczywistym za pośrednictwem bezserwerowych pul SQL usługi Azure Synapse. Te dane łączą się z zimnymi partiami i gorącymi danymi przesyłanymi strumieniowo z magazynu data lake przedsiębiorstwa w celu utworzenia widoków logicznych.

  5. Aplikacje do raportowania, analizy biznesowej i innych aplikacji analitycznych uzyskują dostęp do danych i widoków LDW przy użyciu bezserwerowego punktu końcowego SQL obszaru roboczego usługi Azure Synapse.

    Uwaga

    Bezserwerowy punkt końcowy SQL obszaru roboczego usługi Azure Synapse jest dostępny z dowolnego narzędzia lub usługi obsługującej połączenia strumienia danych tabelarycznych (TDS) z programem SQL Server.

Składniki

Szczegóły scenariusza

Korzystając z LDW z bezserwerowymi pulami SQL usługi Azure Synapse, możesz dołączyć zimne dane wsadowe, gorące dane przesyłane strumieniowo i dane transakcyjne na żywo w ramach pojedynczego zapytania T-SQL lub definicji widoku.

To rozwiązanie pozwala uniknąć przenoszenia danych za pośrednictwem złożonych, kosztownych i podatnych na opóźnienia potoków wyodrębniania, przekształcania i ładowania (ETL). Koncepcja LDW jest podobna do magazynu typu data lakehouse, ale LDW z usługą Azure Synapse Analytics obejmuje obsługę hybrydowego przetwarzania transakcji/analiz (HTAP). Protokół HTAP używa bezserwerowych pul SQL usługi Azure Synapse do wykonywania zapytań dotyczących danych OLTP przechowywanych w usłudze Azure Cosmos DB.

Usługa Azure Synapse Analytics LDW jest oparta na bezserwerowych pulach SQL, które są dostępne we wszystkich obszarach roboczych usługi Azure Synapse. Rozszerzona wersja funkcji OPENROWSET umożliwia bezserwerowym pule SQL uzyskiwanie dostępu do danych w usłudze Data Lake Storage.

Ten dostęp do danych umożliwia tworzenie obiektów relacyjnej bazy danych, takich jak tabele i widoki na kolekcje plików danych reprezentujących jednostki logiczne, takie jak produkty, klienci i transakcje sprzedaży. Narzędzia analizy biznesowej, które łączą się przy użyciu standardowego punktu końcowego programu SQL Server, mogą wykorzystywać te jednostki logiczne jako wymiary i tabele faktów.

Diagram przedstawiający równoległe porównanie projektu koncepcyjnego LDW obok implementacji rozwiązania LDW z bezserwerową pulą SQL usługi Azure Synapse Analytics.

Możliwość uzyskiwania dostępu do transakcyjnych magazynów danych, takich jak Azure Cosmos DB, za pośrednictwem usługi Azure Synapse Link dla usługi Azure Cosmos DB, rozszerza te możliwości. Uzyskiwanie dostępu do danych OLTP przy użyciu architektury HTAP zapewnia natychmiastowe aktualizacje bez zakłócania transakcji na żywo.

Diagram przedstawiający przepływ danych zewnętrznych do warstwy raportowania przy użyciu bezserwerowej puli SQL usługi Azure Synapse Analytics.

Każdy obszar roboczy usługi Azure Synapse zawiera punkt końcowy SQL na żądanie. Punkt końcowy umożliwia administratorom i deweloperom programu SQL Server korzystanie ze znanych środowisk do pracy z rozwiązaniami LDW zdefiniowanymi przez pule SQL bezserwerowe usługi Azure Synapse.

Poniższy zrzut ekranu przedstawia program SQL Server Management Studio (SSMS) połączony z bezserwerową pulą SQL usługi Azure Synapse.

Zrzut ekranu przedstawiający program SSMS połączony z punktem końcowym programu SQL Server usługi Azure Synapse.

Bezserwerowe pule SQL usługi Azure Synapse obsługują następujące formaty plików:

  • Rozdzielany tekst, taki jak CSV, TSV i TXT
  • JSON
  • Parquet

Bezserwerowe pule SQL usługi Azure Synapse obsługują również format usługi Delta Lake . Ta obsługa umożliwia wzorce, takie jak wzbogacanie platformy Spark, obsługę za pomocą języka SQL, gdzie usługi Apache Spark, takie jak Azure Databricks lub Pule platformy Apache Spark™ w danych inżyniera usługi Azure Synapse, umożliwiają tworzenie wyselekcjonowanych zestawów danych w usłudze Data Lake. Zamiast ładować te zestawy danych do fizycznego magazynu danych, możesz zdefiniować LDW w usłudze Data Lake w celu zapewnienia warstwy modelu/obsługi na potrzeby raportowania.

Diagram przedstawiający przepływ danych zewnętrznych do warstwy raportowania za pomocą bezserwerowej puli SQL usługi Azure Synapse Analytics.

LDW z bezserwerowymi pulami SQL usługi Azure Synapse jest implementacją wzorca usługi Data Lakehouse . Implementacja rozwiązania LDW przy użyciu usługi Databricks SQL jest rozwiązaniem alternatywnym. Jednak usługa Sql usługi Databricks nie ma możliwości HTAP usługi Azure Synapse Link dla usługi Cosmos DB.

Potencjalne przypadki użycia

Ten wzorzec jest przydatny w następujących przypadkach:

  • Warstwa obsługi magazynu danych dla analizy biznesowej i innych analitycznych przypadków użycia.
  • Ad hoc eksploracja danych pierwotnych w usłudze Data Lake.
  • Ekonomiczne przesyłanie strumieniowe danych do usługi Data Lake, która nie wymaga własnych zasobów obliczeniowych do zapisywania danych. Logiczna tabela bazy danych, widok lub zapytanie języka T-SQL ad hoc mogą natychmiast uzyskiwać dostęp do danych z usługi Data Lake.
  • Natychmiastowy dostęp do danych transakcyjnych usługi Azure Cosmos DB w celu utworzenia potoków agregacji w czasie rzeczywistym lub połączenia z danymi analitycznymi przechowywanymi w usłudze Data Lake.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki