Logisches Data Warehouse mit serverlosen SQL-Pools in Azure Synapse

Azure Cosmos DB
Azure Data Factory
Azure Data Lake
Azure Synapse Analytics
Power BI

Lösungsmöglichkeiten

Dieser Artikel ist ein Lösungsvorschlag. Wenn Sie möchten, dass wir diesen Artikel um weitere Informationen ergänzen, z. B. potenzielle Anwendungsfälle, alternative Dienste, Überlegungen zur Implementierung oder Preisempfehlungen, lassen Sie es uns über Feedback auf GitHub wissen.

Durch das LDW-Muster (logisches Data Warehouse) wird eine einfache virtualisierte relationale Ebene über Daten platziert, die in einem Data Lake oder in einer Datenbank gespeichert sind. Diese Virtualisierungsebene ermöglicht den Zugriff auf Data Warehouse, ohne dass dazu Daten verschoben werden müssen. Diese Lösung kann OLTP-Daten (Online Transaction Processing, Onlinetransaktionsverarbeitung) mit analytischen Daten aus Data Lakes kombinieren, um eine Methode mit geringer Komplexität und Wartezeit für BI-Workloads (Business Intelligence) und Analyseworkloads zu ermöglichen.

Apache Spark™ ist eine Marke der Apache Software Foundation in den USA und/oder anderen Ländern/Regionen. Die Verwendung dieser Marke impliziert keine Zustimmung der Apache Software Foundation.

Aufbau

Diagramm: Datenfluss von links nach rechts gemäß Beschreibung in den Schritten

PowerPoint-Datei mit allen Diagrammen aus diesem Artikel herunterladen

Datenfluss

  1. Azure Data Factory integriert Daten aus Quellsystemen in den Data Lake des Unternehmens.

  2. Geräte- und Sensordaten werden auch von Edgegeräten über Azure IoT Hub in die Cloud gestreamt. Azure Stream Analytics verarbeitet die Daten und sendet sie an den Data Lake des Unternehmens.

  3. Serverlose SQL-Pools in Azure Synapse definieren ein LDW mit logischen Tabellen und Sichten, auf die über den On-Demand-Endpunkt des serverlosen SQL-Pools des Azure Synapse-Arbeitsbereichs zugegriffen werden kann.

  4. Azure Synapse Link für Azure Cosmos DB fragt Echtzeittransaktionsdaten über die serverlosen SQL-Pools in Azure Synapse ab. Diese Daten werden mit kalten Batchdaten und heißen Streamingdaten aus dem Data Lake des Unternehmens verknüpft, um logische Sichten zu erstellen.

  5. Berichterstellung, BI und andere Analyseanwendungen greifen über den serverlosen SQL-Endpunkt des Azure Synapse-Arbeitsbereichs auf LDW-Daten und -Sichten zu.

    Hinweis

    Auf den serverlosen SQL-Endpunkt des Azure Synapse-Arbeitsbereichs kann von jedem Tool oder Dienst aus zugegriffen werden, das TDS-Verbindungen (Tabular Data Stream) mit SQL Server unterstützt.

Komponenten

Szenariodetails

Mithilfe eines LDW mit serverlosen SQL-Pools in Azure Synapse lassen sich kalte Batchdaten, heiße Streamingdaten und Livetransaktionsdaten in einer einzelnen T-SQL-Abfrage oder Sichtdefinition miteinander verknüpfen.

Diese Lösung vermeidet das Verschieben von Daten über komplexe, teure und wartezeitanfällige ETL-Pipelines (Extrahieren, Transformieren und Laden). Das LDW-Konzept ähnelt einem Data Lakehouse. LDW mit Azure Synapse Analytics unterstützt jedoch auch HTAP (Hybrid Transaction/Analytical Processing). HTAP verwendet serverlose SQL-Pools in Azure Synapse, um in Azure Cosmos DB gespeicherte OLTP-Daten abzufragen.

Eine LDW von Azure Synapse Analytics basiert auf serverlosen SQL-Pools, die mit allen Azure Synapse-Arbeitsbereichen verfügbar sind. Eine erweiterte Version der Funktion OPENROWSET ermöglicht serverlosen SQL-Pools den Zugriff auf Daten in Data Lake Storage.

Dieser Datenzugriff ermöglicht die Erstellung relationaler Datenbankobjekte wie Tabellen und Sichten über Sammlungen von Datendateien, die logische Entitäten wie Produkte, Kunden und Verkaufstransaktionen darstellen. BI-Tools, die mithilfe eines SQL Server-Standardendpunkts eine Verbindung herstellen, können diese logischen Entitäten als Dimensionen und Faktentabellen nutzen.

Diagramm, das das LDW-Konzept neben einer Implementierung von LDW mit Azure Synapse Analytics Serverless SQL Pool zeigt.

Die Möglichkeit, über Azure Synapse Link für Azure Cosmos DB auf Transaktionsdatenspeicher wie Azure Cosmos DB zuzugreifen, erweitert diese Funktionen. Der Zugriff auf OLTP-Daten über die HTAP-Architektur bietet umgehende Aktualisierungen ohne Beeinträchtigung von Livetransaktionen.

Diagramm, das den Fluss externer Daten an die Berichtsebene unter Verwendung des serverlosen SQL-Pools von Azure Synapse Analytics zeigt.

Jeder Azure Synapse-Arbeitsbereich enthält einen On-Demand-SQL-Endpunkt. Mit dem Endpunkt können SQL Server-Administratoren und Entwickler vertraute Umgebungen nutzen, um mit LDWs zu arbeiten, die serverlose SQL-Pools in Azure Synapse definieren.

Der folgende Screenshot zeigt eine Verbindung zwischen SQL Server Management Studio (SSMS) und einem serverlosen SQL-Pool in Azure Synapse:

Screenshot: Verbindung zwischen SSMS und dem SQL Server-Endpunkt in Azure Synapse

Serverlose SQL-Pools in Azure Synapse unterstützen folgende Dateiformate:

  • Durch Trennzeichen getrennten Text (beispielsweise CSV, TSV und TXT)
  • JSON
  • Parquet

Serverlose SQL-Pools in Azure Synapse unterstützen das Format Delta Lake. Diese Unterstützung ermöglicht Muster wie Anreichern in Spark, Bereitstellen mit SQL, wobei Apache Spark™-Dienste wie Azure Databricks oder Apache Spark-Pools in Azure Synapse Daten arrangieren, um kuratierte Datasets im Data Lake zu erstellen. Anstatt diese Datasets in ein physisches Data Warehouse laden zu müssen, können Sie ein LDW über dem Data Lake definieren, um die Modell-/Bereitstellungsebene für die Berichterstellung bereitzustellen.

Diagramm, das den Fluss externer Daten zur Berichtsebene mit Azure Synapse Analytics Serverless SQL Pool zeigt.

Das LDW mit serverlosen SQL-Pools in Azure Synapse ist eine Implementierung des Musters Data Lakehouse. Alternativ kann auch Databricks SQL zum Implementieren eines LDW verwendet werden. Databricks SQL verfügt jedoch nicht über die HTAP-Funktion von Azure Synapse Link für Cosmos DB.

Mögliche Anwendungsfälle

Dieses Muster ist in folgenden Fällen nützlich:

  • Data Warehouse-Bereitstellungsebene für BI und andere analytische Anwendungsfälle
  • Ad-hoc-Untersuchung von Rohdaten in einem Data Lake
  • Kostengünstiges Datenstreaming in einen Data Lake, ohne dass zum Schreiben von Daten eigene Computeressourcen benötigt werden Eine logische Datenbanktabelle, Sicht oder T-SQL-Ad-hoc-Abfrage kann sofort über den Data Lake auf die Daten zugreifen.
  • Sofortiger Zugriff auf Azure Cosmos DB-Transaktionsdaten zur Erstellung von Echtzeit-Aggregationspipelines oder zur Verknüpfung mit analytischen, im Data Lake gespeicherten Daten

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte