Logisches Data Warehouse mit serverlosen SQL-Pools in Azure Synapse

Azure Cosmos DB

Azure Data Factory

Azure Data Lake

Azure Synapse Analytics

Power BI

Lösungsmöglichkeiten

In diesem Artikel ist ein Lösungsvorschlag beschrieben. Ihr Cloudarchitekt kann diesen Leitfaden verwenden, um die Hauptkomponenten einer typischen Implementierung dieser Architektur zu visualisieren. Verwenden Sie diesen Artikel als Ausgangspunkt, um eine gut durchdachte Lösung zu entwerfen, die den spezifischen Anforderungen Ihrer Workload entspricht.

Durch das LDW-Muster (logisches Data Warehouse) wird eine einfache virtualisierte relationale Ebene über Daten platziert, die in einem Data Lake oder in einer Datenbank gespeichert sind. Diese Virtualisierungsebene ermöglicht den Zugriff auf Data Warehouse, ohne dass dazu Daten verschoben werden müssen. Diese Lösung kann OLTP-Daten (Online Transaction Processing, Onlinetransaktionsverarbeitung) mit analytischen Daten aus Data Lakes kombinieren, um eine Methode mit geringer Komplexität und Wartezeit für BI-Workloads (Business Intelligence) und Analyseworkloads zu ermöglichen.

Apache Spark™ ist eine Marke der Apache Software Foundation in den USA und/oder anderen Ländern/Regionen. Die Verwendung dieser Marke impliziert keine Zustimmung der Apache Software Foundation.

Aufbau

PowerPoint-Datei mit allen Diagrammen aus diesem Artikel herunterladen

Datenfluss

Azure Data Factory integriert Daten aus Quellsystemen in den Data Lake des Unternehmens.
Geräte- und Sensordaten werden auch von Edgegeräten über Azure IoT Hub in die Cloud gestreamt. Azure Stream Analytics verarbeitet die Daten und sendet sie an den Data Lake des Unternehmens.
Serverlose SQL-Pools in Azure Synapse definieren ein LDW mit logischen Tabellen und Sichten, auf die über den On-Demand-Endpunkt des serverlosen SQL-Pools des Azure Synapse-Arbeitsbereichs zugegriffen werden kann.
Azure Synapse Link für Azure Cosmos DB fragt Echtzeittransaktionsdaten über die serverlosen SQL-Pools in Azure Synapse ab. Diese Daten werden mit kalten Batchdaten und heißen Streamingdaten aus dem Data Lake des Unternehmens verknüpft, um logische Sichten zu erstellen.
Berichterstellung, BI und andere Analyseanwendungen greifen über den serverlosen SQL-Endpunkt des Azure Synapse-Arbeitsbereichs auf LDW-Daten und -Sichten zu.

Hinweis

Auf den serverlosen SQL-Endpunkt des Azure Synapse-Arbeitsbereichs kann von jedem Tool oder Dienst aus zugegriffen werden, das TDS-Verbindungen (Tabular Data Stream) mit SQL Server unterstützt.

Komponenten

Azure Synapse Analytics ist ein unbegrenzter Analysedienst, der Datenintegration, Data Warehousing für Unternehmen und Big Data-Analysen vereint.
- Serverlose SQL-Pools in Azure Synapse fragen Data Lakes mithilfe von T-SQL und serverlosen SQL On-Demand-Endpunkten ab.
- Azure Synapse Link für Azure Cosmos DB fragt OLTP-Daten von Azure Cosmos DB mithilfe serverloser SQL-Pools in Azure Synapse ab.
Data Factory bietet Datenintegration und Datenflussorchestrierung auf Cloudebene.
IoT Hub ermöglicht eine sichere und zuverlässige Kommunikation zwischen IoT-Anwendungen und -Geräten (Internet of Things).
Stream Analytics bietet serverlose Analysepipelines für Echtzeitstreaming.
Azure Data Lake Storage bietet skalierbaren, kostengünstigen Cloudspeicher.
Azure Cosmos DB ist eine vollständig verwaltete NoSQL-Datenbank für die moderne App-Entwicklung.

Szenariodetails

Mithilfe eines LDW mit serverlosen SQL-Pools in Azure Synapse lassen sich kalte Batchdaten, heiße Streamingdaten und Livetransaktionsdaten in einer einzelnen T-SQL-Abfrage oder Sichtdefinition miteinander verknüpfen.

Diese Lösung vermeidet das Verschieben von Daten über komplexe, teure und wartezeitanfällige ETL-Pipelines (Extrahieren, Transformieren und Laden). Das LDW-Konzept ähnelt einem Data Lakehouse. LDW mit Azure Synapse Analytics unterstützt jedoch auch HTAP (Hybrid Transaction/Analytical Processing). HTAP verwendet serverlose SQL-Pools in Azure Synapse, um in Azure Cosmos DB gespeicherte OLTP-Daten abzufragen.

Eine LDW von Azure Synapse Analytics basiert auf serverlosen SQL-Pools, die mit allen Azure Synapse-Arbeitsbereichen verfügbar sind. Eine erweiterte Version der Funktion OPENROWSET ermöglicht serverlosen SQL-Pools den Zugriff auf Daten in Data Lake Storage.

Dieser Datenzugriff ermöglicht die Erstellung relationaler Datenbankobjekte wie Tabellen und Sichten über Sammlungen von Datendateien, die logische Entitäten wie Produkte, Kunden und Verkaufstransaktionen darstellen. BI-Tools, die mithilfe eines SQL Server-Standardendpunkts eine Verbindung herstellen, können diese logischen Entitäten als Dimensionen und Faktentabellen nutzen.

Die Möglichkeit, über Azure Synapse Link für Azure Cosmos DB auf Transaktionsdatenspeicher wie Azure Cosmos DB zuzugreifen, erweitert diese Funktionen. Der Zugriff auf OLTP-Daten über die HTAP-Architektur bietet umgehende Aktualisierungen ohne Beeinträchtigung von Livetransaktionen.

Jeder Azure Synapse-Arbeitsbereich enthält einen On-Demand-SQL-Endpunkt. Mit dem Endpunkt können SQL Server-Administratoren und Entwickler vertraute Umgebungen nutzen, um mit LDWs zu arbeiten, die serverlose SQL-Pools in Azure Synapse definieren.

Der folgende Screenshot zeigt eine Verbindung zwischen SQL Server Management Studio (SSMS) und einem serverlosen SQL-Pool in Azure Synapse:

Serverlose SQL-Pools in Azure Synapse unterstützen folgende Dateiformate:

Durch Trennzeichen getrennten Text (beispielsweise CSV, TSV und TXT)
JSON
Parquet

Serverlose SQL-Pools in Azure Synapse unterstützen das Format Delta Lake. Diese Unterstützung ermöglicht Muster wie Anreichern in Spark, Bereitstellen mit SQL, wobei Apache Spark™-Dienste wie Azure Databricks oder Apache Spark-Pools in Azure Synapse Daten arrangieren, um kuratierte Datasets im Data Lake zu erstellen. Anstatt diese Datasets in ein physisches Data Warehouse laden zu müssen, können Sie ein LDW über dem Data Lake definieren, um die Modell-/Bereitstellungsebene für die Berichterstellung bereitzustellen.

Das LDW mit serverlosen SQL-Pools in Azure Synapse ist eine Implementierung des Musters Data Lakehouse. Alternativ kann auch Databricks SQL zum Implementieren eines LDW verwendet werden. Databricks SQL verfügt jedoch nicht über die HTAP-Funktion von Azure Synapse Link für Cosmos DB.

Mögliche Anwendungsfälle

Dieses Muster ist in folgenden Fällen nützlich:

Data Warehouse-Bereitstellungsebene für BI und andere analytische Anwendungsfälle
Ad-hoc-Untersuchung von Rohdaten in einem Data Lake
Kostengünstiges Datenstreaming in einen Data Lake, ohne dass zum Schreiben von Daten eigene Computeressourcen benötigt werden Eine logische Datenbanktabelle, Sicht oder T-SQL-Ad-hoc-Abfrage kann sofort über den Data Lake auf die Daten zugreifen.
Sofortiger Zugriff auf Azure Cosmos DB-Transaktionsdaten zur Erstellung von Echtzeit-Aggregationspipelines oder zur Verknüpfung mit analytischen, im Data Lake gespeicherten Daten

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Jon Dobrzeniecki | Sr. Cloud Solution Architect

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Freigeben über

Logisches Data Warehouse mit serverlosen SQL-Pools in Azure Synapse