Logiskt informationslager med Serverlösa SQL-pooler i Azure Synapse

Azure Cosmos DB

Azure Data Factory

Azure Data Lake

Azure Synapse Analytics

Power BI

Lösningsidéer

I den här artikeln beskrivs en lösningsidé. Molnarkitekten kan använda den här vägledningen för att visualisera huvudkomponenterna för en typisk implementering av den här arkitekturen. Använd den här artikeln som utgångspunkt för att utforma en välkonstruerad lösning som överensstämmer med arbetsbelastningens specifika krav.

LDW-mönstret (Logical Data Warehouse) lägger ett enkelt virtualiserat relationslager ovanpå data som lagras i en datasjö eller databas. Det här virtualiseringslagret ger åtkomst till informationslager utan att kräva dataflytt. Den här lösningen kan kombinera DATA för onlinetransaktionsbearbetning (OLTP) med analysdata från datasjöar för ett lågkomplexitets- och lågsvarstidssätt för att hantera BI-arbetsbelastningar (Business Intelligence) och analys.

Apache Spark™ är ett varumärke som tillhör Apache Software Foundation i USA och/eller andra länder/regioner. Inget godkännande från Apache Software Foundation underförstås av användningen av det här märket.

Arkitektur

Ladda ned en PowerPoint-fil med alla diagram i den här artikeln.

Dataflöde

Azure Data Factory integrerar data från källsystem i företagsdatasjön.
Enhets- och sensordata strömmar också från gränsenheter till molnet via Azure IoT Hub. Azure Stream Analytics bearbetar data och skickar dem till företagsdatasjön.
Serverlösa SQL-pooler i Azure Synapse definierar en LDW som har logiska tabeller och vyer som är tillgängliga via Azure Synapse-arbetsytans serverlösa SQL-pool på begäran.
Azure Synapse Link för Azure Cosmos DB frågar transaktionsdata i realtid via Azure Synapse-serverlösa SQL-pooler. Dessa data kopplas till kall batch och direktuppspelningsdata från företagsdatasjön för att skapa logiska vyer.
Rapportering, BI och andra analysprogram får åtkomst till LDW-data och vyer med hjälp av azure Synapse-arbetsytans serverlösa SQL-slutpunkt.

Kommentar

Azure Synapse-arbetsytans serverlösa SQL-slutpunkt är tillgänglig från alla verktyg eller tjänster som stöder TDS-anslutningar (Tabular Data Stream) till SQL Server.

Komponenter

Azure Synapse Analytics är en obegränsad analystjänst som sammanför dataintegrering, lagring av företagsdata och stordataanalys.
- Azure Synapse-serverlösa SQL-pooler frågar efter datasjöar med hjälp av T-SQL- och serverlösa SQL-slutpunkter på begäran.
- Azure Synapse Link för Azure Cosmos DB frågar Azure Cosmos DB OLTP-data med hjälp av Serverlösa SQL-pooler i Azure Synapse.
Data Factory erbjuder dataintegrering i molnskala och dataflödesorkestrering.
IoT Hub möjliggör säker och tillförlitlig kommunikation mellan IoT-program (Internet of Things) och enheter.
Stream Analytics tillhandahåller serverlösa pipelines för direktuppspelningsanalys i realtid.
Azure Data Lake Storage erbjuder skalbar och kostnadseffektiv molnlagring.
Azure Cosmos DB är en fullständigt hanterad NoSQL-databas för modern apputveckling.

Information om scenario

Genom att använda en LDW med Serverlösa SQL-pooler i Azure Synapse kan du ansluta kall batchdata, direktuppspelningsdata och livetransaktionsdata i en enda T-SQL-fråga eller vydefinition.

Den här lösningen undviker att flytta data via komplexa, dyra och latensbenägna pipelines för extrahering, transformering och belastning (ETL). LDW-konceptet liknar ett data lakehouse, men LDW med Azure Synapse Analytics innehåller stöd för hybridtransaktions-/analysbearbetning (HTAP). HTAP använder Serverlösa SQL-pooler i Azure Synapse för att köra frågor mot OLTP-data som lagras i Azure Cosmos DB.

En Azure Synapse Analytics LDW baseras på serverlösa SQL-pooler som är tillgängliga med alla Azure Synapse-arbetsytor. Med en förbättrad version av funktionen OPENROWSET kan serverlösa SQL-pooler komma åt data i Data Lake Storage.

Med den här dataåtkomsten kan du skapa relationsdatabasobjekt som tabeller och vyer över samlingar av datafiler som representerar logiska entiteter, till exempel produkter, kunder och försäljningstransaktioner. BI-verktyg som ansluter med hjälp av en SQL Server-standardslutpunkt kan använda dessa logiska entiteter som dimensioner och faktatabeller.

Möjligheten att komma åt transaktionsdatalager som Azure Cosmos DB via Azure Synapse Link för Azure Cosmos DB utökar dessa funktioner. Åtkomst till OLTP-data med hjälp av HTAP-arkitektur ger omedelbara uppdateringar utan att störa livetransaktioner.

Varje Azure Synapse-arbetsyta innehåller en SQL-slutpunkt på begäran. Med slutpunkten kan SQL Server-administratörer och utvecklare använda välbekanta miljöer för att arbeta med LDW:er som Azure Synapse serverlösa SQL-pooler definierar.

Följande skärmbild visar SQL Server Management Studio (SSMS) som är ansluten till en Azure Synapse-serverlös SQL-pool.

Azure Synapse-serverlösa SQL-pooler stöder följande filformat:

Avgränsad text, till exempel CSV, TSV och TXT
JSON
Parquet

Azure Synapse-serverlösa SQL-pooler stöder också Delta Lake-formatet . Det här stödet tillåter mönster som berikar i Spark, fungerar med SQL, där Apache Spark-tjänster™ som Azure Databricks eller Apache Spark-pooler i Azure Synapse utvecklar data för att skapa kurerade datamängder i datasjön. I stället för att behöva läsa in dessa datauppsättningar i ett fysiskt informationslager kan du definiera en LDW över datasjön för att tillhandahålla modell-/serverlagret för rapportering.

LDW med Serverlösa SQL-pooler i Azure Synapse är en implementering av Data Lakehouse-mönstret . Att använda Databricks SQL för att implementera en LDW är en alternativ lösning. Databricks SQL saknar dock HTAP-funktionen för Azure Synapse Link för Cosmos DB.

Potentiella användningsfall

Det här mönstret är användbart i följande fall:

Informationslager som betjänar lager för BI och andra analysanvändningsfall.
Ad hoc-utforskning av rådata i en datasjö.
Kostnadseffektiv dataströmning till en datasjö som inte kräver egna beräkningsresurser för att skriva data. En logisk databastabell, vy eller ad hoc-T-SQL-fråga kan komma åt data direkt från datasjön.
Omedelbar åtkomst till Azure Cosmos DB-transaktionsdata för att skapa aggregeringspipelines i realtid eller ansluta till analysdata som lagras i datasjön.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Jon Dobrzeniecki | Sr. Cloud Solution Architect

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

Dela via

Logiskt informationslager med Serverlösa SQL-pooler i Azure Synapse