Data warehouse logico con pool SQL serverless di Azure Synapse

Azure Cosmos DB
Azure Data Factory
Azure Data Lake
Azure Synapse Analytics
Power BI

Idee per le soluzioni

Questo articolo descrive un'idea di soluzione. L'architetto cloud può usare queste linee guida per visualizzare i componenti principali per un'implementazione tipica di questa architettura. Usare questo articolo come punto di partenza per progettare una soluzione ben progettata in linea con i requisiti specifici del carico di lavoro.

Il modello di data warehouse logico (LDW) imposta un livello relazionale virtualizzato leggero sopra i dati archiviati in un data lake o in un database. Questo livello di virtualizzazione fornisce l'accesso al data warehouse senza richiedere lo spostamento dei dati. Questa soluzione può combinare i dati OLTP (Online Transaction Processing) con i dati analitici dei data lake per un modo a bassa complessità e bassa latenza per gestire i carichi di lavoro di business intelligence e analisi.

Apache Spark™ è un marchio di Apache Software Foundation nelle Stati Uniti e/o in altri paesi/aree geografiche. L'uso di questo marchio non implica alcuna approvazione da parte di Apache Software Foundation.

Architettura

Diagramma che mostra un flusso di dati da sinistra a destra come descritto nei passaggi.

Scaricare un file di PowerPoint di tutti i diagrammi di questo articolo.

Flusso di dati

  1. Azure Data Factory integra i dati dei sistemi di origine nel data lake aziendale.

  2. I dati dei dispositivi e dei sensori vengono inoltre inviati dai dispositivi perimetrali nel cloud tramite hub IoT di Azure. Analisi di flusso di Azure elabora i dati e li invia al data lake aziendale.

  3. I pool SQL serverless di Azure Synapse definiscono un LDW con tabelle logiche e viste accessibili tramite l'endpoint serverless del pool SQL serverless dell'area di lavoro di Azure Synapse.

  4. Azure Collegamento a Synapse per Azure Cosmos DB esegue query sui dati transazionali in tempo reale tramite i pool SQL serverless di Azure Synapse. Questi dati vengono aggiunti con batch sporadico e dati di streaming ad accesso frequente dal data lake aziendale per creare visualizzazioni logiche.

  5. Reporting, BI e altre applicazioni di analisi accedono ai dati e alle viste LDW usando l'endpoint SQL serverless dell'area di lavoro di Azure Synapse.

    Nota

    L'endpoint SQL serverless dell'area di lavoro di Azure Synapse è accessibile da qualsiasi strumento o servizio che supporta connessioni TDS (Tabular Data Stream) a SQL Server.

Componenti

Dettagli dello scenario

Usando un LDW con pool SQL serverless di Azure Synapse, è possibile unire dati batch ad accesso sporadico, dati di streaming ad accesso frequente e dati transazionali live in una singola query O una singola definizione di vista T-SQL.

Questa soluzione evita lo spostamento dei dati tramite pipeline di estrazione, trasformazione e caricamento complesse, costose e soggette a latenza. Il concetto di LDW è simile a un data lakehouse, ma LDW con Azure Synapse Analytics include il supporto per l'elaborazione ibrida di transazioni/analisi (HTAP). HTAP usa i pool SQL serverless di Azure Synapse per eseguire query sui dati OLTP archiviati in Azure Cosmos DB.

Un LDW di Azure Synapse Analytics si basa su pool SQL serverless disponibili con tutte le aree di lavoro di Azure Synapse. Una versione avanzata della funzione OPENROWSET consente ai pool SQL serverless di accedere ai dati in Data Lake Storage.

Questo accesso ai dati consente la creazione di oggetti di database relazionali come tabelle e viste su raccolte di file di dati che rappresentano entità logiche, ad esempio prodotti, clienti e transazioni di vendita. Gli strumenti di business intelligence che si connettono usando un endpoint SQL Server standard possono utilizzare queste entità logiche come dimensioni e tabelle dei fatti.

Diagramma che mostra un confronto affiancato della progettazione concettuale LDW, accanto a un'implementazione di LDW con il pool SQL serverless di Azure Synapse Analytics.

La possibilità di accedere ad archivi dati transazionali come Azure Cosmos DB tramite azure Collegamento a Synapse per Azure Cosmos DB espande queste funzionalità. L'accesso ai dati OLTP tramite l'architettura HTAP fornisce aggiornamenti istantanei senza interferire con le transazioni in tempo reale.

Diagramma che mostra il flusso di dati esterni al livello di report usando il pool SQL serverless di Azure Synapse Analytics.

Ogni area di lavoro di Azure Synapse include un endpoint SQL su richiesta. L'endpoint consente agli amministratori e agli sviluppatori di SQL Server di usare ambienti familiari per lavorare con gli LDWs definiti dai pool SQL serverless di Azure Synapse.

Lo screenshot seguente mostra SQL Server Management Studio (SSMS) connesso a un pool SQL serverless di Azure Synapse.

Screenshot che mostra SSMS connesso all'endpoint di Sql Server di Azure Synapse.

I pool SQL serverless di Azure Synapse supportano i formati di file seguenti:

  • Testo delimitato, ad esempio CSV, TSV e TXT
  • JSON
  • Parquet

I pool SQL serverless di Azure Synapse supportano anche il formato Delta Lake . Questo supporto consente modelli come arricchire Spark, usare con SQL, in cui servizi Apache Spark™ come Azure Databricks o pool di Apache Spark nei dati del tecnico di Azure Synapse per creare set di dati curati nel data lake. Invece di dover caricare questi set di dati in un data warehouse fisico, è possibile definire un LDW sul data lake per fornire il livello modello/servizio per la creazione di report.

Diagramma che mostra il flusso di dati esterni al livello di report con il pool SQL serverless di Azure Synapse Analytics.

L'LDW con pool SQL serverless di Azure Synapse è un'implementazione del modello Data Lakehouse . L'uso di Databricks SQL per implementare un LDW è una soluzione alternativa. Databricks SQL, tuttavia, non dispone della funzionalità HTAP di Azure Collegamento a Synapse per Cosmos DB.

Potenziali casi d'uso

Questo modello è utile per i casi seguenti:

  • Livello di gestione del data warehouse per BI e altri casi d'uso analitici.
  • Esplorazione ad hoc dei dati non elaborati in un data lake.
  • Flusso di dati conveniente in un data lake che non richiede risorse di calcolo proprie per scrivere dati. Una tabella di database logica, una vista o una query T-SQL ad hoc può accedere immediatamente ai dati dal data lake.
  • Accesso immediato ai dati transazionali di Azure Cosmos DB per creare pipeline di aggregazione in tempo reale o unire dati analitici archiviati nel data lake.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi