Progettare una soluzione di integrazione e analisi dei dati con Azure Synapse Analytics

Completato

Azure Synapse Analytics combina funzionalità di analisi Big Data, archiviazione dei dati aziendali e integrazione dei dati. Il servizio consente di eseguire query su dati o dati serverless su larga scala. Azure Synapse supporta l'inserimento dati, l'esplorazione, la trasformazione e la gestione e supporta l'analisi per tutte le esigenze di Business Intelligence e Machine Learning.

Informazioni su Azure Synapse Analytics

Azure Synapse Analytics implementa un'architettura MPP (a parallelismo massivo) e presenta le caratteristiche seguenti.

  • L'architettura di Azure Synapse Analytics include un nodo di controllo e un pool di nodi di calcolo.

    Diagram that shows the Azure Synapse Analytics architecture.

    Il nodo di controllo è il cervello dell'architettura. Rappresenta il front-end che interagisce con tutte le applicazioni. I nodi di calcolo garantiscono la potenza di calcolo. I dati da elaborare sono distribuiti in modo uniforme tra i nodi.

  • Si inviano le query sotto forma di istruzioni Transact-SQL e Azure Synapse Analytics le esegue.

  • Azure Synapse usa una tecnologia chiamata PolyBase che consente di recuperare ed eseguire query sui dati da origini relazionali e non relazionali. È possibile salvare i dati letti come tabelle SQL all'interno del servizio Azure Synapse.

Componenti di Azure Synapse Analytics

Azure Synapse Analytics è costituito dai cinque elementi seguenti:

Diagram that shows an overview of Azure Synapse Analytics capabilities.

  • Pool SQL di Azure Synapse: Synapse SQL offre modelli di risorse serverless e dedicati per l'uso con un'architettura basata su nodi. Per prestazioni e costi prevedibili, è possibile creare pool SQL dedicati. Per carichi di lavoro irregolari o non pianificati, è possibile usare l'endpoint SQL serverless sempre disponibile.
  • Pool di Spark di Azure Synapse: questo pool è un cluster di server che eseguono Apache Spark per elaborare i dati. La logica di elaborazione dei dati viene scritta usando uno dei quattro linguaggi supportati: Python, Scala, SQL e C# (tramite .NET per Apache Spark). Apache Spark per Azure Synapse integra Apache Spark (il motore Big Data open source usato per la preparazione dei dati, ingegneria dei dati, ETL e Machine Learning).
  • Pipeline di Azure Synapse: le pipeline di Azure Synapse applicano le funzionalità di Azure Data Factory. Le pipeline sono il servizio di integrazione dei dati ed ETL basato sul cloud che consente di creare flussi di lavoro basati sui dati per orchestrare lo spostamento dati e trasformare i dati su larga scala. È possibile includere attività che trasformano i dati durante il trasferimento oppure è possibile combinare i dati da più origini insieme.
  • Collegamento ad Azure Synapse: questo componente consente di connettersi ad Azure Cosmos DB. È possibile usarlo per eseguire analisi quasi in tempo reale sui dati operativi archiviati in un database di Azure Cosmos DB.
  • Azure Synapse Studio: questo elemento è un IDE basato sul Web che può essere usato centralmente per usare tutte le funzionalità di Azure Synapse Analytics. È possibile usare Azure Synapse Studio per creare pool SQL e di Spark, definire ed eseguire pipeline e configurare collegamenti a origini dati esterne.

Opzioni analitiche

Azure Synapse Analytics supporta una gamma di scenari analitici. Quando si esamina la tabella, considerare il modo in cui gli scenari si applicano all'organizzazione Tailwind Traders.

Analisi Scenario Descrizione
Analisi descrittiva Cosa sta succedendo? Azure Synapse applica la funzionalità del pool SQL dedicato che consente di creare una data warehouse persistente per analizzare domande di tipo E adesso. È possibile usare il pool SQL serverless per preparare i dati dai file archiviati in un data lake per creare una data warehouse in modo interattivo.
Diagnostic Perché sta succedendo? È possibile usare la funzionalità del pool SQL serverless in Azure Synapse per esplorare in modo interattivo i dati all'interno di un data lake. I pool SQL serverless possono consentire rapidamente a un utente di cercare altri dati che potrebbero aiutare a comprendere domande Perché.
Analisi predittiva Che cosa è probabile che accada? Azure Synapse Analytics usa il motore Apache Spark integrato e i pool di Spark di Azure Synapse per l'analisi predittiva. Combina questa azione con altri servizi, ad esempio Machine Learning Services di Azure e Azure Databricks, per rispondere a domande di tipo Che futuro.
Analisi prescrittiva Da fare È possibile usare dati prescrittivi analitici in tempo reale o quasi in tempo reale per identificare le soluzioni per le domande di tipo Quali azioni. Azure Synapse Analytics offre questa funzionalità tramite Apache Spark e Collegamento ad Azure Synapse e integrando tecnologie di streaming come Analisi di flusso di Azure.

Scenario aziendale

Esaminare uno scenario in cui l'azienda fornisce ai clienti informazioni sul mercato azionario. È necessario fornire una combinazione di elaborazione batch e di flusso per supportare l'infrastruttura di Tailwind Traders. I dati up-to-the-second possono essere usati per il monitoraggio in tempo reale, in cui è necessaria una decisione immediata per prendere decisioni di acquisto o vendita informate. I dati cronologici sono ugualmente importanti per verificare le tendenze nelle prestazioni. A quale tipo di soluzione di integrazione dati e data warehouse è consigliabile fornire l'accesso ai flussi di dati non elaborati e le informazioni aziendali preparate derivanti da questi dati? Usando Synapse Analytics, è possibile inserire i dati da origini esterne e quindi trasformare e aggregare i dati in un formato appropriato per l'elaborazione analitica.

Aspetti da considerare quando si sceglie Azure Data Factory o Azure Synapse Analytics

La tabella seguente confronta i criteri della soluzione di archiviazione per l'uso di Azure Data Factory rispetto ad Azure Synapse Analytics. Esaminare i criteri e valutare la soluzione ottimale per Tailwind Traders.

Confronta Azure Data Factory Azure Synapse Analytics
Condivisione dei dati I dati possono essere condivisi tra data factory diverse Non supportato
Modelli di soluzioni I modelli di soluzione vengono forniti con la raccolta modelli di Azure Data Factory I modelli di soluzione vengono forniti nel Centro informazioni dell'area di lavoro di Synapse
Flussi tra aree del runtime di integrazione I flussi di dati tra aree sono supportati Non supportato
Monitoraggio dei dati Il monitoraggio dei dati è integrato con Monitoraggio di Azure I log di diagnostica sono disponibili in Monitoraggio di Azure
Monitorare i processi Spark per il flusso di dati Non supportato I processi Spark possono essere monitorati per il flusso di dati usando i pool di Spark di Synapse

Azure Synapse Analytics è una soluzione ideale per molti altri scenari. Valutare le opzioni seguenti:

  • Prendere in considerazione l'ampia gamma di origini dati. Quando si hanno diverse origini dati che usano Azure Synapse Analytics per le attività ETL e flusso di dati senza codice.
  • Prendere in considerazione soluzioni di Machine Learning. Quando è necessario implementare soluzioni di Machine Learning con Apache Spark, è possibile usare Azure Synapse Analytics per il supporto predefinito per AzureML.
  • Considerare l'integrazione data lake. Quando sono stati archiviati dati esistenti in un data lake ed è necessaria l'integrazione con Azure Data Lake e altre origini di input, Azure Synapse Analytics offre una perfetta integrazione tra i due componenti.
  • Prendere in considerazione l'analisi in tempo reale. Quando è necessaria un'analisi in tempo reale, è possibile usare funzionalità come Collegamento ad Azure Synapse per analizzare dati in tempo reale e offrire informazioni dettagliate.