Data warehousing e analisi

Azure Data Lake Storage
Azure Cosmos DB
Azure Data Factory
database SQL di Azure
Archiviazione tabelle di Azure

Questo scenario di esempio illustra una pipeline di dati che integra grandi quantità di dati da più origini in una piattaforma di analisi unificata in Azure. Questo scenario specifico è basato su una soluzione di vendite e marketing, ma gli schemi progettuali sono pertinenti a diversi settori che richiedono l'analisi avanzata di grandi set di dati, ad esempio e-commerce, vendite al dettaglio e settore sanitario.

Architettura

Architecture for a data warehousing and analysis scenario in Azure

Scaricare un file di Visio di questa architettura.

Flusso di dati

I dati passano attraverso la soluzione nel modo seguente:

  1. Per ogni origine dati, tutti gli aggiornamenti vengono esportati periodicamente in un'area di gestione temporanea in Azure Data Lake Archiviazione.
  2. Azure Data Factory carica in modo incrementale i dati da Azure Data Lake Archiviazione in tabelle di staging in Azure Synapse Analytics. I dati vengono puliti e trasformati durante questo processo. PolyBase può parallelizzare il processo per set di dati di grandi dimensioni.
  3. Dopo il caricamento di un nuovo batch di dati nel warehouse, viene aggiornato un modello tabulare di Azure Analysis Services creato in precedenza. Questo modello semantico semplifica l'analisi dei dati e delle relazioni aziendali.
  4. I business analyst usano Microsoft Power BI per analizzare i dati del data warehouse tramite il modello semantico di Analysis Services.

Componenti

La società ha origini dati in diverse piattaforme:

  • SQL Server in locale
  • Oracle in locale
  • Database SQL di Microsoft Azure
  • Archiviazione tabelle di Azure
  • Azure Cosmos DB

I dati vengono caricati da queste origini dati diverse usando numerosi componenti di Azure:

  • Azure Data Lake Archiviazione viene usato per preparare i dati di origine prima che vengano caricati in Azure Synapse.
  • Data Factory orchestra la trasformazione dei dati di staging in una struttura comune in Azure Synapse. Data Factory usa PolyBase per il caricamento di dati in Azure Synapse per ottimizzare la velocità effettiva.
  • Azure Synapse è un sistema distribuito per l'archiviazione e l'analisi di set di dati di grandi dimensioni. L'uso dell'elaborazione parallela elevata (MPP, Massively Parallel Processing) lo rende appropriato per l'esecuzione di analisi ad alte prestazioni. Azure Synapse può usare PolyBase per caricare rapidamente i dati da Azure Data Lake Archiviazione.
  • Analysis Services offre un modello semantico per i dati. Può anche aumentare le prestazioni del sistema durante l'analisi dei dati.
  • Power BI è una suite di strumenti di analisi business che consente di analizzare i dati e condividere informazioni dettagliate. Power BI può eseguire una query su un modello semantico archiviato in Analysis Services oppure può eseguire direttamente una query in Azure Synapse.
  • Microsoft Entra ID autentica gli utenti che si connettono al server Analysis Services tramite Power BI. Data Factory può anche usare l'ID Microsoft Entra per eseguire l'autenticazione in Azure Synapse tramite un'entità servizio o un'identità gestita per le risorse di Azure.

Alternative

Dettagli dello scenario

Questo esempio illustra una società di vendite e marketing che crea programmi di incentivazione. Questi programmi premiano clienti, fornitori, venditori e dipendenti. I dati sono fondamentali per questi programmi e la società intende migliorare le informazioni dettagliate ottenute tramite l'analisi dei dati in Azure.

La società vuole adottare un approccio moderno ai dati di analisi, in modo che le decisioni vengano prese usando i dati corretti al momento giusto. Gli obiettivi dell'azienda includono:

  • Combinazione di diversi tipi di origini dati in una piattaforma di livello cloud.
  • Trasformazione dei dati di origine in una tassonomia e una struttura comuni, per rendere i dati coerenti e facilmente confrontabili.
  • Caricamento dei dati basato su un approccio altamente parallelizzato in grado di supportare migliaia di programmi di incentivazione, senza i costi elevati legati alla distribuzione e alla gestione dell'infrastruttura locale.
  • Riduzione significativa del tempo necessario per raccogliere e trasformare i dati, per potersi concentrare sull'analisi dei dati.

Potenziali casi d'uso

Questo approccio può essere usato anche per:

  • Definire un data warehouse come singola origine di dati reali.
  • Integrare le origini dati relazionali con altri set di dati non strutturati.
  • Usare la modellazione semantica e strumenti di visualizzazione avanzati per semplificare l'analisi dei dati.

Considerazioni

Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, che è un set di set di principi guida che possono essere usati per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Framework ben progettato di Microsoft Azure.

Le tecnologie di questa architettura sono state scelte perché soddisfano i requisiti aziendali di scalabilità e disponibilità, oltre a consentire di controllare i costi.

Ottimizzazione dei costi

L'ottimizzazione dei costi riguarda l'analisi dei modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Panoramica del pilastro di ottimizzazione dei costi.

Esaminare un esempio del costo di uno scenario di data warehousing tramite il calcolatore prezzi di Azure. Modificare i valori per verificare l'effetto delle specifiche esigenze sui costi.

  • Azure Synapse consente di dimensionare i livelli di calcolo e archiviazione in modo indipendente. Le risorse di calcolo vengono addebitate su base oraria ed è possibile ridimensionare o sospendere queste risorse su richiesta. Le risorse di archiviazione vengono addebitate per terabyte, pertanto i costi aumenteranno man mano che si inseriscono altri dati.
  • I costi di Data Factory dipendono dal numero di operazioni di lettura/scrittura, di operazioni di monitoraggio e di attività di orchestrazione eseguite in un carico di lavoro. I costi di Data Factory aumenteranno per ogni flusso dei dati aggiuntivo e in base alla quantità di dati elaborati da ogni flusso.
  • Analysis Services è disponibile nei livelli Developer, Basic e Standard. Le istanze vengono addebitate in base alle unità di elaborazione di query (QPU) e alla memoria disponibile. Per contenere i costi, ridurre al minimo il numero di query eseguite, la quantità di dati elaborata e la frequenza di esecuzione.
  • Power BI offre diverse opzioni di prodotto per i differenti requisiti. Power BI Embedded fornisce un'opzione basata su Azure per incorporare le funzionalità di Power BI all'interno delle applicazioni. Un'istanza di Power BI Embedded è inclusa nell'esempio di costi riportato in precedenza.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dal collaboratore seguente.

Autore principale:

  • Alex Buck | Sviluppatore di contenuti senior

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi