Questo scenario di esempio illustra una pipeline di dati che integra grandi quantità di dati da più origini in una piattaforma di analisi unificata in Azure. Questo scenario specifico è basato su una soluzione di vendite e marketing, ma gli schemi progettuali sono pertinenti a diversi settori che richiedono l'analisi avanzata di grandi set di dati, ad esempio e-commerce, vendite al dettaglio e settore sanitario.
Architettura
Scaricare un file di Visio di questa architettura.
Flusso di dati
I dati passano attraverso la soluzione nel modo seguente:
- Per ogni origine dati, tutti gli aggiornamenti vengono esportati periodicamente in un'area di gestione temporanea in Azure Data Lake Storage.
- Azure Data Factory carica in modo incrementale i dati da Azure Data Lake Storage nelle tabelle di staging in Azure Synapse Analytics. I dati vengono puliti e trasformati durante questo processo. PolyBase può parallelizzare il processo per set di dati di grandi dimensioni.
- Dopo il caricamento di un nuovo batch di dati nel warehouse, viene aggiornato un modello tabulare di Azure Analysis Services creato in precedenza. Questo modello semantico semplifica l'analisi dei dati e delle relazioni aziendali.
- I business analyst usano Microsoft Power BI per analizzare i dati del data warehouse tramite il modello semantico di Analysis Services.
Componenti
La società ha origini dati in diverse piattaforme:
- SQL Server in locale
- Oracle in locale
- Database SQL di Azure
- Archiviazione tabelle di Azure
- Azure Cosmos DB
I dati vengono caricati da queste origini dati diverse usando numerosi componenti di Azure:
- Azure Data Lake Storage viene usato per preparare i dati di origine prima che vengano caricati in Azure Synapse.
- Data Factory orchestra la trasformazione dei dati di staging in una struttura comune in Azure Synapse. Data Factory usa PolyBase per il caricamento di dati in Azure Synapse per ottimizzare la velocità effettiva.
- Azure Synapse è un sistema distribuito per l'archiviazione e l'analisi di set di dati di grandi dimensioni. L'uso dell'elaborazione parallela elevata (MPP, Massively Parallel Processing) lo rende appropriato per l'esecuzione di analisi ad alte prestazioni. Azure Synapse può usare PolyBase per caricare rapidamente i dati da Azure Data Lake Storage.
- Analysis Services offre un modello semantico per i dati. Può anche aumentare le prestazioni del sistema durante l'analisi dei dati.
- Power BI è una suite di strumenti di analisi business che consente di analizzare i dati e condividere informazioni dettagliate. Power BI può eseguire una query su un modello semantico archiviato in Analysis Services oppure può eseguire direttamente una query in Azure Synapse.
- Microsoft Entra ID autentica gli utenti che si connettono al server Analysis Services tramite Power BI. Data Factory può anche usare l'ID Microsoft Entra per eseguire l'autenticazione in Azure Synapse tramite un'entità servizio o un'identità gestita per le risorse di Azure.
Alternative
La pipeline di esempio include diversi tipi di origini dati. Questa architettura può gestire un'ampia gamma di origini dati relazionali e non relazionali.
Data Factory orchestra i flussi di lavoro per la pipeline di dati. Per caricare i dati una sola volta o su richiesta, è possibile usare strumenti come la copia bulk di SQL Server (bcp) e AzCopy per copiare i dati in Azure Data Lake Storage. È quindi possibile caricare i dati direttamente in Azure Synapse usando PolyBase.
Se sono presenti set di dati di dimensioni molto grandi, valutare la possibilità di usare Data Lake Storage, che offre spazio di archiviazione senza limiti per i dati di analisi.
Azure Synapse non è una scelta ottimale per carichi di lavoro OLTP o set di dati più piccoli di 250 GB. In questi casi è consigliabile usare il database SQL di Azure o SQL Server.
Per confrontare le alternative, vedere:
Dettagli dello scenario
Questo esempio illustra una società di vendite e marketing che crea programmi di incentivazione. Questi programmi premiano clienti, fornitori, venditori e dipendenti. I dati sono fondamentali per questi programmi e la società intende migliorare le informazioni dettagliate ottenute tramite l'analisi dei dati in Azure.
La società vuole adottare un approccio moderno ai dati di analisi, in modo che le decisioni vengano prese usando i dati corretti al momento giusto. Gli obiettivi dell'azienda includono:
- Combinazione di diversi tipi di origini dati in una piattaforma di livello cloud.
- Trasformazione dei dati di origine in una tassonomia e una struttura comuni, per rendere i dati coerenti e facilmente confrontabili.
- Caricamento dei dati basato su un approccio altamente parallelizzato in grado di supportare migliaia di programmi di incentivazione, senza i costi elevati legati alla distribuzione e alla gestione dell'infrastruttura locale.
- Riduzione significativa del tempo necessario per raccogliere e trasformare i dati, per potersi concentrare sull'analisi dei dati.
Potenziali casi d'uso
Questo approccio può essere usato anche per:
- Definire un data warehouse come singola origine di dati reali.
- Integrare le origini dati relazionali con altri set di dati non strutturati.
- Usare la modellazione semantica e strumenti di visualizzazione avanzati per semplificare l'analisi dei dati.
Considerazioni
Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, che è un set di principi guida che possono essere usati per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Microsoft Azure Well-Architected Framework.
Le tecnologie di questa architettura sono state scelte perché soddisfano i requisiti aziendali di scalabilità e disponibilità, oltre a consentire di controllare i costi.
- L'architettura MPP (Massively Parallel Processing) di Azure Synapse assicura scalabilità e prestazioni elevate.
- Azure Synapse offre contratti di servizio garantiti e procedure consigliate per ottenere la disponibilità elevata.
- Quando l'attività di analisi è scarsa, l'azienda può dimensionare Azure Synapse su richiesta, riducendo o anche sospendendo il calcolo per ridurre i costi.
- È possibile aumentare il numero di istanze di Azure Analysis Services per ridurre i tempi di risposta quando i carichi di lavoro delle query sono elevati. È anche possibile separare l'elaborazione dal pool di query, in modo che le prestazioni delle query dei client non vengano rallentate dalle operazioni di elaborazione.
- Azure Analysis Services offre anche contratti di servizio garantiti e procedure consigliate per la disponibilità elevata.
- Il modello di sicurezza di Azure Synapse fornisce sicurezza della connessione, autenticazione e autorizzazione tramite Microsoft Entra ID o autenticazione di SQL Server e crittografia. Azure Analysis Services usa Microsoft Entra ID per la gestione delle identità e l'autenticazione utente.
Ottimizzazione dei costi
L'ottimizzazione dei costi riguarda l'analisi dei modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Panoramica del pilastro di ottimizzazione dei costi.
Esaminare un esempio del costo di uno scenario di data warehousing tramite il calcolatore prezzi di Azure. Modificare i valori per verificare l'effetto delle specifiche esigenze sui costi.
- Azure Synapse consente di dimensionare i livelli di calcolo e archiviazione in modo indipendente. Le risorse di calcolo vengono addebitate su base oraria ed è possibile ridimensionare o sospendere queste risorse su richiesta. Le risorse di archiviazione vengono addebitate per terabyte, pertanto i costi aumenteranno man mano che si inseriscono altri dati.
- I costi di Data Factory dipendono dal numero di operazioni di lettura/scrittura, di operazioni di monitoraggio e di attività di orchestrazione eseguite in un carico di lavoro. I costi della data factory aumentano con ogni flusso di dati aggiuntivo e la quantità di dati elaborati da ognuno di essi.
- Analysis Services è disponibile nei livelli Developer, Basic e Standard. Le istanze vengono addebitate in base alle unità di elaborazione di query (QPU) e alla memoria disponibile. Per contenere i costi, ridurre al minimo il numero di query eseguite, la quantità di dati elaborata e la frequenza di esecuzione.
- Power BI offre diverse opzioni di prodotto per i differenti requisiti. Power BI Embedded fornisce un'opzione basata su Azure per incorporare le funzionalità di Power BI all'interno delle applicazioni. Un'istanza di Power BI Embedded è inclusa nell'esempio di costi riportato in precedenza.
Collaboratori
Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.
Autore principale:
- Alex Buck | Sviluppatore di contenuti senior
Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.
Passaggi successivi
Esaminare l'architettura di riferimento di Azure per la business intelligence aziendale automatizzata, che include le istruzioni per distribuire un'istanza di questa architettura in Azure.
Altre informazioni sui servizi usati in questo scenario: