Idee per le soluzioni
Questo articolo descrive un'idea di soluzione. L'architetto cloud può usare queste linee guida per visualizzare i componenti principali per un'implementazione tipica di questa architettura. Usare questo articolo come punto di partenza per progettare una soluzione ben progettata in linea con i requisiti specifici del carico di lavoro.
Questo articolo presenta una soluzione per un data warehouse aziendale in Azure che:
- Riunisce tutti i dati, indipendentemente dalla scala o dal formato.
- Consente a tutti gli utenti di ottenere informazioni dettagliate dai dati tramite dashboard analitici, report operativi e analisi avanzate.
Apache e Apache® Spark sono marchi registrati o marchi di Apache Software Foundation nei Stati Uniti e/o in altri paesi. L'uso di questi marchi non implica alcuna approvazione da parte di Apache Software Foundation.
Architettura
Scaricare un file di Visio di questa architettura.
Flusso di dati
- Le pipeline di Azure Synapse Analytics riuniscono dati strutturati, non strutturati e semistrutturati, ad esempio log, file e supporti. Le pipeline archiviano i dati in Azure Data Lake Storage.
- I pool di Apache Spark in Azure Synapse Analytics puliscono e trasformano i dati di Data Lake Storage.
- Azure Synapse Analytics combina i dati elaborati con i dati strutturati esistenti, creando un hub dati unificato.
- Un pool SQL dedicato rende i dati disponibili per i report operativi e i dashboard analitici che derivano informazioni dettagliate. Azure Analysis Services serve i report e i dashboard a migliaia di utenti finali.
Componenti
- Azure Synapse Analytics è un servizio di analisi per data warehouse e sistemi di Big Data. Questo strumento usa un'architettura di elaborazione parallela elevata e offre un'integrazione approfondita con i servizi di Azure.
- Le pipeline di Azure Synapse Analytics consentono di creare, pianificare e orchestrare flussi di lavoro, ad esempio estrarre, caricare, trasformare (ELT) ed estrarre, trasformare, caricare flussi di lavoro (ETL).
- Archiviazione BLOB di Azure offre un'archiviazione a oggetti altamente scalabile e conveniente per qualsiasi tipo di dati non strutturati, ad esempio immagini, video, audio, documenti e altro ancora.
- Data Lake Storage è un repository di archiviazione che contiene una grande quantità di dati nel formato nativo e non elaborato. Data Lake Storage si basa su Archiviazione BLOB. Di conseguenza, Data Lake Storage offre scalabilità, archiviazione a livelli, disponibilità elevata e funzionalità di ripristino di emergenza di Archiviazione BLOB.
- I pool di Spark di Azure Synapse Analytics offrono un framework di elaborazione parallela che supporta l'elaborazione in memoria per migliorare le prestazioni delle applicazioni analitiche di Big Data.
- Analysis Services è un motore di analisi di livello aziendale che consente agli utenti di eseguire facilmente l'analisi dei dati ad hoc. È possibile usare Analysis Services per gestire, testare e distribuire soluzioni aziendali su larga scala.
- Power BI è un gruppo di strumenti di Analisi business che consente di distribuire informazioni dettagliate in tutta l'organizzazione. È possibile usare Power BI per connettersi a centinaia di origini dati, semplificare la preparazione dei dati e guidare l'analisi ad hoc. È anche possibile produrre report accattivanti e pubblicarli per l'organizzazione per utilizzarli sul Web e in tutti i dispositivi mobili.
Dettagli dello scenario
Un data warehouse aziendale riunisce tutti i dati, indipendentemente dall'origine, dal formato o dalla scalabilità. Un data warehouse offre anche un modo per eseguire analisi ad alte prestazioni sui dati, in modo da ottenere informazioni dettagliate tramite dashboard analitici, report operativi e analisi avanzate.
Questa soluzione stabilisce un data warehouse che:
- È una singola fonte di verità per i dati.
- Integra origini dati relazionali con altri set di dati non strutturati.
- Usa la modellazione semantica e potenti strumenti di visualizzazione per un'analisi dei dati più semplice.
Per integrare i dati in una piattaforma unificata, questa soluzione usa le pipeline di Azure Synapse Analytics. Queste pipeline offrono funzionalità ELT e ETL. In particolare, è possibile usare le pipeline per spostare i dati nei flussi di lavoro basati sui dati. Le pipeline funzionano con vari formati e strutture di dati.
Le pipeline archiviano i dati in Data Lake Storage, basato sull'archiviazione BLOB. Questo servizio di archiviazione può gestire grandi volumi di dati non strutturati.
I pool di Spark di Azure Synapse Analytics costituiscono una parte chiave della soluzione. Questi pool puliscono e trasformano i dati archiviati in Azure. Il framework di elaborazione parallela supporta l'elaborazione in memoria per garantire velocità ed efficienza. I pool supportano anche il ridimensionamento automatico, in modo da poter aggiungere o rimuovere nodi in base alle esigenze.
Un pool SQL dedicato rende disponibili i dati elaborati per l'analisi ad alte prestazioni. Questo pool archivia i dati in tabelle relazionali con archiviazione a colonne, un formato che riduce significativamente il costo dell'archiviazione dei dati. Migliora anche le prestazioni delle query, in modo da poter eseguire analisi su larga scala.
Potenziali casi d'uso
È possibile usare questa soluzione in scenari come quelli seguenti che coinvolgono grandi volumi di dati:
- Integrazione dei dispositivi IoT
- Piattaforme dati dei clienti
- Elaborazione del linguaggio naturale
- Algoritmi di apprendimento automatico
Prezzi
Per visualizzare una stima del costo di questa soluzione, vedere un esempio di prezzi nel calcolatore prezzi.
Passaggi successivi
- Documentazione di Azure Synapse Analytics
- Documentazione sulle pipeline di Azure Synapse Analytics
- Introduzione all'archiviazione di oggetti in Azure
- Pool di Spark di Azure Synapse Analytics
- Documentazione di Analysis Services
- Documentazione di Power BI