Data warehouse moderno per piccole e medie imprese

Azure Data Lake
database SQL di Azure
Azure Synapse Analytics
Dynamics 365
Microsoft Power Platform

Questo carico di lavoro di esempio mostra diversi modi in cui le piccole imprese (PMI) possono modernizzare gli archivi dati legacy ed esplorare strumenti e funzionalità di Big Data, senza eseguare i budget e i set di competenze correnti. Queste soluzioni end-to-end di data warehousing di Azure si integrano facilmente con strumenti come Azure Machine Learning, Microsoft Power Platform, Microsoft Dynamics e altre tecnologie Microsoft.

Architettura

Diagram that shows how SMBs can modernize legacy data stores.

Scaricare un file di Visio di questa architettura.

I data warehouse legacy di PMI possono contenere diversi tipi di dati:

  • Dati non strutturati, come documenti e grafica
  • Dati semistrutturati, ad esempio log, file CSV, JSON e XML
  • Dati relazionali strutturati, inclusi i database che usano stored procedure per le attività ETL/ELT (estrazione, trasformazione e caricamento/estrazione, caricamento e trasformazione)

Flusso di dati

Il flusso di dati seguente illustra l'inserimento del tipo di dati scelto:

  1. Le pipeline di Azure Synapse Analytics inseriscono i data warehouse legacy in Azure.

    • Le pipeline orchestrano il flusso dei database legacy e dei pacchetti SSIS di cui è stata eseguita la migrazione o il refactoring parziale in Database SQL di Azure. Questo approccio lift-and-shift è più veloce da implementare e offre una transizione senza problemi da una soluzione SQL locale a un'eventuale piattaforma distribuita come servizio (PaaS) di Azure. È possibile modernizzare i database in modo incrementale dopo il trasferimento in modalità lift-and-shift.

    • Le pipeline possono anche passare dati non strutturati, semistrutturati e strutturati in Azure Data Lake Storage per l'archiviazione centralizzata e l'analisi con altre origini. Usare questo approccio quando la fusione dei dati offre più vantaggi aziendali rispetto al semplice replatforming dei dati.

  2. Le origini dati di Microsoft Dynamics possono essere usate per creare dashboard di BI centralizzati su set di dati aumentati usando gli strumenti di analisi serverless di Synapse. È possibile riportare i dati fusi ed elaborati in Dynamics e Power BI per ulteriori analisi.

  3. Nel sistema possono anche entrare dati in tempo reale provenienti da origini streaming tramite Hub eventi di Azure. Per i clienti con requisiti di dashboard in tempo reale, Analisi di flusso di Azure consente di analizzare immediatamente questi dati.

  4. I dati possono anche entrare nell'istanza centralizzata di Data Lake per ulteriori attività di analisi, archiviazione e creazione di report.

  5. Gli strumenti di analisi serverless sono disponibili nell'area di lavoro di Azure Synapse Analytics. Questi strumenti usano funzionalità di calcolo sql serverless o Apache Spark per elaborare i dati in Data Lake Archiviazione Gen2. I pool serverless sono disponibili su richiesta e non richiedono risorse con provisioning.

    I pool serverless sono ideali per:

    • Esplorazioni di data science ad hoc in formato T-SQL.
    • Prototipazione anticipata per entità di data warehouse.
    • Definizione di viste che gli utenti possono usare, ad esempio in Power BI, per scenari in grado di tollerare un ritardo delle prestazioni.

Azure Synapse è strettamente integrato con i potenziali consumer dei set di dati fusi, ad esempio Azure Machine Learning. Altri consumer possono includere Power Apps, app per la logica di Azure, app di Funzioni di Azure e app Web del servizio app di Azure.

Componenti

  • Azure Synapse Analytics è un servizio di analisi che combina integrazione dei dati, data warehousing aziendale e analisi di Big Data. In questa soluzione:

    • Un'area di lavoro di Azure Synapse promuove la collaborazione tra ingegneri dei dati, scienziati dei dati, analisti dei dati e professionisti di business intelligence (BI).
    • Le pipeline di Azure Synapse orchestrano e inseriscono i dati in database SQL e Data Lake Archiviazione Gen2.
    • I pool SQL serverless di Azure Synapse analizzano dati non strutturati e semistrutturati in Data Lake Archiviazione Gen2 su richiesta.
    • I pool di Apache Spark serverless di Azure Synapse eseguono esplorazioni code-first in Data Lake Archiviazione Gen2 con linguaggi Spark come Spark SQL, pySpark e Scala.
  • Database SQL di Azure è un servizio di database relazionale intelligente, scalabile e basato sul cloud. In questa soluzione, Database SQL contiene il data warehouse aziendale ed esegue attività ETL/ELT che usano stored procedure.

  • Hub eventi di Azure è una piattaforma di streaming in tempo reale e un servizio di inserimento di eventi. Hub eventi può inserire dati ovunque e si integra perfettamente con i servizi dati di Azure.

  • Analisi di flusso di Azure è un servizio di analisi serverless in tempo reale per lo streaming dei dati. Analisi di flusso offre scalabilità rapida ed elastica, affidabilità e ripristino di livello aziendale e funzionalità integrate di apprendimento automatico.

  • Azure Machine Learning è un set di strumenti per lo sviluppo di modelli di data science e la gestione del ciclo di vita. Machine Learning è un esempio di Azure e servizi Microsoft in grado di usare dati fusi ed elaborati da Data Lake Archiviazione Gen2.

Alternative

  • L'hub IoT di Azure può sostituire o integrare Hub eventi. La soluzione scelta dipende dall'origine dei dati di streaming e dalla necessità di clonazione e comunicazione bidirezionale con i dispositivi di creazione report.

  • È possibile usare Azure Data Factory per l'integrazione dei dati invece delle pipeline di Azure Synapse. La scelta dipende da diversi fattori:

    • Con le pipeline di Azure Synapse l'architettura della soluzione rimane più semplice ed è possibile collaborare all'interno di una singola area di lavoro di Azure Synapse.
    • Le pipeline di Azure Synapse non supportano il rehosting dei pacchetti SSIS, che è invece disponibile in Azure Data Factory.
    • Synapse Monitor Hub monitora le pipeline di Azure Synapse, mentre Monitoraggio di Azure consente di monitorare Data Factory.

    Per altre informazioni e un confronto delle funzionalità tra le pipeline di Azure Synapse e Data Factory, vedere Integrazione dei dati in Azure Synapse Analytics rispetto ad Azure Data Factory.

  • È possibile usare i pool SQL dedicati di Synapse Analytics per l'archiviazione dei dati aziendali, invece di usare Database SQL. Esaminare i casi d'uso e le considerazioni riportate in questo articolo, nonché le risorse correlate, per prendere una decisione.

Dettagli dello scenario

Per modernizzare i data warehouse locali per il cloud, le piccole e medie imprese si trovano di fronte a una scelta. Possono adottare strumenti per Big Data per l'estendibilità futura o mantenere soluzioni tradizionali basate su SQL per l'efficienza dei costi, la facilità di manutenzione e la transizione senza ostacoli.

Tuttavia, un approccio ibrido combina una semplice migrazione del patrimonio di dati esistente con l'opportunità di aggiungere strumenti e processi per Big Data per alcuni casi d'uso. È possibile continuare a eseguire nel cloud le origini dati basate su SQL e modernizzarle in base alle esigenze.

Questo carico di lavoro di esempio illustra diversi modi in cui le piccole e medie imprese possono modernizzare gli archivi dati legacy ed esplorare strumenti e funzionalità per Big Data, senza estendere eccessivamente i budget o i set di competenze correnti. Queste soluzioni di data warehousing end-to-end di Azure si integrano facilmente con i servizi di Azure e Microsoft e con strumenti come Azure Machine Learning, Microsoft Power Platform e Microsoft Dynamics.

Potenziali casi d'uso

Sono diversi gli scenari che possono trarre vantaggio da questo carico di lavoro:

  • Migrazione di un data warehouse relazionale tradizionale locale di dimensioni inferiori a 1 TB e che usa in modo intensivo pacchetti SQL Server Integration Services (SSIS) per orchestrare le stored procedure.

  • Combinazione di dati di Dynamics o Power Platform Dataverse esistenti con origini di Azure Data Lake in batch e in tempo reale.

  • Uso di tecniche innovative per interagire con i dati centralizzati di Data Lake Archiviazione Gen2. Le tecniche includono l'analisi serverless, il knowledge mining, la fusione di dati tra domini e l'esplorazione dei dati degli utenti finali.

  • Configurazione di aziende e-commerce per l'adozione di un data warehouse per ottimizzare le operazioni.

Questa soluzione non è consigliata per:

  • Distribuzione greenfield di data warehouse che si stima saranno di dimensioni > 1 TB entro un anno.

  • Migrazione di data warehouse locali > 1 TB o che si prevede raggiungeranno tali dimensioni entro un anno.

Considerazioni

Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, che è un set di set di principi guida che possono essere usati per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Framework ben progettato di Microsoft Azure.

A questo scenario si applicano le considerazioni seguenti.

Disponibilità

Database SQL è un servizio PaaS in grado di soddisfare i requisiti di disponibilità elevata e ripristino di emergenza. Assicurarsi di selezionare lo SKU che soddisfa specifici requisiti. Per indicazioni, vedere Disponibilità elevata per Database SQL di Azure.

Operazioni

Database SQL usa SQL Server Management Studio (SSMS) per sviluppare e gestire artefatti legacy come le stored procedure.

Ottimizzazione dei costi

L'ottimizzazione dei costi riguarda l'analisi dei modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Panoramica del pilastro di ottimizzazione dei costi.

Vedere un esempio del costo di uno scenario di data warehousing nel calcolatore dei prezzi di Azure. Modificare i valori per verificare l'effetto di requisiti specifici sui costi.

  • I costi di Database SQL si basano sui livelli di calcolo e di servizio selezionati e sul numero di vCore e di unità di transazione di database (DTO). L'esempio mostra un database singolo con ambiente di calcolo con provisioning e otto vCore, in base al presupposto che sia necessario eseguire stored procedure in Database SQL.

  • I prezzi di Data Lake Archiviazione Gen2 dipendono dalla quantità di dati archiviati e dalla frequenza con cui si usano i dati. I prezzi di esempio includono 1 TB di dati archiviati, con ulteriori presupposti transazionali. Il valore di 1 TB si riferisce alle dimensioni del data lake e non a quelle del database legacy originale.

  • I costi delle pipeline di Azure Synapse si basano sul numero di attività delle pipeline di dati, sulle ore del runtime di integrazione, sulle dimensioni del cluster del flusso di dati e sugli addebiti per esecuzioni e operazioni. I costi delle pipeline aumentano con l'aggiunta di origini dati e con le quantità di dati elaborati. L'esempio presuppone un'origine dati inviate in batch ogni ora per 15 minuti in un runtime di integrazione ospitato in Azure.

  • I prezzi del pool di Spark di Azure Synapse si basano sulle dimensioni dei nodi, sul numero di istanze e sul tempo di attività. L'esempio presuppone un unico nodo di calcolo di piccole dimensioni con utilizzo compreso tra cinque ore a settimana e 40 ore al mese.

  • I prezzi del pool SQL serverless di Azure Synapse si basano sui terabyte di dati elaborati. L'esempio presuppone che vengano elaborati 50 TB al mese. Questa cifra si riferisce alle dimensioni del data lake e non a quelle del database legacy originale.

  • I prezzi di Hub eventi si basano sul livello, sulle unità elaborate di cui è stato effettuato il provisioning e sul traffico in ingresso ricevuto. L'esempio presuppone un'unità elaborata nel livello Standard per un milione di eventi al mese.

  • I costi di Analisi di flusso si basano sul numero di unità di streaming di cui è stato effettuato il provisioning. L'esempio presuppone un'unità di streaming usata nel mese.

Collaboratori

Questo articolo viene aggiornato e gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

  • Galina Polyakova | Senior Cloud Solution Architect

Passaggi successivi