Analisi dei Big Data con sicurezza di livello aziendale con Azure Synapse

Azure Analysis Services
Azure Data Lake Storage
Azure Synapse Analytics

Idee per le soluzioni

Questo articolo è un'idea di soluzione. Per espandere il contenuto con altre informazioni, ad esempio potenziali casi d'uso, servizi alternativi, considerazioni sull'implementazione o indicazioni sui prezzi, inviare commenti e suggerimenti su GitHub.

La soluzione descritta in questo articolo illustra come usare Azure Synapse Analytics per creare una piattaforma dati moderna per inserire, elaborare, archiviare, gestire e visualizzare i dati da varie origini.

Architettura

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

Scaricare un file di Visio di questa architettura.

Flusso di dati

I dati passano attraverso la soluzione nel modo seguente:

  1. Le pipeline synapse copiano le attività di copia di dati strutturati non elaborati da data warehouse relazionali esterni, dati semistrutturati, ad esempio log, file flat e xml e altri sistemi di origine. Questi dati inseriti vengono quindi archiviati in una posizione di Azure Data Lake Archiviazione Gen2. Usando un runtime di integrazione self-hosted, è anche possibile gestire ed eseguire attività di copia tra un archivio dati nell'ambiente locale e il cloud.

  2. Azure Data Lake Archiviazione Gen2 offre un'archiviazione sicura.

    • È consigliabile usare un firewall per limitare Archiviazione l'accesso dell'account ai servizi di Azure attendibili per limitare la vulnerabilità di attacco esterno.

    • Gli endpoint privati per gli account Archiviazione di Azure consentono ai client nella rete virtuale di accedere in modo sicuro ai dati tramite un collegamento privato. L'endpoint privato usa un indirizzo IP dallo spazio di indirizzi della rete virtuale per il servizio dell'account di archiviazione. Il traffico di rete tra i client nella rete virtuale e l'account di archiviazione attraversa la rete virtuale e un collegamento privato nella rete backbone Microsoft, eliminando l'esposizione alla rete Internet pubblica.

  3. I dati vengono crittografati inattivi una volta inseriti nel data lake. L'uso di chiavi gestite dal cliente può proteggere ulteriormente le chiavi di crittografia e aumentare la flessibilità durante la gestione dei controlli di accesso.

  4. I dati vengono inseriti usando le pipeline di Synapse ed elaborate in fasi usando il pool di Spark synapse e le relative funzionalità di Data Lake. I dati vengono archiviati nell'account Archiviazione di Azure usando directory di Azure Data Lake Archiviazione Gen 2 specifiche della fase. Queste fasi sono:

    1. Le pipeline di Synapse copiano inizialmente i dati dai sistemi di origine. Questi dati inseriti vengono archiviati nel formato non elaborato usando la directory Bronze del data lake.

    2. Il pool di Spark Synapse esegue quindi regole di qualità dei dati per pulire i dati non elaborati. Questi dati arricchiti vengono quindi archiviati nella directory Silver del data lake.

    3. Dopo il processo di pulizia, il pool di Spark applica qualsiasi normalizzazione, trasformazione dei dati e regole business necessarie per i dati nella directory Silver. Questi dati trasformati vengono quindi archiviati nella directory Gold del data lake.

  5. Il connettore Synapse Apache Spark to Synapse SQL esegue il push dei dati normalizzati nel pool Synapse SQL per l'utilizzo da parte di applicazioni downstream e reporting services, ad esempio Power BI. Questo connettore è progettato per trasferire in modo ottimale i dati tra i pool di Apache Spark serverless e i pool SQL nell'area di lavoro di Azure Synapse Analytics.

  6. Il servizio Power BI usa la modalità DirectQuery per recuperare in modo sicuro i dati dal pool Synapse SQL. Un gateway dati installato in una macchina virtuale nella rete virtuale privata funge da piattaforma di connessione tra il servizio Power BI e il pool SYNapse SQL, usando l'endpoint privato nella stessa rete virtuale per connettersi in modo sicuro.

  7. Le applicazioni esterne possono accedere ai dati dai pool serverless di Synapse o dai pool SQL dedicati accedendo agli endpoint privati appropriati connessi alla rete virtuale.

Questa soluzione di esempio usa diversi servizi e funzionalità di Azure:

  • Azure Synapse Analytics è il servizio principale usato in questa soluzione di esempio per fornire l'inserimento, l'elaborazione e l'analisi dei dati.

  • Azure Data Lake Archiviazione (Gen2) si basa su servizi Archiviazione di Azure e offre funzionalità data lake usate da altri servizi in questa soluzione di esempio per l'archiviazione e l'elaborazione dei dati.

  • Le pipeline di Synapse copiano i dati dalle origini originali nelle posizioni di Data Lake Storage.

  • Apache Spark in Azure Synapse Analytics pulisce, normalizza ed esegue altre attività di elaborazione sui dati inseriti dai percorsi di origine.

  • Il pool SQL dedicato (in precedenza SQL Data Warehouse) offre funzionalità di data warehousing per i dati dopo l'elaborazione e la normalizzazione ed è pronta per l'uso da parte degli utenti finali e delle applicazioni.

  • Il pool SQL serverless consente agli utenti di eseguire rapidamente query e analizzare i dati elaborati e normalizzati.

  • Azure Synapse Managed Rete virtuale crea un ambiente di rete virtuale gestito isolato per l'area di lavoro di Azure Synapse, offload della necessità di gestire la configurazione di rete per le risorse dell'area di lavoro.

  • Gli endpoint privati gestiti da Azure Synapse stabiliscono collegamenti privati alle risorse di Azure e instradano il traffico tra le aree di lavoro di Azure Synapse e altre risorse di Azure usando solo la rete backbone Microsoft.

  • Azure Rete virtuale (VNet) offre funzionalità di rete privata per le risorse di Azure che non fanno parte dell'area di lavoro di Azure Synapse. Consente di gestire l'accesso, la sicurezza e il routing tra le risorse.

  • L'endpoint privato di Azure fornisce un indirizzo IP privato dalla rete virtuale della soluzione ai servizi gestiti di Azure, connettendo efficacemente un servizio alla rete virtuale. In questo modo è possibile proteggere la rete tra l'area di lavoro di Azure Synapse e altri servizi di Azure, ad esempio Archiviazione di Azure, Azure Cosmos DB, database SQL di Azure o il proprio servizio di collegamento privato di Azure.

  • Power BI consente agli utenti di eseguire analisi avanzate e condividere informazioni dettagliate usando i dati elaborati della soluzione.

Componenti

Dettagli dello scenario

Azure Synapse Analytics riunisce l'integrazione dei dati, il data warehousing aziendale e l'analisi dei Big Data per semplificare la creazione di una piattaforma dati moderna in grado di gestire le problematiche dei dati più comuni che devono affrontare organizzazioni di grandi dimensioni. Azure Rete virtuale consente di creare la propria rete privata nel cloud pubblico di Azure e nella rete gestita e l'endpoint privato di Azure consente di integrare in modo sicuro i servizi cloud gestiti in queste reti private.

Potenziali casi d'uso

La soluzione descritta in questo articolo illustra come combinare queste tecnologie per creare una piattaforma dati moderna in grado di inserire, elaborare, archiviare, gestire e visualizzare i dati provenienti da origini diverse, strutturate e semistrutturate, rispettando allo stesso tempo gli standard di sicurezza elevati previsti dall'organizzazione. Sono inclusi i requisiti comuni di supporto, ad esempio:

  • Protezione delle origini dati. Le origini dati all'interno della rete aziendale locale o nella rete virtuale sono protette da un firewall. Queste risorse possono essere accessibili in modo sicuro installando un runtime di integrazione self-hosted in una risorsa ospitata in locale o nelle reti virtuali.

  • Autenticazione e autorizzazione tramite identità gestite. Le comunicazioni tra i servizi di Azure possono essere protette usando identità gestite, che forniscono un'identità da usare per le applicazioni durante la connessione alle risorse che supportano l'autenticazione di Microsoft Entra. In questo esempio Azure Synapse usa l'identità gestita per integrare le pipeline.

  • Endpoint privati che stabiliscono un collegamento privato alle risorse di Azure. Azure Synapse offre funzionalità di endpoint privato completamente gestite per i servizi all'interno dell'area di lavoro Synapse, ad esempio Archiviazione di Azure o Azure Cosmos DB. Altre risorse di Azure, ad esempio applicazioni di Azure, Microsoft Power BI e il servizio Azure Synapse, vengono protette usando endpoint privati integrati nella rete virtuale della soluzione di esempio. Il traffico di rete tra la rete privata e i pool di Synapse usa collegamento privato per spostare il traffico sulla rete backbone Microsoft, eliminando l'esposizione a Internet pubblico.

  • Crittografia dei dati in transito. I dati vengono crittografati in transito perché tutti i trasferimenti di dati sono tramite il canale sicuro HTTPS e TLS su TCP per evitare attacchi man-in-the-middle durante la comunicazione con i servizi di Azure, garantendo lo spostamento dei dati privati sicuro end-to-end.

  • Crittografia dei dati inattivi. Transparent Data Encryption in Azure Synapse Analytics consente di proteggersi da attività dannose eseguendo la crittografia in tempo reale e la decrittografia dei dati archiviati nell'area di lavoro synapse. Archiviazione di Azure crittografa anche tutti i dati in un account di archiviazione inattivi. Per impostazione predefinita, i dati vengono crittografati con chiavi gestite da Microsoft, ma è possibile gestire le proprie chiavi se è necessario un controllo aggiuntivo sulla crittografia.

Distribuire lo scenario

È necessario un account Azure esistente. Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.

I modelli di Azure Resource Manager, che è necessario distribuire i componenti descritti in questa architettura, sono disponibili nel repository GitHub . Questi modelli distribuiranno tutti i servizi illustrati nel diagramma dell'architettura, ad eccezione di: Il gateway dati di Power BI, il runtime di integrazione self-hosted e Azure Key Vault per le chiavi gestite dal cliente.

Spetta all'utente creare la struttura di cartelle data lake e le pipeline di integrazione di Azure Synapse Analytics necessarie per connettersi alle origini dati.

Distribuire il modello di Resource Manager direttamente facendo clic su questo pulsante:

Deploy to Azure

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Passaggi successivi

Per informazioni su come sviluppare ulteriormente questo approccio, apprendere le nozioni di base di Azure Synapse Analytics completando le esercitazioni seguenti:

Fare riferimento a questi articoli durante la pianificazione e la distribuzione di soluzioni con Azure Synapse Analytics: