Azure Synapse Analytics per le zone di destinazione

Azure Synapse Analytics
Collegamento privato di Azure
Azure Data Lake Storage
Insieme di credenziali chiave di Azure

Questo articolo offre un approccio architetturale per la preparazione delle sottoscrizioni della zona di destinazione di Azure per una distribuzione scalabile e avanzata della sicurezza di Azure Synapse Analytics. Azure Synapse è un servizio di analisi aziendale che combina archiviazione dati, elaborazione big data, integrazione dei dati e gestione.

L'articolo presuppone che siano già state implementate le basi della piattaforma necessarie per costruire e rendere operativa in modo efficace una zona di destinazione.

Apache®, Spark e il logo con la fiamma sono marchi o marchi registrati di Apache Software Foundation negli Stati Uniti e/o in altri Paesi. L'uso di questi marchi non implica alcuna approvazione da parte di Apache Software Foundation.

Architettura

Diagramma che mostra un'architettura di riferimento di Azure Synapse Analytics.

Scaricare un file di Visio di questa architettura.

Flusso di dati

  • Il componente principale di questa architettura è Azure Synapse, un servizio unificato che offre una gamma di funzioni, dall'inserimento e dall'elaborazione dei dati alla gestione e all'analisi. Azure Synapse in una Rete virtuale gestita fornisce l'isolamento di rete per l'area di lavoro. Abilitando la protezione dell'esfiltrazione dei dati, è possibile limitare la connettività in uscita solo alle destinazioni approvate.
  • Le risorse di Azure Synapse, il runtime di integrazione di Azure e i pool di Spark che si trovano nella Rete virtuale gestita possono connettersi ad Azure Data Lake Storage, Azure Key Vault e altri archivi dati di Azure con sicurezza aumentata usando endpoint privati gestiti. I pool SQL di Azure Synapse ospitati all'esterno della rete virtuale gestita possono connettersi ai servizi di Azure tramite endpoint privato nella rete virtuale aziendale.
  • Gli amministratori possono applicare la connettività privata all'area di lavoro di Azure Synapse, Data Lake Storage, Key Vault, Analisi dei log e altri archivi dati tramite criteri di Azure applicati tra zone di destinazione dei dati a livello di gruppo di gestione. Possono anche abilitare la protezione dell'esfiltrazione dei dati per garantire una maggiore sicurezza per il traffico in uscita.
  • Gli utenti accedono a Synapse Studio usando un Web browser da una rete locale con restrizioni tramite Hub di collegamenti privati di Azure Synapse. Gli hub di collegamenti privati vengono usati per caricare Synapse Studio tramite collegamenti privati con sicurezza avanzata. Una singola risorsa di Hub di collegamenti privati di Azure Synapse viene distribuita in una sottoscrizione di connettività con un endpoint privato nella rete virtuale hub. La rete virtuale hub è connessa alla rete locale tramite Azure ExpressRoute. La risorsa hub di collegamenti privati può essere usata per connettersi privatamente a tutte le aree di lavoro di Azure Synapse tramite Synapse Studio.
  • I data engineer usano l'attività Copy della pipeline di Azure Synapse, eseguita in un runtime di integrazione self-hosted per inserire dati tra un archivio dati ospitato in un ambiente locale e archivi dati cloud come Data Lake Storage e pool SQL. L'ambiente locale è collegato via ExpressRoute alla rete virtuale hub in Azure.
  • I data engineer usano l'attività Flusso di dati di Azure Synapse e i pool di Spark per trasformare i dati ospitati negli archivi dati cloud connessi al Rete virtuale gestito di Azure Synapse tramite endpoint privati gestiti. Per i dati che si trovano nell'ambiente locale, la trasformazione con i pool di Spark richiede la connettività tramite un servizio di collegamento privato personalizzato. Il servizio personalizzato Collegamento privato usa macchine virtuali NAT (Network Address Translation) per connettersi all'archivio dati locale. Per informazioni sulla configurazione del servizio Collegamento privato per l'accesso agli archivi dati locali da una rete virtuale gestita, consultare la sezione Accesso a SQL Server locale dalla rete virtuale gestita di Data Factory usando l'endpoint privato.
  • Se la protezione dell'esfiltrazione dei dati è abilitata in Azure Synapse, la registrazione delle applicazioni Spark nell'area di lavoro Analisi dei log viene instradata tramite una risorsa ambito collegamento privato di Monitoraggio di Azure connessa alla rete virtuale gestita di Azure Synapse tramite endpoint privato gestito. Come illustrato nel diagramma, una singola risorsa ambito di collegamento privato di Monitoraggio di Azure è ospitata in una sottoscrizione di connettività con endpoint privato nella rete virtuale hub. Tutte le aree di lavoro Analisi dei log e le risorse di Application Insights possono essere raggiunte privatamente tramite l'ambito collegamento privato di Monitoraggio di Azure.

Componenti

  • Azure Synapse Analytics servizio di analisi aziendale che riduce il tempo necessario per estrarre informazioni dettagliate da data warehouse e sistemi di Big Data.
  • La rete virtuale gestita di Azure Synapse fornisce l'isolamento di rete alle aree di lavoro di Azure Synapse da altre aree di lavoro.
  • Gli endpoint privati gestiti di Azure Synapse sono endpoint privati creati in una rete virtuale gestita associata all'area di lavoro di Azure Synapse. Gli endpoint privati gestiti stabiliscono la connettività del collegamento privato alle risorse di Azure all'esterno della rete gestita.
  • L'area di lavoro di Azure Synapse con protezione di esfiltrazione dei dati impedisce l'esfiltrazione di dati sensibili in posizioni esterne all'ambito di un'organizzazione.
  • Gli hub di collegamenti privati di Azure sono risorse di Azure che fungono da connettori tra la rete protetta e l'esperienza Web di Synapse Studio.
  • Il runtime di integrazione è l'infrastruttura di calcolo usata da Azure Data Factory e dalle pipeline di Synapse per distribuire le funzionalità di integrazione di dati in ambienti di rete diversi. Eseguire l'attività Flusso di dati nel runtime di integrazione di calcolo di Azure gestito o nella attività Copy tra reti usando un runtime di integrazione di calcolo self-hosted.
  • Collegamento privato di Azure offre l'accesso privato ai servizi ospitati nella piattaforma Azure. Il servizio Collegamento privato di Azure è il riferimento a un servizio personalizzato basato su Collegamento privato di Azure. È possibile abilitare il servizio eseguito dietro il Load Balancer standard di Azure per l'accesso al collegamento privato. È quindi possibile estendere collegamento privato servizio alla Rete virtuale gestita di Azure Synapse tramite l'endpoint privato gestito.
  • Apache Spark in Azure Synapse è una delle diverse implementazioni Microsoft di Apache Spark nel cloud. Azure Synapse semplifica la creazione e la configurazione delle funzionalità di Spark in Azure.
  • Data Lake Storage usa Archiviazione di Azure come base per la compilazione di Enterprise Data Lake in Azure.
  • Key Vault consente di archiviare segreti, chiavi e certificati con sicurezza avanzata.
  • Le zone di destinazione di Azure sono output di un ambiente di Azure a più sottoscrizioni che tiene conto delle caratteristiche di scalabilità, sicurezza, governance, rete e identità. Una zona di destinazione consente la migrazione, la modernizzazione e l'innovazione delle applicazioni su scala aziendale in Azure.

Dettagli dello scenario

Questo articolo offre un approccio alla preparazione delle sottoscrizioni della zona di destinazione di Azure per una distribuzione scalabile e avanzata della sicurezza di Azure Synapse. La soluzione è conforme alle procedure consigliate di Cloud Adoption Framework per Azure e si concentra sulle linee guida di progettazione per le zone di destinazione su scala aziendale.

Molte organizzazioni di grandi dimensioni con business unit decentralizzate e autonome vogliono adottare soluzioni di analisi e data science su larga scala. È fondamentale che creino le basi giuste. Azure Synapse e Data Lake Storage sono i componenti centrali per l'implementazione di analisi su scala cloud e un'architettura di mesh di dati.

Questo articolo fornisce consigli per la distribuzione di Azure Synapse tra gruppi di gestione, topologia di sottoscrizione, rete, identità e sicurezza.

Utilizzando questa soluzione, è possibile ottenere:

  • Una piattaforma di analisi della sicurezza avanzata ben regolamentata che viene ridimensionata in base alle esigenze in più zone di destinazione dei dati.
  • Riduzione del sovraccarico operativo per i team dell'applicazione dati. Possono concentrarsi sull'ingegneria dei dati e sull'analisi e lasciare la gestione della piattaforma Azure Synapse al team operativo della zona di destinazione dei dati.
  • Applicazione centralizzata della conformità dell'organizzazione nelle zone di destinazione dei dati.

Potenziali casi d'uso

Questa architettura risulta utile per le organizzazioni con le esigenze seguenti:

  • Un piano dati e controllo completamente integrato e operativo per i carichi di lavoro di Azure Synapse, fin dall'inizio.
  • Un'implementazione di sicurezza avanzata di Azure Synapse, con particolare attenzione alla sicurezza e alla privacy dei dati.

Questa architettura può fungere da punto di partenza per le distribuzioni su larga scala dei carichi di lavoro di Azure Synapse tra sottoscrizioni dell'area di destinazione dei dati.

Topologia della sottoscrizione

Le organizzazioni che creano piattaforme di analisi e dati su larga scala cercano modi per ridimensionare le attività in modo coerente ed efficiente nel tempo.

  • Usando le sottoscrizioni come unità di scala per le zone di destinazione dei dati, le organizzazioni possono superare le limitazioni a livello di sottoscrizione, garantire la corretta gestione dell'isolamento e dell'accesso e ottenere una crescita futura flessibile per il footprint della piattaforma dati. All'interno di una zona di destinazione dei dati, è possibile raggruppare Azure Synapse e altri asset di dati per casi d'uso di analisi specifici all'interno di un gruppo di risorse.
  • Il proprietario della piattaforma della zona di destinazione è responsabile della configurazione del gruppo di gestione e della sottoscrizione e fornisce l'accesso necessario agli amministratori della piattaforma dati per il provisioning di Azure Synapse e di altri servizi.
  • Tutti i criteri di conformità dei dati a livello di organizzazione vengono applicati a livello di gruppo di gestione per applicare la conformità tra le zone di destinazione dei dati.

Topologia di rete

Per le raccomandazioni sulle zone di destinazione che usano la topologia di rete WAN virtuale (hub e spoke), consultare la sezione Topologia della rete virtuale WAN. Queste raccomandazioni sono allineate alle procedure consigliate di Cloud Adoption Framework.

Di seguito sono riportate alcune raccomandazioni per la topologia di rete di Azure Synapse:

  • Implementare l'isolamento di rete per le risorse di Azure Synapse tramite Rete virtuale gestita. Implementare la protezione dell'esfiltrazione dei dati limitando l'accesso in uscita solo alle destinazioni approvate.

  • Configurare la connettività privata:

    • Servizi di Azure come Data Lake Storage, Key Vault e Azure SQL tramite endpoint privati gestiti.
    • Archivi dati e applicazioni locali tramite ExpressRoute, tramite un runtime di integrazione self-hosted. Usare un servizio di collegamento privato personalizzato per connettere le risorse Spark agli archivi dati locali se non è possibile usare un runtime di integrazione self-hosted.
    • Synapse Studio, tramite hub di collegamenti privati distribuiti in una sottoscrizione di connettività.
    • L'area di lavoro Analisi dei log, tramite Monitoraggio di Azure collegamento privato Ambito, distribuita in una sottoscrizione di connettività.

Gestione delle identità e dell'accesso

Le aziende usano in genere un approccio con privilegi minimi per l'accesso operativo. Usano Microsoft Entra ID, controllo degli accessi in base al ruolo (RBAC) di Azure e definizioni di ruolo personalizzate per la gestione degli accessi.

  • Implementare controlli di accesso con granularità fine in Azure Synapse usando ruoli di Azure, ruoli di Azure Synapse, ruoli SQL e autorizzazioni Git. Per maggiori informazioni sul controllo di accesso dell'area di lavoro di Azure Synapse, consultare questa panoramica.
  • I ruoli di Azure Synapse forniscono set di autorizzazioni che possono essere applicati in ambiti diversi. Grazie a questa granularità, è facile concedere ad amministratori, sviluppatori, addetti alla sicurezza e operatori l'accesso appropriato a risorse di calcolo e dati.
  • È possibile semplificare il controllo di accesso usando gruppi di sicurezza allineati ai ruoli di processo. Per gestire l'accesso, è necessario aggiungere e rimuovere utenti dai gruppi di sicurezza appropriati.
  • È possibile garantire la sicurezza per la comunicazione tra Azure Synapse e altri servizi di Azure, ad esempio Data Lake Storage e Key Vault, usando identità gestite assegnate dall'utente. In questo modo, si elimina la necessità di gestire le credenziali. Le identità gestite forniscono un'identità che verrà usata dalle applicazioni quando si connettono a risorse che supportano l'autenticazione di Microsoft Entra.

Automazione delle applicazioni e DevOps

  • L'integrazione e il recapito continui per un'area di lavoro di Azure Synapse vengono ottenuti tramite l'integrazione Git e la promozione di tutte le entità da un ambiente (sviluppo, test, produzione) a un altro ambiente.
  • Implementare l'automazione con i modelli Bicep/Azure Resource Manager per creare o aggiornare le risorse dell'area di lavoro (pool e aree di lavoro). Eseguire la migrazione di artefatti come script e notebook SQL, definizioni di processi Spark, pipeline, set di dati e altri artefatti usando gli strumenti di distribuzione di Synapse Workspace in Azure DevOps o in GitHub, come descritto in Integrazione e recapito continui per un'area di lavoro di Azure Synapse Analytics.

Considerazioni

Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, che è un set di principi guida che possono essere usati per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Microsoft Azure Well-Architected Framework.

Affidabilità

L'affidabilità garantisce che l'applicazione possa soddisfare gli impegni che l'utente ha preso con i clienti. Per altre informazioni, vedere Panoramica del pilastro dell'affidabilità.

  • Azure Synapse, Data Lake Storage e Key Vault sono servizi PaaS (Platform as a Service) gestiti con disponibilità elevata e resilienza predefiniti. È possibile usare nodi ridondanti per rendere il runtime di integrazione self-hosted e le macchine virtuali NAT nell'architettura a disponibilità elevata.
  • Per informazioni sul contratto di servizio (SLA), consultare la sezione Contratto di servizio per Azure Synapse Analytics.
  • Per indicazioni sulla continuità aziendale e sul ripristino di emergenza per Azure Synapse, consultare la sezione Punti di ripristino del database per Azure Synapse Analytics.

Sicurezza

La sicurezza offre garanzie contro attacchi intenzionali e l'abuso di dati e sistemi preziosi. Per altre informazioni, vedere Panoramica del pilastro della sicurezza.

Ottimizzazione dei costi

L'ottimizzazione dei costi riguarda la riduzione delle spese non necessarie e il miglioramento dell'efficienza operativa. Per altre informazioni, vedere Panoramica del pilastro di ottimizzazione dei costi.

  • Le risorse di analisi vengono misurate in Unità Data Warehouse (DWU), che consentono di tenere traccia di CPU, memoria e I/O. È consigliabile iniziare con DWU piccole e misurare le prestazioni per operazioni con un numero elevato di risorse, quali caricamento o trasformazioni di un numero elevato di dati. In questo modo, è possibile determinare il numero di unità necessarie per ottimizzare il carico di lavoro.
  • Risparmiare con i prezzi con pagamento in base al consumo usando unità di commit di Azure Synapse (SCU) acquistate in pre-acquisto.
  • Per esplorare le opzioni dei prezzi e stimare il costo dell'implementazione di Azure Synapse, consultare la sezione Prezzi di Azure Synapse Analytics.
  • Questa stima dei prezzi contiene i costi per la distribuzione dei servizi usando i passaggi di automazione descritti nella sezione successiva.

Distribuire lo scenario

Prerequisiti: è necessario un account Azure esistente. Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.

Tutto il codice per questo scenario è disponibile nel repository Synapse Enterprise Codebase su GitHub.

La distribuzione automatizzata usa modelli Bicep per distribuire i componenti seguenti:

  • Un gruppo di risorse
  • Una rete virtuale e le subnet
  • Livelli di archiviazione (Bronze, Silver e Gold) con endpoint privati
  • Un'area di lavoro di Azure Synapse con una rete virtuale gestita
  • Servizio di collegamento privato ed endpoint
  • Load balancer e VM NAT
  • Una risorsa di runtime di integrazione self-hosted

Nel repository, è disponibile uno script di PowerShell per orchestrare la distribuzione. È possibile eseguire lo script di PowerShell o usare il file pipeline.yml per distribuirlo come pipeline in Azure DevOps.

Per maggiori informazioni sui modelli Bicep, i passaggi di distribuzione e i presupposti, consultare il file Readme.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autori principali:

Altro collaboratore:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi

Per maggiori informazioni sui servizi descritti in questo articolo, consultare queste risorse: