Azure Synapse Analytics per le zone di destinazione
Questo articolo offre un approccio architetturale per la preparazione delle sottoscrizioni della zona di destinazione di Azure per una distribuzione scalabile e avanzata della sicurezza di Azure Synapse Analytics. Azure Synapse è un servizio di analisi aziendale che combina archiviazione dati, elaborazione big data, integrazione dei dati e gestione.
L'articolo presuppone che siano già state implementate le basi della piattaforma necessarie per costruire e rendere operativa in modo efficace una zona di destinazione.
Apache®, Spark e il logo flame sono marchi registrati o marchi di Apache Software Foundation negli Stati Uniti e/o in altri paesi. L'uso di questi marchi non implica alcuna approvazione da parte di Apache Software Foundation.
Architettura
Scaricare un file di Visio di questa architettura.
Flusso di dati
- Il componente principale di questa architettura è Azure Synapse, un servizio unificato che offre una gamma di funzioni, dall'inserimento e dall'elaborazione dei dati alla gestione e all'analisi. Azure Synapse in una rete virtuale gestita fornisce l'isolamento di rete per l'area di lavoro. Abilitando la protezione dell'esfiltrazione dei dati, è possibile limitare la connettività in uscita solo alle destinazioni approvate.
- Le risorse di Azure Synapse, il runtime di integrazione di Azure e i pool di Spark che si trovano nella rete virtuale gestita possono connettersi ad Azure Data Lake Storage, Azure Key Vault e altri archivi dati di Azure con sicurezza aumentata usando endpoint privati gestiti. I pool SQL di Azure Synapse ospitati all'esterno della rete virtuale gestita possono connettersi ai servizi di Azure tramite endpoint privato nella rete virtuale aziendale.
- Gli amministratori possono applicare la connettività privata all'area di lavoro di Azure Synapse, Data Lake Storage, Key Vault, Analisi dei log e altri archivi dati tramite criteri di Azure applicati tra zone di destinazione dei dati a livello di gruppo di gestione. Possono anche abilitare la protezione dell'esfiltrazione dei dati per garantire una maggiore sicurezza per il traffico in uscita.
- Gli utenti accedono a Synapse Studio usando un Web browser da una rete locale con restrizioni tramite Hub collegamento privato di Azure Synapse. Gli hub di collegamenti privati vengono usati per caricare Synapse Studio tramite collegamenti privati con sicurezza avanzata. Una singola risorsa di Hub di collegamenti privati di Azure Synapse viene distribuita in una sottoscrizione di connettività con un endpoint privato nella rete virtuale hub. La rete virtuale hub è connessa alla rete locale tramite Azure ExpressRoute. La risorsa hub di collegamenti privati può essere usata per connettersi privatamente a tutte le aree di lavoro di Azure Synapse tramite Synapse Studio.
- I data engineer usano l'attività di copia delle pipeline di Azure Synapse, eseguite in un runtime di integrazione self-hosted, per inserire dati tra un archivio dati ospitato in un ambiente locale e archivi dati cloud come Data Lake Storage e pool SQL. L'ambiente locale è collegato via ExpressRoute alla rete virtuale hub in Azure.
- I data engineer usano l'attività Flusso di dati di Azure Synapse e i pool di Spark per trasformare i dati ospitati negli archivi dati cloud connessi al Rete virtuale gestito di Azure Synapse tramite endpoint privati gestiti. Per i dati che si trovano nell'ambiente locale, la trasformazione con i pool di Spark richiede la connettività tramite un servizio di collegamento privato personalizzato. Il servizio personalizzato Collegamento privato usa macchine virtuali NAT (Network Address Translation) per connettersi all'archivio dati locale. Per informazioni sulla configurazione del servizio collegamento privato per accedere agli archivi dati locali da una rete virtuale gestita, vedere Come accedere a SQL Server locale dalla rete virtuale gestita di Data Factory usando l'endpoint privato.
- Se la protezione dell'esfiltrazione dei dati è abilitata in Azure Synapse, la registrazione delle applicazioni Spark nell'area di lavoro Log Analytics viene instradata tramite una risorsa ambito collegamento privato di Monitoraggio di Azure connessa alla rete virtuale gestita di Azure Synapse tramite endpoint privato gestito. Come illustrato nel diagramma, una singola risorsa ambito di collegamento privato di Monitoraggio di Azure è ospitata in una sottoscrizione di connettività con endpoint privato nella rete virtuale hub. Tutte le aree di lavoro Analisi dei log e le risorse di Application Insights possono essere raggiunte privatamente tramite l'ambito collegamento privato di Monitoraggio di Azure.
Componenti
- Azure Synapse Analytics è un servizio di analisi aziendale che accelera il tempo per ottenere informazioni dettagliate tra data warehouse e sistemi Big Data.
- La rete virtuale gestita di Azure Synapse offre l'isolamento di rete per le aree di lavoro di Azure Synapse da altre aree di lavoro.
- Gli endpoint privati gestiti di Azure Synapse sono endpoint privati creati in una rete virtuale gestita associata a un'area di lavoro di Azure Synapse. Gli endpoint privati gestiti stabiliscono la connettività del collegamento privato alle risorse di Azure all'esterno della rete gestita.
- L'area di lavoro di Azure Synapse con protezione dell'esfiltrazione dei dati impedisce l'esfiltrazione di dati sensibili in posizioni esterne all'ambito di un'organizzazione.
- Hub collegamento privato di Azure sono risorse di Azure che fungono da connettori tra la rete protetta e l'esperienza Web di Synapse Studio.
- Il runtime di integrazione è l'infrastruttura di calcolo usata dalle pipeline di Azure Synapse per fornire funzionalità di integrazione dei dati in ambienti di rete diversi. Eseguire l'attività Flusso di dati nel runtime di integrazione di calcolo di Azure gestito o nella attività Copy tra reti usando un runtime di integrazione di calcolo self-hosted.
- Collegamento privato di Azure fornisce l'accesso privato ai servizi ospitati in Azure. Il servizio Collegamento privato di Azure è il riferimento a un servizio personalizzato basato su Collegamento privato di Azure. È possibile abilitare il servizio eseguito dietro il Load Balancer standard di Azure per l'accesso al collegamento privato. È quindi possibile estendere collegamento privato servizio alla Rete virtuale gestita di Azure Synapse tramite l'endpoint privato gestito.
- Apache Spark in Azure Synapse è una delle diverse implementazioni Microsoft di Apache Spark nel cloud. Azure Synapse semplifica la creazione e la configurazione delle funzionalità di Spark in Azure.
- Data Lake Storage usa Archiviazione di Azure come base per la creazione di data lake aziendali in Azure.
- Key Vault consente di archiviare segreti, chiavi e certificati con sicurezza avanzata.
- Le zone di destinazione di Azure sono gli output di un ambiente Azure multi-sottoscrizione che tiene conto della scalabilità, della governance della sicurezza, della rete e dell'identità. Una zona di destinazione consente la migrazione, la modernizzazione e l'innovazione delle applicazioni su scala aziendale in Azure.
Dettagli dello scenario
Questo articolo offre un approccio alla preparazione delle sottoscrizioni della zona di destinazione di Azure per una distribuzione scalabile e avanzata della sicurezza di Azure Synapse. La soluzione è conforme alle procedure consigliate di Cloud Adoption Framework per Azure e si concentra sulle linee guida di progettazione per le zone di destinazione su scala aziendale.
Molte organizzazioni di grandi dimensioni con business unit decentralizzate e autonome vogliono adottare soluzioni di analisi e data science su larga scala. È fondamentale che creino le basi giuste. Azure Synapse e Data Lake Storage sono i componenti centrali per l'implementazione di analisi su scala cloud e un'architettura di mesh di dati.
Questo articolo fornisce consigli per la distribuzione di Azure Synapse tra gruppi di gestione, topologia di sottoscrizione, rete, identità e sicurezza.
Utilizzando questa soluzione, è possibile ottenere:
- Una piattaforma di analisi della sicurezza avanzata ben regolamentata che viene ridimensionata in base alle esigenze in più zone di destinazione dei dati.
- Riduzione del sovraccarico operativo per i team dell'applicazione dati. Possono concentrarsi sull'ingegneria dei dati e sull'analisi e lasciare la gestione della piattaforma Azure Synapse al team operativo della zona di destinazione dei dati.
- Applicazione centralizzata della conformità dell'organizzazione nelle zone di destinazione dei dati.
Potenziali casi d'uso
Questa architettura risulta utile per le organizzazioni con le esigenze seguenti:
- Un piano dati e controllo completamente integrato e operativo per i carichi di lavoro di Azure Synapse, fin dall'inizio.
- Un'implementazione di sicurezza avanzata di Azure Synapse, con particolare attenzione alla sicurezza e alla privacy dei dati.
Questa architettura può fungere da punto di partenza per le distribuzioni su larga scala dei carichi di lavoro di Azure Synapse tra sottoscrizioni dell'area di destinazione dei dati.
Topologia della sottoscrizione
Le organizzazioni che creano piattaforme di analisi e dati su larga scala cercano modi per ridimensionare le attività in modo coerente ed efficiente nel tempo.
- Usando le sottoscrizioni come unità di scala per le zone di destinazione dei dati, le organizzazioni possono superare le limitazioni a livello di sottoscrizione, garantire la corretta gestione dell'isolamento e dell'accesso e ottenere una crescita futura flessibile per il footprint della piattaforma dati. All'interno di una zona di destinazione dei dati, è possibile raggruppare Azure Synapse e altri asset di dati per casi d'uso di analisi specifici all'interno di un gruppo di risorse.
- Il proprietario della piattaforma della zona di destinazione è responsabile della configurazione del gruppo di gestione e della sottoscrizione e fornisce l'accesso necessario agli amministratori della piattaforma dati per il provisioning di Azure Synapse e di altri servizi.
- Tutti i criteri di conformità dei dati a livello di organizzazione vengono applicati a livello di gruppo di gestione per applicare la conformità tra le zone di destinazione dei dati.
Topologia di rete
Per consigli per le zone di destinazione che usano la topologia di rete WAN virtuale (hub e spoke), vedere Topologia di rete WAN virtuale. Queste raccomandazioni sono allineate alle procedure consigliate di Cloud Adoption Framework .
Di seguito sono riportate alcune raccomandazioni per la topologia di rete di Azure Synapse:
Implementare l'isolamento di rete per le risorse di Azure Synapse tramite Rete virtuale gestita. Implementare la protezione dell'esfiltrazione dei dati limitando l'accesso in uscita solo alle destinazioni approvate.
Configurare la connettività privata:
- Servizi di Azure come Data Lake Storage, Key Vault e Azure SQL tramite endpoint privati gestiti.
- Archivi dati e applicazioni locali tramite ExpressRoute, tramite un runtime di integrazione self-hosted. Usare un servizio di collegamento privato personalizzato per connettere le risorse Spark agli archivi dati locali se non è possibile usare un runtime di integrazione self-hosted.
- Synapse Studio, tramite hub di collegamenti privati distribuiti in una sottoscrizione di connettività.
- L'area di lavoro Analisi dei log, tramite Monitoraggio di Azure collegamento privato Ambito, distribuita in una sottoscrizione di connettività.
Gestione delle identità e dell'accesso
Le aziende usano in genere un approccio con privilegi minimi per l'accesso operativo. Usano Microsoft Entra ID, controllo degli accessi in base al ruolo di Azure e definizioni di ruolo personalizzate per la gestione degli accessi.
- Implementare controlli di accesso con granularità fine in Azure Synapse usando ruoli di Azure, ruoli di Azure Synapse, ruoli SQL e autorizzazioni Git. Per altre informazioni sul controllo di accesso dell'area di lavoro di Azure Synapse, vedere questa panoramica.
- I ruoli di Azure Synapse forniscono set di autorizzazioni che è possibile applicare in ambiti diversi. Grazie a questa granularità, è facile concedere ad amministratori, sviluppatori, addetti alla sicurezza e operatori l'accesso appropriato a risorse di calcolo e dati.
- È possibile semplificare il controllo di accesso usando gruppi di sicurezza allineati ai ruoli di processo. Per gestire l'accesso, è necessario aggiungere e rimuovere utenti dai gruppi di sicurezza appropriati.
- È possibile garantire la sicurezza per la comunicazione tra Azure Synapse e altri servizi di Azure, ad esempio Data Lake Storage e Key Vault, usando identità gestite assegnate dall'utente. In questo modo, si elimina la necessità di gestire le credenziali. Le identità gestite forniscono un'identità che verrà usata dalle applicazioni quando si connettono a risorse che supportano l'autenticazione di Microsoft Entra.
Automazione delle applicazioni e DevOps
- L'integrazione e il recapito continui per un'area di lavoro di Azure Synapse vengono ottenuti tramite l'integrazione Git e la promozione di tutte le entità da un ambiente (sviluppo, test, produzione) a un altro ambiente.
- Implementare l'automazione con i modelli Bicep/Azure Resource Manager per creare o aggiornare le risorse dell'area di lavoro (pool e aree di lavoro). Eseguire la migrazione di elementi come script SQL e notebook, definizioni di processi Spark, pipeline, set di dati e altri artefatti usando gli strumenti di distribuzione dell'area di lavoro Synapse in Azure DevOps o in GitHub, come descritto in Integrazione e recapito continui per un'area di lavoro di Azure Synapse Analytics.
Considerazioni
Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, che è un set di set di principi guida che è possibile usare per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Well-Architected Framework.
Affidabilità
L'affidabilità garantisce che l'applicazione possa soddisfare gli impegni assunti dai clienti. Per altre informazioni, vedere Elenco di controllo per la revisione della progettazione per l'affidabilità.
- Azure Synapse, Data Lake Storage e Key Vault sono servizi PaaS (Platform as a Service) gestiti con disponibilità elevata e resilienza predefiniti. È possibile usare nodi ridondanti per rendere il runtime di integrazione self-hosted e le macchine virtuali NAT nell'architettura a disponibilità elevata.
- Per informazioni sul contratto di servizio, vedere Contratto di servizio per Azure Synapse Analytics.
- Per indicazioni sulla continuità aziendale e sul ripristino di emergenza per Azure Synapse, vedere Punti di ripristino del database per Azure Synapse Analytics.
Sicurezza
La sicurezza offre garanzie contro attacchi intenzionali e l'uso improprio dei dati e dei sistemi preziosi. Per altre informazioni, vedere Elenco di controllo per la revisione della progettazione per la sicurezza.
- Questa baseline di sicurezza applica indicazioni da Azure Security Benchmark 2.0 ai pool SQL dedicati di Azure Synapse.
- Per informazioni sui controlli di sicurezza di Criteri di Azure per Azure Synapse, vedere Controlli di conformità alle normative di Criteri di Azure per Azure Synapse Analytics.
- Per i criteri predefiniti importanti per l'area di lavoro di Azure Synapse, vedere Definizioni predefinite di Criteri di Azure per Azure Synapse Analytics.
Ottimizzazione dei costi
L'ottimizzazione dei costi è incentrata sui modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Elenco di controllo per la revisione della progettazione per Ottimizzazione costi.
- Le risorse di analisi vengono misurate in Unità Data Warehouse (DWU), che consentono di tenere traccia di CPU, memoria e I/O. È consigliabile iniziare con DWU piccole e misurare le prestazioni per operazioni con un numero elevato di risorse, quali caricamento o trasformazioni di un numero elevato di dati. In questo modo, è possibile determinare il numero di unità necessarie per ottimizzare il carico di lavoro.
- Risparmiare con i prezzi con pagamento in base al consumo usando unità di commit di Azure Synapse (SCU) acquistate in pre-acquisto.
- Per esplorare le opzioni dei prezzi e stimare il costo dell'implementazione di Azure Synapse, vedere Prezzi di Azure Synapse Analytics.
- Questa stima dei prezzi contiene i costi per la distribuzione dei servizi usando i passaggi di automazione descritti nella sezione successiva.
Distribuire lo scenario
Prerequisiti: è necessario avere un account Azure. Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.
Tutto il codice per questo scenario è disponibile nel repository Codebase di Synapse Enterprise in GitHub.
La distribuzione automatizzata usa modelli Bicep per distribuire i componenti seguenti:
- Un gruppo di risorse
- Una rete virtuale e le subnet
- Livelli di archiviazione (Bronze, Silver e Gold) con endpoint privati
- Un'area di lavoro di Azure Synapse con una rete virtuale gestita
- Servizio di collegamento privato ed endpoint
- Load balancer e VM NAT
- Una risorsa di runtime di integrazione self-hosted
Nel repository, è disponibile uno script di PowerShell per orchestrare la distribuzione. È possibile eseguire lo script di PowerShell o usare il file pipeline.yml per distribuirlo come pipeline in Azure DevOps.
Per altre informazioni sui modelli Bicep, i passaggi di distribuzione e i presupposti, vedere il file leggimi .
Collaboratori
Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.
Autori principali:
- Vidya Narasimhan | Architetto principale di soluzioni cloud
- Sabyasachi Samaddar | Architetto senior di soluzioni cloud
Altro collaboratore:
- Mick Alberts | Writer tecnico
Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.
Passaggi successivi
- Per informazioni sulla creazione di una piattaforma di analisi e dati end-to-end, vedere Linee guida per l'analisi su scala cloud .
- Esplorare la mesh di dati come modello architetturale per l'implementazione di piattaforme dati aziendali in organizzazioni di grandi dimensioni e complesse.
- Vedere il white paper sulla sicurezza di Azure Synapse.
Per maggiori informazioni sui servizi descritti in questo articolo, consultare queste risorse: