Metodologia di successo dell'implementazione di Synapse: valutare la progettazione dell'integrazione dei dati
Nota
Questo articolo fa parte della serie di articoli relativi al Successo dell'implementazione di Azure Synapse in base alla progettazione. Per una panoramica della serie, vedere Successo dell'implementazione di Azure Synapse da progettazione.
Azure Synapse Analytics contiene lo stesso motore di integrazione dei dati e le stesse esperienze di Azure Data Factory, consentendo di creare pipeline di estrazione, trasformazione e caricamento (ETL) su larga scala senza uscire da Azure Synapse Analytics.
Questo articolo descrive come valutare la progettazione dei componenti di integrazione dei dati per il progetto. In particolare, consente di determinare se le pipeline di Azure Synapse sono le più adatte ai requisiti di integrazione dei dati. Il tempo investito nella valutazione della progettazione prima dello sviluppo della soluzione può contribuire a eliminare modifiche di progettazione impreviste che potrebbero influire sulla sequenza temporale o sui costi del progetto.
Analisi corrispondenza-scarto
È consigliabile eseguire un'analisi approfondita della corrispondenza-scarto relativamente alla strategia di integrazione dei dati. Se si scelgono le pipeline di Azure Synapse come strumento di integrazione dei dati, esaminare i punti seguenti per assicurarsi che siano la soluzione migliore per i requisiti di integrazione dei dati e l'orchestrazione. Anche se si scelgono diversi strumenti di integrazione dei dati, è comunque necessario esaminare i punti seguenti per verificare che tutti i punti di progettazione chiave siano stati considerati e che lo strumento scelto supporti le esigenze della soluzione. Queste informazioni dovrebbero essere state acquisite durante la valutazione eseguita in precedenza in questa metodologia.
- Esaminare le origini dati e le destinazioni:
- Verificare che gli archivi di origine e di destinazione siano archivi dati supportati.
- Se non sono supportati, verificare se è possibile usare le opzioni estendibili.
- Esaminare i punti di attivazione dell'integrazione dei dati e la frequenza:
- Le pipeline di Azure Synapse supportano la pianificazione, la finestra a cascata e i trigger di eventi di archiviazione.
- Convalidare l'intervallo di ricorrenza minimo e gli eventi di archiviazione supportati in base ai requisiti.
- Esaminare le modalità necessarie di integrazione dei dati:
- L'elaborazione batch pianificata, periodica e attivata può essere progettata in modo efficace nelle pipeline di Azure Synapse.
- Per implementare la funzionalità Change Data Capture (CDC), usare prodotti di terze parti o creare una soluzione personalizzata.
- Per supportare lo streaming in tempo reale, usare Hub eventi di Azure, Hub eventi di Azure da Apache Kafka o hub IoT di Azure.
- Per eseguire pacchetti di Microsoft SQL Server Integration Services (SSIS), è possibile spostare in modalità lift-and-shift i carichi di lavoro SSIS nel cloud.
- Esaminare la progettazione di calcolo:
- Il calcolo necessario per le pipeline deve essere serverless o sottoposto a provisioning?
- Le pipeline di Azure Synapse supportano entrambe le modalità di runtime di integrazione: serverless o self-hosted in un computer Windows.
- Convalidare porte e firewall e impostazioni proxy quando si usa il runtime di integrazione self-hosted (con provisioning).
- Esaminare i requisiti di sicurezza, la configurazione di rete e firewall dell'ambiente e confrontarli con la progettazione della configurazione di sicurezza, rete e firewall:
- Esaminare il modo in cui le origini dati sono protette e in rete.
- Esaminare il modo in cui gli archivi dati di destinazione sono protetti e in rete. Le pipeline di Azure Synapse hanno strategie di accesso ai dati diverse che offrono un modo sicuro per connettere gli archivi dati tramite endpoint privati o reti virtuali.
- Usare Azure Key Vault per archiviare le credenziali quando applicabile.
- Usare Azure Data Factory per la crittografia della chiave gestita dal cliente delle credenziali e archiviarle nel runtime di integrazione self-hosted.
- Esaminare la progettazione per il monitoraggio continuo di tutti i componenti di integrazione dei dati.
Considerazioni sull'architettura
Quando si esamina la progettazione dell'integrazione dei dati, prendere in considerazione le raccomandazioni e le linee guida seguenti per garantire che i componenti di integrazione dei dati della soluzione forniscano un'eccellenza operativa continua, un'efficienza delle prestazioni, un'affidabilità e una sicurezza continui.
Eccellenza operativa
Per l'eccellenza operativa, valutare i punti seguenti.
- Ambiente: quando si pianificano gli ambienti, separarli in base allo sviluppo/test, ai test di accettazione utente e alla produzione. Usare le opzioni organizzative della cartella per organizzare le pipeline e i set di dati in base ai processi business/ETL per supportare una migliore manutenibilità. Usare le annotazioni per contrassegnare le pipeline in modo da poterle monitorare facilmente. Creare pipeline riutilizzabili usando i parametri e l'iterazione e le attività condizionali.
- Monitoraggio e avviso: le aree di lavoro Synapse includono l'hub Monitoraggio, che include informazioni di monitoraggio avanzate di ogni esecuzione della pipeline. Si integra anche con Log Analytics per ulteriori analisi e avvisi dei log. È consigliabile implementare queste funzionalità per fornire notifiche di errore proattive. Usare anche i percorsi in caso di esito negativo per implementare la gestione degli errori personalizzata.
- Distribuzione e test automatizzati: le pipeline di Azure Synapse sono integrate nell'area di lavoro Synapse, in modo da poter sfruttare l'automazione e la distribuzione dell'area di lavoro. Usare i modelli di Resource Manager per ridurre al minimo le attività manuali durante la creazione delle aree di lavoro Synapse. Integrare anche le aree di lavoro Synapse con Azure DevOps per compilare il controllo delle versioni del codice e automatizzare la pubblicazione.
Efficienza prestazionale
Per migliorare l'efficienza delle prestazioni, valutare i punti seguenti.
- Seguire le indicazioni sulle prestazioni e le funzionalità di ottimizzazione quando si lavora con l'attività di copia.
- Scegliere i connettori ottimizzati per il trasferimento dei dati anziché i connettori generici. Ad esempio, usare PolyBase anziché l'inserimento in blocco quando si spostano dati da Azure Data Lake Storage Gen2 (ALDS Gen2) a un pool SQL dedicato.
- Quando si crea una nuova istanza di Azure IR, impostare la posizione dell'area sulla risoluzione automatica o selezionare la stessa area degli archivi dati.
- Per il runtime di integrazione self-hosted, scegliere le dimensioni della macchina virtuale di Azure in base ai requisiti di integrazione.
- Scegliere una connessione di rete stabile, ad esempio Azure ExpressRoute, per una larghezza di banda rapida e coerente.
Affidabilità
Quando si esegue una pipeline usando Azure IR, essendo di natura serverless offre resilienza predefinita. C'è poco da gestire per i clienti. Tuttavia, quando una pipeline viene eseguita in un runtime di integrazione self-hosted, è consigliabile eseguirla usando una configurazione a disponibilità elevata nelle macchine virtuali di Azure. Questa configurazione garantisce che le pipeline di integrazione non siano interrotte anche quando una macchina virtuale passa offline. È anche consigliabile usare Azure ExpressRoute per una connessione di rete veloce e affidabile tra l'ambiente locale e Azure.
Sicurezza
Una piattaforma dati protetta è uno dei requisiti chiave di ogni organizzazione. È consigliabile pianificare accuratamente la sicurezza per l'intera piattaforma anziché per i singoli componenti. Ecco alcune linee guida per la sicurezza per le soluzioni della pipeline di Azure Synapse.
- Proteggere lo spostamento dei dati nel cloud usando gli endpoint privati di Azure Synapse.
- Usare le identità gestite di Microsoft Entra per l'autenticazione.
- Usare il controllo degli accessi in base al ruolo di Azure e il controllo degli accessi in base al ruolo di Synapse per l'autorizzazione.
- Archiviare credenziali, segreti e chiavi in Azure Key Vault anziché nella pipeline. Per altre informazioni, vedere Usare i segreti di Azure Key Vault nelle attività della pipeline.
- Connettersi alle risorse locali tramite Azure ExpressRoute o VPN tramite endpoint privati.
- Abilitare le opzioni Output sicuro e Input sicuro nelle attività della pipeline quando nei parametri sono archiviati segreti o password.
Passaggi successivi
Nell'articolo successivo della serie Successo di Azure Synapse in base alla progettazione, vedere come valutare la progettazione del pool SQL dedicato per individuare eventuali problemi e verificare che soddisfi le linee guida e i requisiti.