Metodologia per il successo dell'implementazione di Synapse: Valutazione della progettazione del pool SQL serverless

Annotazioni

Questo articolo fa parte della serie di articoli relativi al Successo dell'implementazione di Azure Synapse in base alla progettazione. Per una panoramica della serie, vedere Implementazione di Azure Synapse success by design.

È consigliabile valutare la progettazione del pool SQL serverless per identificare i problemi e verificare che soddisfi le linee guida e i requisiti. Valutando la progettazione prima dell'inizio dello sviluppo di soluzioni, è possibile evitare blocchi e modifiche di progettazione impreviste. In questo modo, proteggi la sequenza temporale e il budget del progetto.

La separazione dell'architettura di archiviazione e calcolo per dati moderni, piattaforme analitiche e servizi è stata un modello di tendenza e di uso frequente. Offre risparmi sui costi e maggiore flessibilità che consentono un ridimensionamento indipendente su richiesta dell'archiviazione e dell'ambiente di calcolo. Synapse SQL serverless estende questo modello aggiungendo la funzionalità per eseguire query direttamente sui dati data lake. Non è necessario preoccuparsi della gestione dell'elaborazione quando si usano carichi di lavoro di tipo self-service.

Analisi corrispondenza-scarto

Quando si prevede di implementare pool SQL serverless all'interno di Azure Synapse, è prima necessario assicurarsi che i pool serverless siano adatti ai carichi di lavoro. È consigliabile considerare l'eccellenza operativa, l'efficienza delle prestazioni, l'affidabilità e la sicurezza.

Eccellenza operativa

Per l'eccellenza operativa, valutare i punti seguenti.

Ambiente di sviluppo della soluzione: All'interno di questa metodologia è disponibile una valutazione dell'ambiente di sviluppo della soluzione. Identificare il modo in cui gli ambienti (sviluppo, test e produzione) sono progettati per supportare lo sviluppo di soluzioni. In genere, si trovano ambienti di produzione e non di produzione (per lo sviluppo e il test). È consigliabile trovare le aree di lavoro di Synapse in tutti gli ambienti. Nella maggior parte dei casi, sarà necessario separare gli utenti e i carichi di lavoro di produzione e sviluppo/test.
Progettazione dell'area di lavoro synapse: All'interno di questa metodologia è disponibile una valutazione della progettazione dell'area di lavoro synapse. Identificare il modo in cui le aree di lavoro sono state progettate per la soluzione. Acquisire familiarità con la progettazione e sapere se la soluzione userà una singola area di lavoro o se più aree di lavoro fanno parte della soluzione. Sapere perché è stata scelta una o più aree di lavoro. Una progettazione multi-area di lavoro viene spesso scelta per applicare limiti di sicurezza rigorosi.
Distribuzione: SQL serverless è disponibile su richiesta con ogni area di lavoro di Synapse, quindi non richiede alcuna azione di distribuzione speciale. Controllare la prossimità a livello di area del servizio e quella dell'account Azure Data Lake Storage Gen2 (ADLS Gen2) a cui è connessa.
Monitoraggio: Controllare se il monitoraggio predefinito è sufficiente e se è necessario inserire servizi esterni per archiviare i dati cronologici dei log. I dati di log consentono di analizzare le modifiche apportate alle prestazioni e di definire azioni di avviso o attivate per circostanze specifiche.

Efficienza delle prestazioni

A differenza dei motori di database tradizionali, SQL serverless non si basa sul proprio livello di archiviazione ottimizzato. Per questo motivo, le prestazioni dipendono in larga misura dalla modalità di organizzazione dei dati in ADLS Gen2. Per migliorare l'efficienza delle prestazioni, valutare i punti seguenti.

Inserimento dati: Esaminare il modo in cui i dati vengono archiviati nel data lake. Le dimensioni dei file, il numero di file e la struttura di cartelle hanno tutti un impatto sulle prestazioni. Tenere presente che, mentre alcune dimensioni dei file potrebbero funzionare per SQL serverless, possono imporre problemi per l'elaborazione efficiente o l'utilizzo da parte di altri motori o applicazioni. Dovrai valutare la progettazione dell'archiviazione dei dati e convalidarla rispetto a tutti i consumatori di dati, inclusi SQL serverless e qualsiasi altro strumento di dati che fanno parte della tua soluzione.
Posizionamento dei dati: Valutare se la progettazione ha modelli comuni unificati e definiti per il posizionamento dei dati. Assicurarsi che la struttura a rami della directory possa supportare i requisiti di sicurezza. Esistono alcuni modelli comuni che consentono di mantenere organizzati i dati delle serie temporali. Indipendentemente dalla scelta, assicurarsi che funzioni anche con altri motori e carichi di lavoro. Verificare inoltre se può contribuire all'individuazione automatica delle partizioni per le applicazioni Spark e le tabelle esterne.
Formati di dati: Nella maggior parte dei casi, SQL serverless offrirà prestazioni ottimali e una migliore funzionalità di compatibilità usando un formato Parquet. Verifica i requisiti di prestazioni e compatibilità, perché Parquet migliora le prestazioni, grazie a una migliore compressione e riduzione dell'I/O (leggendo solo le colonne necessarie per l'analisi), ma richiede più risorse di calcolo. Inoltre, poiché alcuni sistemi di origine non supportano in modo nativo Parquet come formato di esportazione, potrebbero comportare più passaggi di trasformazione nelle pipeline e/o nelle dipendenze nell'architettura complessiva.
Esplorazione: Ogni settore è diverso. In molti casi, tuttavia, esistono modelli di accesso ai dati comuni rilevati nelle query con esecuzione più frequente. I modelli in genere comportano filtri e aggregazioni in base a date, categorie o aree geografiche. Identificare i criteri di filtro più comuni e correlarli alla quantità di dati letti/eliminati dalle query eseguite più frequentemente. Verifica se le informazioni sul data lake sono organizzate per soddisfare i tuoi requisiti di esplorazione e aspettative. Per le query identificate nella progettazione e nella valutazione, vedere se è possibile eliminare le partizioni non necessarie nel parametro di percorso OPENROWSET o, se sono presenti tabelle esterne, se la creazione di più indici può essere utile.

Affidabilità

Per l'affidabilità, valutare i punti seguenti.

Disponibilità: Convalidare tutti i requisiti di disponibilità identificati durante la fase di valutazione. Anche se non sono presenti contratti di servizio specifici per SQL serverless, è previsto un timeout di 30 minuti per l'esecuzione delle query. Identificare le query con esecuzione più lunga dalla valutazione e convalidarle rispetto alla progettazione SQL serverless. Un timeout di 30 minuti potrebbe deludere le aspettative per il carico di lavoro e costituire un problema di servizio.
Coerenza: SQL serverless è progettato principalmente per i carichi di lavoro di lettura. Verificare quindi se tutte le verifiche di coerenza sono state eseguite durante il processo di provisioning e formazione dei dati del data lake. Rimanere aggiornati sulle nuove funzionalità, come il livello di archiviazione open-source Delta Lake, che fornisce supporto per le garanzie ACID (atomicità, coerenza, isolamento e durabilità) nelle transazioni. Questa funzionalità consente di implementare architetture lambda o kappa efficaci per supportare sia i casi d'uso in streaming che in batch. Assicurarsi di valutare la progettazione per le opportunità di applicare nuove funzionalità, ma non a scapito della sequenza temporale o dei costi del progetto.
Backup: Esaminare i requisiti di ripristino di emergenza identificati durante la valutazione. Verificarli rispetto alla progettazione serverless SQL per il ripristino. SQL serverless non ha un proprio livello di archiviazione e richiederebbe la gestione di snapshot e copie di backup dei dati. L'archivio dati a cui si accede da SQL serverless è esterno (ADLS Gen2). Esaminare la progettazione del ripristino nel progetto per questi set di dati.

sicurezza

L'organizzazione dei dati è importante per la creazione di basi di sicurezza flessibili. Nella maggior parte dei casi, processi e utenti diversi richiedono autorizzazioni diverse e l'accesso a aree secondarie specifiche del data lake o del data warehouse logico.

Per la sicurezza, valutare i punti seguenti.

Archiviazione dati: Usando le informazioni raccolte durante la fase di valutazione, identificare se le aree di data lake Raw, Stage e Curated devono essere inserite nello stesso account di archiviazione anziché in account di archiviazione indipendenti. Quest'ultimo potrebbe comportare una maggiore flessibilità in termini di ruoli e autorizzazioni. Può anche aggiungere più capacità di operazioni di input/output al secondo (IOPS) che potrebbero essere necessarie se l'architettura deve supportare carichi di lavoro di lettura/scrittura simultanei , ad esempio scenari IoT o in tempo reale. Verifica se è necessario separare ulteriormente le aree dati sandbox e master su account di archiviazione separati. La maggior parte degli utenti non dovrà aggiornare o eliminare i dati, quindi non hanno bisogno di autorizzazioni di scrittura per il data lake, ad eccezione delle aree sandbox e private.
Dalle informazioni di valutazione identificare se i requisiti si basano su funzionalità di sicurezza come Always Encrypted, Maschera dati dinamica o Sicurezza a livello di riga. Convalidare la disponibilità di queste funzionalità in scenari specifici, ad esempio quando viene usata con la funzione OPENROWSET. Prevedere possibili soluzioni alternative che potrebbero essere necessarie.
Dalle informazioni di valutazione identificare i metodi di autenticazione migliori. Si considerino i principali del servizio Microsoft Entra, la firma di accesso condiviso (SAS), e quando e come sia possibile utilizzare e integrare il pass-through di autenticazione nello strumento di esplorazione prescelto dal cliente. Valutare il progetto e verificare che il miglior metodo di autenticazione sia parte del progetto.

Altre considerazioni

Esaminare la progettazione e verificare se sono state applicate procedure consigliate e raccomandazioni. Prestare particolare attenzione all'ottimizzazione dei filtri e alla collazione per garantire che il predicate pushdown funzioni correttamente.

Passaggi successivi

Nell'articolo successivo della serie di progettazione di Azure Synapse, vedere come valutare la progettazione del pool di Spark per identificare i problemi e verificare che soddisfi le linee guida e i requisiti.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-03-26