Progettare una strategia di caricamento dei dati di PolyBase per il pool SQL dedicato

Tip

Microsoft Fabric Data Warehouse è un data warehouse relazionale su scala aziendale su una base data lake, con un'architettura futura, un'intelligenza artificiale predefinita e nuove funzionalità. Se non si ha familiarità con il data warehousing, iniziare con Fabric Data Warehouse. I carichi di lavoro esistenti del pool SQL dedicated possono eseguire l'aggiornamento a Fabric per accedere a nuove funzionalità tra data science, analisi in tempo reale e creazione di report.

I data warehouse tradizionali con multiprocessore simmetrico (SMP) usano un processo ETL (Extract, Transform e Load) per il caricamento dei dati. Un pool Azure SQL è un'architettura di elaborazione parallela massiva (MPP, Massively Parallel Processing) che sfrutta la scalabilità e la flessibilità delle risorse di calcolo e archiviazione.

Al contrario, un processo ELT (Extract, Load e Transform) può sfruttare le funzionalità di elaborazione delle query distribuite predefinite ed eliminare le risorse necessarie per trasformare i dati prima del caricamento.

Anche se il pool SQL supporta molti metodi di caricamento, tra cui opzioni non Polybase, ad esempio il programma di copia bulk (bcp) e l'API BulkCopy DI SQL, il modo più rapido e scalabile per caricare i dati è tramite PolyBase. PolyBase è una tecnologia che accede ai dati esterni archiviati nell'archivio BLOB di Azure o in Azure Data Lake Storage tramite il linguaggio Transact-SQL (T-SQL).

Implementare Polybase ELT

Nel processo di estrazione, caricamento e trasformazione (ELT) i dati vengono estratti da un sistema di origine, caricati in un data warehouse e quindi trasformati.

Per l'implementazione di un processo ELT di PolyBase per pool SQL dedicati è necessario eseguire questi passaggi:

Estrarre i dati di origine in file di testo.
Inserire i dati nell'archiviazione BLOB di Azure o in Azure Data Lake Storage.
Preparare i dati per il caricamento.
Caricare i dati in tabelle di gestione temporanea del pool SQL dedicate usando PolyBase.
Trasforma i dati.
Inserire i dati nelle tabelle di produzione.

Per un'esercitazione sul caricamento, vedere Carica il dataset New York Taxicab.

Per altre informazioni, vedere Caricamento di modelli e strategie.

Estrarre i dati di origine in file di testo

La modalità di recupero dei dati dal sistema di origine dipende dalla posizione di archiviazione. L'obiettivo è spostare i dati in file di testo delimitati supportati da PolyBase.

Formati di file esterni PolyBase

PolyBase carica i dati da file di testo delimitati con codifica UTF-8 e UTF-16. Inoltre, PolyBase supporta il caricamento da formati di file Hadoop, ovvero RC, ORC e Parquet. PolyBase può anche caricare dati da file compressi Gzip e Snappy. PolyBase attualmente non supporta formati ASCII estesi, a larghezza fissa o annidati, ad esempio WinZip, JSON e XML.

Se si esegue l'esportazione da SQL Server, è possibile usare lo strumento da riga di comando bcp per esportare i dati in file di testo delimitati. La tabella seguente elenca i tipi di dati Parquet mappati ad Azure Synapse Analytics.

Tipo di dati Parquet	tipo di dati SQL
tinyint	tinyint
smallint	smallint
int	int
bigint	bigint
boolean	bit
doppio	float
float	Real
doppio	denaro
doppio	smallmoney
string	nchar
string	nvarchar
string	Char
string	varchar
binario	binario
binario	varbinary
timestamp	data
timestamp	smalldatetime
timestamp	datetime2
timestamp	data e ora
timestamp	tempo
data	data
decimale	decimale

Trasferire i dati in Archiviazione Blob di Azure o in Archivio dati di Azure Data Lake.

Per trasferire i dati in Archiviazione di Azure, è possibile spostarli nell'archivio BLOB di Azure o in Azure Data Lake Storage. In entrambe le posizioni, i dati devono essere archiviati in file di testo. PolyBase può eseguire il caricamento da entrambe le posizioni.

È possibile usare gli strumenti e i servizi seguenti per spostare i dati in Archiviazione di Azure:

Il servizio Azure ExpressRoute migliora la velocità effettiva della rete, le prestazioni e la prevedibilità. ExpressRoute è un servizio che instrada i dati tramite una connessione privata dedicata ad Azure. Le connessioni ExpressRoute non instradano i dati attraverso la rete Internet pubblica. Queste connessioni offrono maggiore affidabilità, velocità più elevate, latenze minori e sicurezza superiore rispetto alle tipiche connessioni tramite la rete Internet pubblica.
L'utilità AzCopy sposta i dati in Archiviazione di Azure tramite la rete Internet pubblica. Si tratta di un'opzione appropriata se le dimensioni dei dati sono inferiori a 10 TB. Per eseguire regolarmente carichi con AzCopy, testare la velocità di rete per verificare se è accettabile.
Azure Data Factory dispone di un gateway che è possibile installare nel server locale. È quindi possibile creare una pipeline per spostare i dati dal server locale ad Archiviazione di Azure. Per usare Data Factory con un pool SQL dedicato, vedere Caricare i dati in Azure Synapse Analytics.

Preparare i dati per il caricamento

Potrebbe essere necessario preparare e pulire i dati nell'account di archiviazione prima di caricarli nel pool SQL dedicato. La preparazione dei dati può essere eseguita mentre i dati si trovano nell'origine, durante l'esportazione dei dati in file di testo o dopo l'archiviazione di Azure. È più semplice lavorare con i dati il prima possibile nel processo.

Definire tabelle esterne

Prima di caricare i dati, è necessario definire le tabelle esterne nel data warehouse. PolyBase usa le tabelle esterne per definire i dati e accedervi in Archiviazione di Azure. Una tabella esterna è simile a una vista di database. La tabella esterna contiene lo schema di tabella e punta a dati archiviati all'esterno del data warehouse.

La definizione di tabelle esterne include la specifica dell'origine dati, del formato dei file di testo e delle definizioni delle tabelle. Di seguito sono riportati gli argomenti della sintassi T-SQL necessari:

CREATE EXTERNAL DATA SOURCE
CREA FORMATO DI FILE ESTERNO
CREATE EXTERNAL TABLE (Crea tabella esterna)

Formattare i file di testo

Dopo aver definito gli oggetti esterni, è necessario allineare le righe dei file di testo alla definizione della tabella esterna e del formato del file. I dati in ogni riga del file di testo devono essere allineati alla definizione della tabella. Per formattare i file di testo:

Se i dati provengono da un'origine non relazionale, è necessario trasformarli in righe e colonne. Sia che i dati provengano da un'origine relazionale o non relazionale, devono essere trasformati per allinearli alle definizioni di colonna per la tabella in cui si prevede di caricare i dati.
Formattare i dati nel file di testo per allinearli alle colonne e ai tipi di dati nella tabella di destinazione dei pool SQL. In caso di non allineamento dei tipi di dati nei file di testo esterni e nella tabella del data warehouse, le righe verranno rifiutate durante il caricamento.
Separare i campi nel file di testo con un carattere di terminazione. Assicurarsi di usare una sequenza di caratteri o caratteri non trovata nei dati di origine. Usare il carattere di terminazione specificato con CREATE EXTERNAL FILE FORMAT.

Carica i dati nelle tabelle di staging del pool SQL dedicato usando PolyBase

È consigliabile caricare i dati in una tabella di staging. Le tabelle di staging consentono di gestire gli errori senza interferire con le tabelle di produzione. Una tabella di staging consente anche di usare le funzionalità di elaborazione delle query distribuite predefinite del pool SQL per le trasformazioni di dati prima di inserire i dati nelle tabelle di produzione.

Opzioni per il caricamento con PolyBase

Per caricare i dati con PolyBase, è possibile usare una di queste opzioni di caricamento:

Caricare dati esterni usando Microsoft Entra ID.
Caricare dati esterni usando un'identità gestita.
PolyBase con T-SQL funziona bene quando i dati si trovano nell'archiviazione BLOB di Azure o in Azure Data Lake Storage. Questa opzione offre il massimo controllo sul processo di caricamento, ma richiede anche di definire oggetti dati esterni. Gli altri metodi definiscono questi oggetti dietro le quinte, man mano che si esegue il mapping di tabelle di origine e tabelle di destinazione. Per orchestrare i carichi T-SQL, è possibile usare Azure Data Factory, SSIS o Funzioni di Azure.
PolyBase con SQL Server Integration Services (SSIS) funziona correttamente quando i dati di origine si trovano in SQL Server. SSIS definisce i mapping delle tabelle da origine a destinazione e orchestra anche il carico. Se sono già disponibili pacchetti SSIS, è possibile modificarli per utilizzare la nuova destinazione di data warehouse.
PolyBase con Azure Data Factory è un altro strumento di orchestrazione. che definisce una pipeline e pianifica i processi.
PolyBase con Azure Databricks trasferisce i dati da una tabella di Azure Synapse Analytics in un dataframe di Databricks e/o scrive i dati da un dataframe di Databricks in una tabella di Azure Synapse Analytics usando PolyBase.

Opzioni di caricamento non PolyBase

Se i dati non sono compatibili con PolyBase, è possibile usare bcp o l'API SQLBulkCopy. BCP carica direttamente i dati nei pool SQL dedicati senza usare Archiviazione BLOB di Azure ed è destinato esclusivamente a caricamenti di piccole dimensioni. Si noti che le prestazioni di caricamento di queste opzioni sono inferiori rispetto a PolyBase.

Trasformazione dei dati

Mentre i dati sono nella tabella di staging, esegui le trasformazioni richieste dal processo. quindi spostare i dati in una tabella di produzione.

Inserire i dati in tabelle di produzione

L'istruzione INSERT INTO ... SELECT sposta i dati dalla tabella di staging alla tabella permanente.

Quando si progetta un processo ETL, provare a eseguire il processo su un campione di test di piccole dimensioni. Prova ad estrarre 1.000 righe dalla tabella in un file, caricalo su Azure e poi prova a caricarlo in una tabella di staging.

Soluzioni di caricamento in collaborazione

Molti partner Microsoft dispongono di soluzioni di caricamento. Per altre informazioni, vedere l'elenco dei partner che offrono soluzioni.

Procedure consigliate per il caricamento di dati in un pool SQL dedicato

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-05-03