Ottimizzazione della tabella Delta Lake e V-Order

Il formato delle tabelle Lakehouse e Delta Lake è fondamentale per Microsoft Fabric, perché assicurare che tali tabelle siano ottimizzate per l'analisi è un requisito fondamentale. La presente guida illustra i concetti di ottimizzazione e le configurazioni della tabella Delta Lake, oltre alla modalità di applicazione ai modelli di utilizzo Big Data più comuni.

Importante

I OPTIMIZE comandi in questo articolo sono comandi Spark SQL e devono essere eseguiti in ambienti Spark, ad esempio:

Notebook Fabric con il runtime di Spark
Definizioni di job Spark
Lakehouse tramite l'opzione Manutenzione in Explorer

Questi comandi NON sono supportati nell'editor di query SQL Analytics Endpoint o Warehouse SQL, che supportano solo i comandi T-SQL. Per la manutenzione delle tabelle tramite l'endpoint di Analisi SQL, usare le opzioni dell'interfaccia utente di manutenzione Lakehouse o eseguire i comandi in un notebook di Fabric.

Cos'è V-Order?

V-Order è un'ottimizzazione del tempo di scrittura nel formato di file parquet che consente letture veloci nei motori di calcolo di Microsoft Fabric, tra cio Power BI, SQL, Spark e altri.

I motori Power BI e SQL usano la tecnologia Microsoft Verti-Scan e i file parquet in V-Order per ottenere tempi di accesso ai dati simili a quelli dei dati in memoria. Spark e altri motori di calcolo non Verti-Scan traggono vantaggio anche dai file in V-Order con una media di tempi di lettura più veloce del 10%, con alcuni scenari fino al 50%.

L'ordine V ottimizza i file Parquet tramite l'ordinamento, la distribuzione dei gruppi di righe, la codifica e la compressione, riducendo l'utilizzo delle risorse e migliorando le prestazioni e l'efficienza dei costi. Sebbene aggiunga circa un 15% ai tempi di scrittura, può aumentare la compressione fino al 50%. L'ordinamento V-Order ha un impatto del 15% sui tempi di scrittura medi, ma offre una compressione fino al 50% in più.

È conforme al 100% al formato parquet open source e tutti i motori Parquet possono leggerlo come normali file parquet. Le tabelle Delta sono più efficienti che mai; funzionalità come Z-Order sono compatibili con V-Order. Le proprietà della tabella e i comandi di ottimizzazione possono essere usati per controllare l'ordine V delle relative partizioni.

V-Order viene applicato a livello di file parquet. Le tabelle Delta e le relative caratteristiche, come Z-Order, compattazione, svuotamento, spostamento cronologico e così via, sono ortogonali per V-Order e, in quanto tali, sono compatibili e possono essere usate insieme per vantaggi aggiuntivi.

Controllo delle scritture di V-Order

V-Order viene usato per ottimizzare il layout dei file parquet per prestazioni di query più veloci, in particolare per scenari in cui la lettura è intensa. In Microsoft Fabric, V-Order è disabilitato per impostazione predefinita per tutti i nuovi spazi di lavoro creati per ottimizzare le prestazioni con carichi di lavoro di ingegneria dei dati caratterizzati da un'intensa attività di scrittura.

Il comportamento del V-Order in Apache Spark viene controllato tramite le configurazioni seguenti:

Impostazione	Valore predefinito	Descrizione
`spark.sql.parquet.vorder.default`	`false`	Controlla la scrittura dell'ordine V a livello di sessione. Impostare su `false` per impostazione predefinita nei nuovi spazi di lavoro di Fabric.
`TBLPROPERTIES("delta.parquet.vorder.enabled")`	Non impostato	Controlla il comportamento predefinito del V-Order a livello di tabella.
Opzione del writer di DataFrame: `parquet.vorder.enabled`	Non impostato	Usato per controllare V-Order a livello di operazione di scrittura.

Usare i comandi seguenti per abilitare o eseguire l'override delle scritture V-Order a seconda delle esigenze del tuo scenario.

Importante

L'V-Order è disabilitato per impostazione predefinita nelle nuove aree di lavoro di Fabric (spark.sql.parquet.vorder.default=false) per migliorare le prestazioni per le pipeline di inserimento e trasformazione dei dati.
Se il carico di lavoro è orientato alla lettura, ad esempio query interattive o creazione di dashboard, abilitare V-Order con le configurazioni seguenti:
- Impostare la proprietà Spark spark.sql.parquet.vorder.default a "true".
- Passa ai profili di risorsa readHeavyforSpark o ReadHeavy. Questo profilo abilita automaticamente il V-Order per migliorare le performance di lettura.

In Fabric runtime 1.3 e versioni successive l'impostazione spark.sql.parquet.vorder.enable viene rimossa. Poiché l'ordine virtuale viene applicato automaticamente durante l'ottimizzazione Delta tramite istruzioni OPTIMIZE, non è necessario abilitare manualmente questa impostazione nelle versioni di runtime più recenti. Se si esegue la migrazione del codice da una versione di runtime precedente, è possibile rimuovere questa impostazione, perché il motore lo gestisce automaticamente.

Altre informazioni sui profili delle risorse

Controllare la configurazione di V-Order nella sessione di Apache Spark

%%sql 
SET spark.sql.parquet.vorder.default

%%pyspark
spark.conf.get('spark.sql.parquet.vorder.default')

%%spark  
spark.conf.get('spark.sql.parquet.vorder.default')

%%sparkr
library(SparkR)
sparkR.conf("spark.sql.parquet.vorder.default")

Disabilitare la scrittura di V-Order nella sessione di Apache Spark

%%sql 
SET spark.sql.parquet.vorder.default=FALSE

%%pyspark
spark.conf.set('spark.sql.parquet.vorder.default', 'false')

%%spark  
spark.conf.set("spark.sql.parquet.vorder.default", "false")

%%sparkr
library(SparkR)
sparkR.conf("spark.sql.parquet.vorder.default", "false")

Abilitare la scrittura di V-Order nella sessione di Apache Spark

Importante

Quando abilitata a livello di sessione. Tutte le scritture parquet vengono eseguite con V-Order abilitato, che include tabelle parquet non Delta e tabelle Delta con la parquet.vorder.enabled proprietà table impostata su true o false.

%%sql 
SET spark.sql.parquet.vorder.default=TRUE

%%pyspark
spark.conf.set('spark.sql.parquet.vorder.default', 'true')

%%spark  
spark.conf.set("spark.sql.parquet.vorder.default", "true")

%%sparkr
library(SparkR)
sparkR.conf("spark.sql.parquet.vorder.default", "true")

Controllare V-Order, usando le proprietà della tabella Delta

Abilitare la proprietà della tabella V-Order durante la creazione della tabella:

%%sql 
CREATE TABLE person (id INT, name STRING, age INT) USING parquet TBLPROPERTIES("delta.parquet.vorder.enabled" = "true");

Importante

Quando la proprietà della tabella è impostata su true, i comandi INSERT, UPDATE e MERGE si comportano come previsto ed eseguono l'ottimizzazione in fase di scrittura. Se la configurazione della sessione V-Order è impostata su true o spark.write la abilita, le scritture sono V Order anche se TBLPROPERTIES è impostato su false.

Abilitare o disabilitare V-Order modificando la proprietà della tabella:

%%sql 
ALTER TABLE person SET TBLPROPERTIES("delta.parquet.vorder.enabled" = "true");

ALTER TABLE person SET TBLPROPERTIES("delta.parquet.vorder.enabled" = "false");

ALTER TABLE person UNSET TBLPROPERTIES("delta.parquet.vorder.enabled");

Dopo aver abilitato o disabilitato V-Order usando le proprietà della tabella, sono interessate solo le scritture future nella tabella. I file Parquet mantengono l'ordinamento usato al momento della creazione. Per modificare la struttura fisica corrente per applicare o rimuovere l'ordine V, vedere Come controllare l'ordine virtuale durante l'ottimizzazione di una tabella.

Controllare direttamente V-Order nelle operazioni di scrittura

Tutti i comandi di scrittura di Apache Spark ereditano l'impostazione di sessione, se non esplicita. Tutti i comandi seguenti scrivono usando V-Order, ereditando in modo implicito la configurazione della sessione.

df_source.write\
  .format("delta")\
  .mode("append")\
  .saveAsTable("myschema.mytable")

DeltaTable.createOrReplace(spark)\
  .addColumn("id","INT")\
  .addColumn("firstName","STRING")\
  .addColumn("middleName","STRING")\
  .addColumn("lastName","STRING",comment="surname")\
  .addColumn("birthDate","TIMESTAMP")\
  .location("Files/people")\
  .execute()

df_source.write\
  .format("delta")\
  .mode("overwrite")\
  .option("replaceWhere","start_date >= '2017-01-01' AND end_date <= '2017-01-31'")\
  .saveAsTable("myschema.mytable")

Importante

V-Order si applica solo ai file interessati dal predicato.

In una sessione in cui spark.sql.parquet.vorder.default non è impostato o impostato su false, i comandi seguenti dovrebbero scrivere usando V-Order:

df_source.write\
  .format("delta")\
  .mode("overwrite")\
  .option("replaceWhere","start_date >= '2017-01-01' AND end_date <= '2017-01-31'")\
  .option("parquet.vorder.enabled ","true")\
  .saveAsTable("myschema.mytable")

DeltaTable.createOrReplace(spark)\
  .addColumn("id","INT")\
  .addColumn("firstName","STRING")\
  .addColumn("middleName","STRING")\
  .addColumn("lastName","STRING",comment="surname")\
  .addColumn("birthDate","TIMESTAMP")\
  .option("parquet.vorder.enabled","true")\
  .location("Files/people")\
  .execute()

Che cos'è Optimize Write?

I carichi di lavoro analitici nei motori di elaborazione Big Data, come Apache Spark, eseguono prestazioni più efficienti quando si usano dimensioni di file più grandi e standardizzate. La relazione tra le dimensioni del file, il numero di file, il numero di ruoli di lavoro Spark e le relative configurazioni svolge un ruolo fondamentale in ambito prestazionale. L'inserimento di dati in tabelle Data Lake potrebbe avere la caratteristica ereditata di scrivere costantemente molti file di piccole dimensioni; questo scenario è comunemente noto come "problema di file di piccole dimensioni".

Optimize Write è una funzionalità Delta Lake in Fabric e Synapse che riduce il numero di file e aumenta le dimensioni dei singoli file durante le scritture in Apache Spark. Le dimensioni del file di destinazione possono essere modificate in base ai requisiti del carico di lavoro usando le configurazioni.

La funzionalità è abilitata per impostazione predefinita in Runtime di Microsoft Fabric per Apache Spark. Per ulteriori informazioni sugli scenari di utilizzo di Ottimizza Scrittura, si legga l'articolo La necessità di ottimizzare la scrittura in Apache Spark.

Ottimizzazione dell'unione

Il comando MERGE di Delta Lake consente agli utenti di aggiornare una tabella Delta con condizioni avanzate. Può aggiornare i dati da una tabella di origine, una vista o un DataFrame in una tabella di destinazione usando il comando MERGE. Tuttavia, l'algoritmo corrente nella distribuzione open source di Delta Lake non è completamente ottimizzato per la gestione delle righe non modificate. Il team Microsoft Spark Delta ha implementato un'ottimizzazione personalizzata di Low Shuffle Merge: le righe non modificate vengono escluse da un'operazione costosa di shuffle necessaria per l'aggiornamento delle righe corrispondenti.

L'implementazione è controllata dalla spark.microsoft.delta.merge.lowShuffle.enabled configurazione, abilitata per impostazione predefinita nel runtime. Non richiede modifiche al codice ed è completamente compatibile con la distribuzione open source di Delta Lake. Per ulteriori informazioni sugli scenari di utilizzo del Low Shuffle Merge, leggi l'articolo Low Shuffle Merge: Ottimizzazione nelle tabelle Delta.

Manutenzione delle tabelle Delta

Man mano che le tabelle Delta cambiano, l'efficienza dei costi di archiviazione e delle prestazioni tende a peggiorare per i motivi seguenti:

I nuovi dati aggiunti alla tabella potrebbero rendere asimmetrici i dati.
La velocità di inserimento dei dati in batch e streaming può portare a molti file di piccole dimensioni.
Le operazioni di aggiornamento ed eliminazione comportano un sovraccarico di lettura. I file Parquet non sono modificabili per impostazione predefinita. Poiché le tabelle Delta aggiungono nuovi file Parquet con l'insieme delle modifiche, amplificano ulteriormente i problemi imposti dai primi due elementi.
File di dati e file di log non sono più necessari nell'archiviazione.

Per mantenere le tabelle nello stato migliore per ottenere prestazioni ottimali, eseguire operazioni di compattazione del bin e di svuotamento delle tabelle Delta. La compattazione dei bin si ottiene con il comando OTTIMIZZA, che unisce tutte le modifiche in file Parquet più grandi e consolidati. La pulizia dell'archiviazione dereferenziata è ottenuta dal comando VACUUM.

I comandi di manutenzione della tabella OTTIMIZZA e SVUOTAMENTO possono essere usati all'interno di notebook e definizioni di processi Spark, quindi orchestrati usando le funzionalità della piattaforma. Lakehouse in Fabric offre una funzionalità che consente di usare l'interfaccia utente per eseguire la manutenzione di tabelle ad hoc, come illustrato nell'articolo Manutenzione delle tabelle Delta Lake.

Importante

La progettazione della struttura fisica della tabella in base alla frequenza di inserimento e ai modelli di lettura è spesso più importante dei comandi di ottimizzazione in questa sezione.

Controllare V-Order durante l'ottimizzazione di una tabella

Le strutture di comando seguenti eseguono la compattazione bin e riscrivono tutti i file interessati usando V-Order, indipendentemente dall'impostazione TBLPROPERTIES o dall'impostazione di configurazione della sessione:

%%sql 
OPTIMIZE <table|fileOrFolderPath> VORDER;

OPTIMIZE <table|fileOrFolderPath> WHERE <predicate> VORDER;

OPTIMIZE <table|fileOrFolderPath> WHERE <predicate> [ZORDER  BY (col_name1, col_name2, ...)] VORDER;

Quando ZORDER e VORDER vengono usati insieme, Apache Spark esegue la compattazione dei bin, ZORDER, VORDER in sequenza.

I comandi seguenti eseguono la compattazione bin e riscrivono tutti i file interessati usando l'impostazione TBLPROPERTIES. Se TBLPROPERTIES è impostato su V-Order, tutti i file interessati vengono scritti come V-Order. Se TBLPROPERTIES è non impostata o impostata su false, l'impostazione della sessione viene ereditata. Per rimuovere V-Order dalla tabella, impostare la configurazione della sessione su false.

Annotazioni

Quando si usano questi comandi nei notebook di Fabric, assicurarsi che sia presente uno spazio tra %%sql e il OPTIMIZE comando. La sintassi corretta è:

%%sql 
OPTIMIZE table_name;

Non:%%sqlOPTIMIZE table_name; (questo causerà un errore di sintassi)

%%sql 
OPTIMIZE <table|fileOrFolderPath>;

OPTIMIZE <table|fileOrFolderPath> WHERE predicate;

OPTIMIZE <table|fileOrFolderPath> WHERE predicate [ZORDER BY (col_name1, col_name2, ...)];

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-11-01

Condividi tramite

Ottimizzazione della tabella Delta Lake e V-Order

Cos'è V-Order?

Controllo delle scritture di V-Order

Controllare la configurazione di V-Order nella sessione di Apache Spark

Disabilitare la scrittura di V-Order nella sessione di Apache Spark

Abilitare la scrittura di V-Order nella sessione di Apache Spark

Controllare V-Order, usando le proprietà della tabella Delta

Controllare direttamente V-Order nelle operazioni di scrittura

Che cos'è Optimize Write?

Ottimizzazione dell'unione

Manutenzione delle tabelle Delta

Controllare V-Order durante l'ottimizzazione di una tabella

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive