Tabelle Lakehouse e Delta Lake

Microsoft Fabric Lakehouse è una piattaforma di architettura dei dati per l'archiviazione, la gestione e l'analisi di dati strutturati e non strutturati in un'unica posizione. Per ottenere un accesso semplice ai dati in tutti i motori di calcolo in Microsoft Fabric, Delta Lake viene scelto come formato di tabella unificato.

Il salvataggio dei dati in Lakehouse usando funzionalità come Load to Tables o metodi descritti in Opzioni per ottenere i dati in Fabric Lakehouse, tutti i dati vengono salvati in formato Delta.

Per un'introduzione più completa al formato di tabella Delta Lake, seguire i collegamenti nella sezione Passaggi successivi.

Big Data, Apache Spark e formati di tabella legacy

Microsoft Fabric Runtime per Apache Spark usa la stessa base del runtime di Azure Synapse Analytics per Apache Spark, ma contiene differenze principali per offrire un comportamento più semplificato in tutti i motori nel servizio Microsoft Fabric. In Microsoft Fabric le funzionalità principali delle prestazioni sono attivate per impostazione predefinita. Gli utenti avanzati di Apache Spark possono ripristinare le configurazioni ai valori precedenti per allinearsi meglio a scenari specifici.

Microsoft Fabric Lakehouse e il motore Apache Spark supportano tutti i tipi di tabella, gestiti e non gestiti; sono incluse le visualizzazioni e i normali formati di tabella Hive non Delta. Le tabelle definite usando PARQUET, CSV, AVRO, JSON e qualsiasi formato di file compatibile con Apache Hive funziona come previsto.

L'esperienza dell'interfaccia utente di Lakehouse Explorer varia a seconda del tipo di tabella. Attualmente, Lakehouse Explorer esegue il rendering solo degli oggetti tabella.

Differenze di configurazione con Azure Synapse Analytics

La tabella seguente contiene le differenze di configurazione tra Azure Synapse Analytics e Microsoft Fabric Runtime per Apache Spark.

Configurazione di Apache Spark Valore di Microsoft Fabric Valore di Azure Synapse Analytics Note
spark.sql.sources.default delta parquet Formato tabella predefinito
spark.sql.parquet.vorder.enabled true N/D Writer V-Order
spark.sql.parquet.vorder.dictionaryPageSize 2 GB N/D Limite delle dimensioni della pagina del dizionario per l'ordine V
spark.microsoft.delta.optimizeWrite.enabled true unset (false) Ottimizzare la scrittura

Individuazione automatica delle tabelle

Lakehouse Explorer offre una visualizzazione ad albero degli oggetti nell'elemento Microsoft Fabric Lakehouse. Offre una funzionalità chiave per l'individuazione e la visualizzazione di tabelle descritte nel repository di metadati e nell'archiviazione OneLake. I riferimenti alla tabella vengono visualizzati nella Tables sezione dell'interfaccia utente di Lakehouse Explorer. L'individuazione automatica si applica anche alle tabelle definite sui collegamenti OneLake.

Tabelle sui tasti di scelta rapida

Microsoft Fabric Lakehouse supporta le tabelle definite tramite collegamenti OneLake, per garantire la massima compatibilità e senza spostamento dei dati. La tabella seguente contiene le procedure consigliate per lo scenario per ogni tipo di elemento quando viene usato tramite collegamenti.

Destinazione collegamento Dove creare il collegamento Procedure consigliate
Tabella Delta Lake Tables Sezione Se nella destinazione sono presenti più tabelle, creare un collegamento per tabella.
Cartelle con file Files Sezione Usare Apache Spark per usare la destinazione direttamente usando i percorsi relativi. Caricare i dati nelle tabelle Delta native di Lakehouse per ottenere prestazioni massime.
Tabelle Apache Hive legacy Files Sezione Usare Apache Spark per usare la destinazione direttamente usando i percorsi relativi o creare un riferimento al catalogo di metadati usando CREATE EXTERNAL TABLE la sintassi. Caricare i dati nelle tabelle Delta native di Lakehouse per ottenere prestazioni massime.

Caricamento in tabelle

Microsoft Fabric Lakehouse offre un'interfaccia utente pratica e produttiva per semplificare il caricamento dei dati nelle tabelle Delta. La funzionalità Carica su tabelle consente a un'esperienza visiva di caricare formati di file comuni in Delta per aumentare la produttività analitica a tutti gli utenti. Per altre informazioni sulla funzionalità Carica nelle tabelle, vedere la documentazione di riferimento sul caricamento lakehouse nelle tabelle .

Ottimizzazione della tabella Delta Lake

Mantenere le tabelle in forma per l'ampio ambito degli scenari di analisi non è un'operazione secondaria. Microsoft Fabric Lakehouse consente attivamente ai parametri importanti di ridurre al minimo i problemi comuni associati alle tabelle big data, ad esempio la compattazione e le dimensioni di file di piccole dimensioni e per ottimizzare le prestazioni delle query. Esistono comunque molti scenari in cui tali parametri richiedono modifiche. L'articolo Ottimizzazione tabella Delta Lake e V-Order illustra alcuni scenari chiave e fornisce una guida approfondita su come gestire in modo efficiente le tabelle Delta per ottenere prestazioni massime.