Tabelle Lakehouse e Delta Lake

Microsoft Fabric Lakehouse è una piattaforma di architettura dei dati per l'archiviazione, la gestione e l'analisi dei dati strutturati e non strutturati in una singola posizione. Per ottenere l'accesso ai dati senza problemi in tutti i motori di calcolo in Microsoft Fabric, Delta Lake viene scelto come formato di tabella unificata.

Salvare i dati in Lakehouse usando funzionalità quali Load to Tables o metodi descritti in Opzioni per ottenere i dati in Fabric Lakehouse, tutti i dati vengono salvati in formato Delta. Delta viene usato anche come modalità di formato tabella Spark predefinita nelle esperienze code-first, ad esempio Notebooks e Spark Job Definitions.

Importante

Microsoft Fabric è attualmente in ANTEPRIMA. Queste informazioni si riferiscono a un prodotto di versione preliminare che può essere modificato sostanzialmente prima che venga rilasciato. Microsoft non garantisce alcuna garanzia, espressa o implicita, rispetto alle informazioni fornite qui.

Per un'introduzione più completa al formato di tabella Delta Lake, seguire i collegamenti nella sezione Passaggi successivi.

Formati di tabella Big Data, Apache Spark e legacy

Microsoft Fabric Runtime per Apache Spark usa la stessa base di Azure Synapse Runtime di Analisi per Apache Spark, ma contengono differenze chiave per offrire un comportamento più semplificato in tutti i motori del servizio Microsoft Fabric. In Microsoft Fabric le funzionalità principali delle prestazioni vengono attivate per impostazione predefinita. Gli utenti avanzati di Apache Spark possono ripristinare le configurazioni ai valori precedenti in modo da allinearsi meglio con scenari specifici.

Microsoft Fabric Lakehouse e il motore Apache Spark supportano tutti i tipi di tabella, gestiti e non gestiti; sono incluse le visualizzazioni e i formati regolari di tabella Hive non Delta. Le tabelle definite usando PARQUET, CSV, AVRO, JSON e qualsiasi formato di file compatibile con Apache Hive funziona come previsto.

L'esperienza dell'interfaccia utente di Lakehouse Explorer varia a seconda del tipo di tabella. Attualmente, lakehouse explorer esegue solo il rendering di oggetti tabella.

Differenze di configurazione con Azure Synapse Analytics

La tabella seguente contiene le differenze di configurazione tra Azure Synapse Analytics e Microsoft Fabric Runtime per Apache Spark.

Configurazione di Apache Spark Valore di Microsoft Fabric valore Azure Synapse Analytics Note
spark.sql.sources.default delta parquet Formato tabella predefinito
spark.sql.parquet.vorder.enabled true N/D Writer V-Order
spark.sql.parquet.vorder.dictionaryPageSize 2 GB N/D Limite delle dimensioni della pagina del dizionario per ordine V
spark.microsoft.delta.optimizeWrite.enabled true unset (false) Ottimizzare la scrittura

Individuazione automatica delle tabelle

Lakehouse Explorer offre una visualizzazione ad albero degli oggetti nell'elemento Microsoft Fabric Lakehouse. Ha una funzionalità chiave di individuazione e visualizzazione delle tabelle descritte nel repository dei metadati e nell'archiviazione OneLake. I riferimenti alla tabella vengono visualizzati nella Tables sezione dell'interfaccia utente di Lakehouse Explorer. L'individuazione automatica si applica anche alle tabelle definite sui collegamenti OneLake.

Tabelle sui tasti di scelta rapida

Microsoft Fabric Lakehouse supporta le tabelle definite sui collegamenti OneLake, per garantire la massima compatibilità e nessun movimento dei dati. La tabella seguente contiene le procedure consigliate per lo scenario per ogni tipo di elemento durante l'uso dei collegamenti.

Destinazione collegamento Dove creare il collegamento Procedura consigliata
Tabella Delta Lake Tables Sezione Se nella destinazione sono presenti più tabelle, creare un collegamento per tabella.
Cartelle con file Files Sezione Usare Apache Spark per usare la destinazione direttamente usando i percorsi relativi. Caricare i dati nelle tabelle Delta native di Lakehouse per ottenere prestazioni massime.
Tabelle Apache Hive legacy Files Sezione Usare Apache Spark per usare la destinazione direttamente usando i percorsi relativi o creare un riferimento al catalogo dei metadati usando CREATE EXTERNAL TABLE la sintassi. Caricare i dati nelle tabelle Delta native di Lakehouse per ottenere prestazioni massime.

Caricare in tabelle

Microsoft Fabric Lakehouse offre un'interfaccia utente conveniente e produttiva per semplificare il caricamento dei dati nelle tabelle Delta. La funzionalità Load to Tables consente a un'esperienza visiva di caricare i formati di file e le cartelle comuni in Delta per aumentare la produttività analitica a tutte le persone. Per altre informazioni sulla funzionalità Load to Tables in dettaglio, vedere la documentazione di riferimento sul caricamento di Lakehouse su Tabelle .

Ottimizzazione della tabella Delta Lake

Mantenere le tabelle in forma per l'ambito generale degli scenari di analisi non è un'operazione secondaria. Microsoft Fabric Lakehouse pro-attivamente consente ai parametri importanti di ridurre al minimo i problemi comuni associati alle tabelle Big Data, ad esempio compattazione e dimensioni di file di piccole dimensioni e per ottimizzare le prestazioni delle query. Esistono comunque molti scenari in cui questi parametri richiedono modifiche. L'articolo Ottimizzazione tabelle Delta Lake e V Order illustra alcuni scenari chiave e fornisce una guida approfondita su come gestire in modo efficiente le tabelle Delta per ottenere prestazioni massime.

Passaggi successivi