Condividi tramite


Tabelle Lakehouse e Delta Lake

Microsoft Fabric Lakehouse è una piattaforma di architettura dei dati per l'archiviazione, la gestione e l'analisi di dati strutturati e non strutturati in un'unica posizione. Per ottenere un accesso ai dati senza soluzione di continuità in tutti i motori di calcolo in Microsoft Fabric, come formato tabella unificato è stato scelto Delta Lake.

Quando si salvano dati in un lakehouse usando funzionalità come Load to Table o metodi descritti in Opzioni per ottenere i dati in Fabric Lakehouse, tutti i dati vengono salvati in formato Delta.

Per un'introduzione più completa al formato di tabella Delta Lake, seguite i collegamenti ai contenuti correlati alla fine di questo articolo.

Big Data, Apache Spark e formati di tabella datati

Microsoft Fabric Runtime per Apache Spark usa la stessa base del runtime di Azure Synapse Analytics per Apache Spark, ma contiene le differenze principali per offrire un comportamento più semplificato in tutti i motori del servizio Microsoft Fabric. In Microsoft Fabric, le funzionalità principali delle prestazioni sono attivate per impostazione predefinita. Gli utenti avanzati di Apache Spark possono ripristinare le configurazioni ai valori precedenti per allinearsi meglio a scenari specifici.

Microsoft Fabric Lakehouse e il motore Apache Spark supportano tutti i tipi di tabella, sia gestiti che non gestiti; questo include le visualizzazioni e i formati tabella Hive non Delta regolari. Le tabelle definite usando PARQUET, CSV, AVRO, JSON e qualsiasi formato di file compatibile con Apache Hive funziona come previsto.

L'esperienza dell'interfaccia utente dell'esploratore di Lakehouse varia a seconda del tipo di tabella. Attualmente, l'esploratore Lakehouse esegue il rendering solo di oggetti di tabella.

Differenze di configurazione con Azure Synapse Analytics

La tabella seguente contiene le differenze di configurazione tra Azure Synapse Analytics e il runtime di Microsoft Fabric per Apache Spark.

Configurazione di Apache Spark Valore di Microsoft Fabric Valore di Azure Synapse Analytics Note
spark.sql.sources.default delta parquet Formato tabella predefinito
spark.sql.parquet.vorder.default vero N/D Scrittore di V-Order
spark.sql.parquet.vorder.dictionaryPageSize 2GB N/D Limite delle dimensioni della pagina del dizionario per V-Order
spark.databricks.delta.optimizeWrite.enabled vero non impostato (false) Ottimizzare la Scrittura

Individuazione automatica delle tabelle

L'esploratore Lakehouse fornisce una visualizzazione ad albero degli oggetti nell'elemento Microsoft Fabric Lakehouse. Offre una funzionalità chiave per l'individuazione e la visualizzazione di tabelle descritte nel repository di metadati e nell'archiviazione OneLake. I riferimenti alle tabelle vengono visualizzati nella sezione Tables dell'interfaccia utente di Esplora Lakehouse. L'individuazione automatica si applica anche alle tabelle definite tramite collegamenti OneLake.

Tabelle al posto di scorciatoie

Microsoft Fabric Lakehouse supporta le tabelle definite tramite collegamenti OneLake per garantire la massima compatibilità e senza spostamento dei dati. La tabella seguente contiene le procedure consigliate per lo scenario per ogni tipo di elemento quando viene usato tramite collegamenti.

Destinazione della scorciatoia Dove creare il collegamento Procedura consigliata
Tabella Delta Lake Sezione Tables Se nella destinazione esistono più tabelle, creare un collegamento per tabella.
Cartelle con file Sezione Files Usare Apache Spark per usare la destinazione direttamente tramite percorsi relativi. Caricare i dati nelle tabelle Delta native di Lakehouse per ottenere prestazioni massime.
Tabelle legacy di Apache Hive Sezione Files Usare Apache Spark per usare la destinazione direttamente tramite percorsi relativi o creare un riferimento al catalogo di metadati usando la sintassi CREATE EXTERNAL TABLE. Caricare i dati nelle tabelle Delta native di Lakehouse per ottenere prestazioni massime.

Carica nella tabella

Microsoft Fabric Lakehouse offre un'interfaccia utente comoda e produttiva per semplificare il caricamento dei dati in tabelle Delta. La funzionalità Carica su tabella consente un'esperienza visiva per il caricamento di formati di file comuni in Delta per aumentare la produttività delle analisi per tutti gli utenti. Per ulteriori informazioni sulla funzionalità di caricamento su tabella, vedere la documentazione di riferimento per il caricamento su tabelle Delta Lake.

Ottimizzazione delle tabella Delta Lake

Mantenere le tabelle in forma per l'ampio ambito di scenari di analisi non è facile. Microsoft Fabric Lakehouse abilita in modo proattivo i parametri importanti per ridurre al minimo i problemi comuni associati alle tabelle di big data, come la compattazione e le piccole dimensioni dei file, e per massimizzare le prestazioni delle query. Esistono comunque molti scenari in cui tali parametri richiedono modifiche. L'articolo Ottimizzazione delle tabelle Delta Lake e V-Order illustra alcuni scenari chiave e fornisce una guida approfondita su come gestire in modo efficiente le tabelle Delta per ottenere le massime prestazioni.