Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Microsoft Fabric Lakehouse è una piattaforma di architettura dei dati per l'archiviazione, la gestione e l'analisi di dati strutturati e non strutturati in un'unica posizione. Per ottenere un accesso ai dati senza soluzione di continuità in tutti i motori di calcolo in Microsoft Fabric, come formato tabella unificato è stato scelto Delta Lake.
Quando si salvano dati in un lakehouse usando funzionalità come Load to Table o metodi descritti in Opzioni per ottenere i dati in Fabric Lakehouse, tutti i dati vengono salvati in formato Delta.
Per un'introduzione più completa al formato di tabella Delta Lake, seguite i collegamenti ai contenuti correlati alla fine di questo articolo.
Big Data, Apache Spark e formati di tabella datati
Microsoft Fabric Runtime per Apache Spark usa la stessa base del runtime di Azure Synapse Analytics per Apache Spark, ma contiene le differenze principali per offrire un comportamento più semplificato in tutti i motori del servizio Microsoft Fabric. In Microsoft Fabric, le funzionalità principali delle prestazioni sono attivate per impostazione predefinita. Gli utenti avanzati di Apache Spark possono ripristinare le configurazioni ai valori precedenti per allinearsi meglio a scenari specifici.
Microsoft Fabric Lakehouse e il motore Apache Spark supportano tutti i tipi di tabella, sia gestiti che non gestiti; questo include le visualizzazioni e i formati tabella Hive non Delta regolari. Le tabelle definite usando PARQUET, CSV, AVRO, JSON e qualsiasi formato di file compatibile con Apache Hive funziona come previsto.
L'esperienza dell'interfaccia utente dell'esploratore di Lakehouse varia a seconda del tipo di tabella. Attualmente, l'esploratore Lakehouse esegue il rendering solo di oggetti di tabella.
Differenze di configurazione con Azure Synapse Analytics
La tabella seguente contiene le differenze di configurazione tra Azure Synapse Analytics e il runtime di Microsoft Fabric per Apache Spark.
Configurazione di Apache Spark | Valore di Microsoft Fabric | Valore di Azure Synapse Analytics | Note |
---|---|---|---|
spark.sql.sources.default | delta | parquet | Formato tabella predefinito |
spark.sql.parquet.vorder.default | vero | N/D | Scrittore di V-Order |
spark.sql.parquet.vorder.dictionaryPageSize | 2GB | N/D | Limite delle dimensioni della pagina del dizionario per V-Order |
spark.databricks.delta.optimizeWrite.enabled | vero | non impostato (false) | Ottimizzare la Scrittura |
Individuazione automatica delle tabelle
L'esploratore Lakehouse fornisce una visualizzazione ad albero degli oggetti nell'elemento Microsoft Fabric Lakehouse. Offre una funzionalità chiave per l'individuazione e la visualizzazione di tabelle descritte nel repository di metadati e nell'archiviazione OneLake. I riferimenti alle tabelle vengono visualizzati nella sezione Tables
dell'interfaccia utente di Esplora Lakehouse. L'individuazione automatica si applica anche alle tabelle definite tramite collegamenti OneLake.
Tabelle al posto di scorciatoie
Microsoft Fabric Lakehouse supporta le tabelle definite tramite collegamenti OneLake per garantire la massima compatibilità e senza spostamento dei dati. La tabella seguente contiene le procedure consigliate per lo scenario per ogni tipo di elemento quando viene usato tramite collegamenti.
Destinazione della scorciatoia | Dove creare il collegamento | Procedura consigliata |
---|---|---|
Tabella Delta Lake | Sezione Tables |
Se nella destinazione esistono più tabelle, creare un collegamento per tabella. |
Cartelle con file | Sezione Files |
Usare Apache Spark per usare la destinazione direttamente tramite percorsi relativi. Caricare i dati nelle tabelle Delta native di Lakehouse per ottenere prestazioni massime. |
Tabelle legacy di Apache Hive | Sezione Files |
Usare Apache Spark per usare la destinazione direttamente tramite percorsi relativi o creare un riferimento al catalogo di metadati usando la sintassi CREATE EXTERNAL TABLE . Caricare i dati nelle tabelle Delta native di Lakehouse per ottenere prestazioni massime. |
Carica nella tabella
Microsoft Fabric Lakehouse offre un'interfaccia utente comoda e produttiva per semplificare il caricamento dei dati in tabelle Delta. La funzionalità Carica su tabella consente un'esperienza visiva per il caricamento di formati di file comuni in Delta per aumentare la produttività delle analisi per tutti gli utenti. Per ulteriori informazioni sulla funzionalità di caricamento su tabella, vedere la documentazione di riferimento per il caricamento su tabelle Delta Lake.
Ottimizzazione delle tabella Delta Lake
Mantenere le tabelle in forma per l'ampio ambito di scenari di analisi non è facile. Microsoft Fabric Lakehouse abilita in modo proattivo i parametri importanti per ridurre al minimo i problemi comuni associati alle tabelle di big data, come la compattazione e le piccole dimensioni dei file, e per massimizzare le prestazioni delle query. Esistono comunque molti scenari in cui tali parametri richiedono modifiche. L'articolo Ottimizzazione delle tabelle Delta Lake e V-Order illustra alcuni scenari chiave e fornisce una guida approfondita su come gestire in modo efficiente le tabelle Delta per ottenere le massime prestazioni.