Usare la funzionalità di manutenzione delle tabelle per gestire le tabelle differenziali in Fabric

Lakehouse in Microsoft Fabric offre la funzionalità di manutenzione tabelle per gestire in modo efficiente le tabelle delta e mantenerle sempre pronte per l'analisi. Questa guida descrive la funzionalità di manutenzione della tabella in Lakehouse e le relative funzionalità.

Funzionalità principali della funzionalità di manutenzione della tabella lakehouse:

  • Eseguire la manutenzione di tabelle ad hoc usando azioni contestuali di clic con il pulsante destro del mouse in una tabella delta all'interno di Lakehouse Explorer.
  • Applicare la compattazione bin, l'ordine V e la pulizia dei file precedenti senza riferimenti.

Nota

Per le attività di manutenzione avanzate, ad esempio il raggruppamento di più comandi di manutenzione tabelle, l'orchestrazione in base a una pianificazione, un approccio incentrato sul codice è la scelta consigliata. Per altre informazioni, vedere l'articolo Ottimizzazione tabelle Delta Lake e Ordine V. È anche possibile usare l'API Lakehouse per automatizzare le operazioni di manutenzione delle tabelle, per altre informazioni, vedere Gestire Lakehouse con l'API REST di Microsoft Fabric.

Tipi di file supportati

La manutenzione delle tabelle lakehouse si applica solo alle tabelle delta Lake. Le tabelle Hive legacy che usano PARQUET, ORC, AVRO, CSV e altri formati non sono supportate.

Operazioni di manutenzione tabelle

La funzionalità di manutenzione tabella offre tre operazioni.

  • Ottimizzazione: consolida più file Parquet di piccole dimensioni in file di grandi dimensioni. I motori di elaborazione dei Big Data e tutti i motori fabric traggono vantaggio dalla presenza di file di dimensioni maggiori. Avere file di dimensioni superiori a 128 MB e in modo ottimale vicino a 1 GB, migliora la compressione e la distribuzione dei dati nei nodi del cluster. Riduce la necessità di analizzare numerosi file di piccole dimensioni per operazioni di lettura efficienti. È consigliabile eseguire strategie di ottimizzazione dopo il caricamento di tabelle di grandi dimensioni.
  • V-Order: applica l'ordinamento, la codifica e la compressione ottimizzati ai file Parquet Delta per abilitare operazioni di lettura veloci in tutti i motori fabric. L'ordine virtuale viene eseguito durante il comando optimize e viene presentato come opzione al gruppo di comandi nell'esperienza utente. Per altre informazioni su V-Order, vedere Ottimizzazione tabella Delta Lake e V-Order.
  • Vacuum: rimuove i file meno vecchi a cui non fa più riferimento un log di tabella Delta. I file devono essere più vecchi della soglia di conservazione e la soglia di conservazione dei file predefinita è di sette giorni. Tutte le tabelle delta in OneLake hanno lo stesso periodo di conservazione. Il periodo di conservazione dei file è lo stesso indipendentemente dal motore di calcolo di Fabric in uso. Questa manutenzione è importante per ottimizzare i costi di archiviazione. L'impostazione di un periodo di conservazione più breve influisce sulle funzionalità di spostamento del tempo delta. È consigliabile impostare un intervallo di conservazione su almeno sette giorni, perché gli snapshot precedenti e i file di cui non è stato eseguito il commit possono ancora essere usati dai lettori e dai writer simultanei delle tabelle. La pulizia dei file attivi con il comando VACUUM può causare errori di lettura o persino danneggiamento della tabella se i file non inviati vengono rimossi.

Eseguire la manutenzione di tabelle ad hoc in una tabella Delta usando Lakehouse

Come usare la funzionalità:

  1. Dall'account Microsoft Fabric passare alla lakehouse desiderata.

  2. Nella sezione Tabelle di Lakehouse Explorer fare clic con il pulsante destro del mouse sulla tabella oppure usare i puntini di sospensione per accedere al menu contestuale.

  3. Selezionare la voce di menu Manutenzione .

  4. Controllare le opzioni di manutenzione nella finestra di dialogo in base alle esigenze. Per altre informazioni, vedere la sezione Operazioni di manutenzione tabelle di questo articolo.

  5. Selezionare Esegui ora per eseguire il processo di manutenzione della tabella.

  6. Tenere traccia dell'esecuzione del processo di manutenzione dal riquadro delle notifiche o dall'esperienza dell'hub di monitoraggio.

    Screenshot che mostra la finestra di dialogo Carica nelle tabelle con il nome della tabella compilato.

Come funziona la manutenzione delle tabelle?

Dopo l'opzione Esegui è selezionata, viene inviato un processo di manutenzione Spark per l'esecuzione.

  1. Il processo Spark viene inviato usando l'identità utente e i privilegi di tabella.
  2. Il processo Spark usa la capacità infrastruttura dell'area di lavoro o dell'utente che ha inviato il processo.
  3. Se in una tabella è in esecuzione un altro processo di manutenzione, ne viene rifiutato uno nuovo.
  4. I processi in tabelle diverse possono essere eseguiti in parallelo.
  5. I processi di manutenzione delle tabelle possono essere facilmente monitorati nell'hub di monitoraggio. Cercare il testo "TableMaintenance" all'interno della colonna del nome dell'attività nella pagina principale dell'hub di monitoraggio.