Sdílet prostřednictvím


Použití funkce údržby tabulek ke správě tabulek delta v prostředcích infrastruktury

Lakehouse v Microsoft Fabric poskytuje funkci údržby tabulek, která umožňuje efektivně spravovat tabulky delta a udržovat je vždy připravené k analýze. Tato příručka popisuje funkci údržby tabulek v Lakehouse a její možnosti.

Klíčové funkce údržby tabulek lakehouse:

  • Provádění údržby tabulek ad hoc pomocí kontextových akcí po kliknutí pravým tlačítkem myši v tabulce delta v průzkumníku Lakehouse.
  • Použijte vyčištění starých souborů přihrádky, V-Order a neodkazovaných starých souborů.

Poznámka:

U pokročilých úloh údržby, jako je seskupování více příkazů údržby tabulek, je doporučenou volbou orchestrace na základě plánu přístup orientovaný na kód. Další informace najdete v článku Optimalizace tabulek Delta Lake a V-Order . K automatizaci operací údržby tabulek je také možné použít rozhraní API Lakehouse. Další informace najdete v tématu Správa Lakehouse pomocí rozhraní MICROSOFT Fabric REST API.

Podporované typy souborů

Údržba tabulek Lakehouse se vztahuje pouze na tabulky Delta Lake. Starší tabulky Hive, které používají PARQUET, ORC, AVRO, CSV a další formáty, nejsou podporované.

Operace údržby tabulek

Funkce údržby tabulek nabízí tři operace.

  • Optimalizace: Sloučit několik malých souborů Parquet do velkého souboru. Moduly pro zpracování velkých objemů dat a všechny moduly Fabric využívají větší velikosti souborů. Velikost souborů větší než 128 MB a optimálně se blíží 1 GB, zlepšuje kompresi a distribuci dat napříč uzly clusteru. Snižuje nutnost kontrolovat mnoho malých souborů za účelem efektivních operací čtení. Obecně se doporučuje spustit strategie optimalizace po načtení velkých tabulek.
  • V-Order: Použije optimalizované řazení, kódování a kompresi souborů Delta parquet, které umožňují rychlé operace čtení napříč všemi moduly Fabric. V-Order probíhá během příkazu optimalizace a zobrazí se jako možnost pro skupinu příkazů v uživatelském prostředí. Další informace o V-Order najdete v tématu Optimalizace tabulek Delta Lake a V-Order.
  • Vakuum: Odebere staré soubory, na které už protokol tabulky Delta neodkazuje. Soubory musí být starší než prahová hodnota uchovávání informací a výchozí prahová hodnota uchovávání souborů je sedm dnů. Všechny rozdílové tabulky v OneLake mají stejnou dobu uchovávání. Doba uchovávání souborů je stejná bez ohledu na výpočetní modul Fabric, který používáte. Tato údržba je důležitá pro optimalizaci nákladů na úložiště. Nastavení kratší doby uchovávání má vliv na možnosti časového cestování v Delta. Obecně se doporučuje nastavit interval uchovávání na nejméně sedm dnů, protože staré snímky a nepotvrzené soubory můžou používat souběžné čtečky tabulek a zapisovače. Vyčištění aktivních souborů příkazem VACUUM může vést k chybám čtenáře nebo poškození tabulky, pokud jsou nepotvrzené soubory odebrány.

Provádění údržby tabulek ad hoc u tabulky Delta pomocí Lakehouse

Jak používat tuto funkci:

  1. Z vašeho účtu Microsoft Fabric přejděte na požadovaný lakehouse.

  2. V části Tabulky v Průzkumníku Lakehouse klikněte pravým tlačítkem myši na tabulku nebo pomocí tří teček přejděte k místní nabídce.

  3. Vyberte položku nabídky Údržba.

  4. Zkontrolujte možnosti údržby v dialogovém okně podle vašeho požadavku. Další informace najdete v části Operace údržby tabulek tohoto článku.

  5. Vyberte Spustit a spusťte úlohu údržby tabulky.

  6. Sledujte provádění úlohy údržby pomocí podokna oznámení nebo centra monitorování.

    Snímek obrazovky s dialogovým oknem Načíst do tabulek s vyplněným názvem tabulky

Jak funguje údržba tabulek?

Po výběru možnosti Spustit se úloha údržby Sparku odešle ke spuštění.

  1. Úloha Sparku se odešle pomocí identity uživatele a oprávnění tabulky.
  2. Úloha Sparku spotřebovává kapacitu prostředků infrastruktury pracovního prostoru nebo uživatele, který úlohu odeslal.
  3. Pokud v tabulce běží jiná úloha údržby, nová úloha se odmítne.
  4. Úlohy v různých tabulkách se můžou spouštět paralelně.
  5. Úlohy údržby tabulek je možné snadno sledovat v centru monitorování. Na hlavní stránce centra monitorování vyhledejte text TableMaintenance ve sloupci názvu aktivity.