Sdílet prostřednictvím


Tabulky Lakehouse a Delta Lake

Microsoft Fabric Lakehouse je platforma architektury dat pro ukládání, správu a analýzu strukturovaných a nestrukturovaných dat v jednom umístění. Aby bylo možné dosáhnout bezproblémového přístupu k datům napříč všemi výpočetními moduly v Microsoft Fabric, je delta Lake zvolena jako jednotný formát tabulky.

Ukládání dat v Lakehouse pomocí funkcí, jako je načtení do tabulek nebo metod popsaných v možnostech pro načtení dat do Objektu Fabric Lakehouse, se všechna data ukládají ve formátu Delta.

Podrobnější úvod do formátu tabulky Delta Lake najdete na odkazech v části Další kroky.

Velké objemy dat, Apache Spark a starší formáty tabulek

Modul runtime Microsoft Fabric pro Apache Spark používá stejný základ jako modul runtime Azure Synapse Analytics pro Apache Spark, ale obsahuje klíčové rozdíly, které poskytují efektivnější chování napříč všemi moduly ve službě Microsoft Fabric. V Microsoft Fabric jsou ve výchozím nastavení zapnuté klíčové funkce výkonu. Pokročilí uživatelé Apache Sparku můžou vrátit konfigurace k předchozím hodnotám, aby lépe odpovídali konkrétním scénářům.

Microsoft Fabric Lakehouse a modul Apache Spark podporují všechny typy tabulek, spravované i nespravované; to zahrnuje zobrazení a běžné formáty tabulek Hive, které nejsou delta. Tabulky definované pomocí souborů PARQUET, CSV, AVRO, JSON a libovolného formátu souboru kompatibilního s Apache Hivem fungují podle očekávání.

Uživatelské rozhraní Průzkumníka Lakehouse se liší v závislosti na typu tabulky. Průzkumník Lakehouse v současné době vykresluje pouze objekty tabulky.

Rozdíly v konfiguraci ve službě Azure Synapse Analytics

Následující tabulka obsahuje rozdíly v konfiguraci mezi Azure Synapse Analytics a modulem Microsoft Fabric Runtime pro Apache Spark.

Konfigurace Apache Sparku Hodnota Microsoft Fabric Hodnota Azure Synapse Analytics Notes
spark.sql.sources.default Delta parkety Výchozí formát tabulky
spark.sql.parquet.vorder.enabled true Zapisovač objednávky V
spark.sql.parquet.vorder.dictionaryPageSize 2 GB Omezení velikosti stránky slovníku pro V-Order
spark.microsoft.delta.optimizeWrite.enabled true unset (false) Optimalizace zápisu

Automatické zjišťování tabulek

Průzkumník Lakehouse poskytuje stromové zobrazení objektů v položce Microsoft Fabric Lakehouse. Má klíčovou funkci zjišťování a zobrazování tabulek, které jsou popsány v úložišti metadat a v úložišti OneLake. Odkazy na tabulku se zobrazí v Tables části uživatelského rozhraní Průzkumníka Lakehouse. Automatické zjišťování platí také pro tabulky definované přes klávesové zkratky OneLake.

Tabulky přes klávesové zkratky

Microsoft Fabric Lakehouse podporuje tabulky definované přes klávesové zkratky OneLake, aby poskytovaly maximální kompatibilitu a nepřecházely data. Následující tabulka obsahuje osvědčené postupy scénáře pro každý typ položky při jeho použití přes klávesové zkratky.

Cíl zástupce Kde vytvořit zástupce Osvědčený postup
Tabulka Delta Lake Tables oddíl Pokud v cíli existuje více tabulek, vytvořte jednu klávesovou zkratku pro každou tabulku.
Složky se soubory Files oddíl Pomocí Apache Sparku můžete použít cíl přímo pomocí relativních cest. Načtení dat do nativních tabulek Delta v Lakehouse pro dosažení maximálního výkonu
Starší tabulky Apache Hivu Files oddíl Pomocí Apache Sparku můžete použít cíl přímo pomocí relativních cest nebo vytvořit odkaz na katalog metadat pomocí CREATE EXTERNAL TABLE syntaxe. Načtení dat do nativních tabulek Delta v Lakehouse pro dosažení maximálního výkonu

Načtení do tabulek

Microsoft Fabric Lakehouse poskytuje pohodlné a produktivní uživatelské rozhraní pro zjednodušení načítání dat do tabulek Delta. Funkce Načíst do tabulek umožňuje vizuálním prostředím načítat běžné formáty souborů do delta, aby se zvýšila produktivita analýzy pro všechny osoby. Další informace o funkci Načíst do tabulek najdete v podrobných informacích v referenční dokumentaci k načtení lakehouse do tabulek .

Optimalizace tabulek Delta Lake

Udržování tabulek v obrazci pro široký rozsah analytických scénářů není žádný malý výkon. Microsoft Fabric Lakehouse aktivně umožňuje důležitým parametrům minimalizovat běžné problémy spojené s tabulkami velkých objemů dat, jako jsou komprimace a malé velikosti souborů, a maximalizovat výkon dotazů. Přesto existuje mnoho scénářů, ve kterých tyto parametry potřebují změny. Článek o optimalizaci tabulek Delta Lake a pořadí V-Order popisuje některé klíčové scénáře a poskytuje podrobný průvodce, jak efektivně udržovat tabulky Delta pro maximální výkon.