Co je Delta Lake?

Článek
01/10/2024

Delta Lake je opensourcová vrstva úložiště, která přináší transakce ACID (atomicity, konzistence, izolace a stálosti) do úloh Apache Sparku a velkých objemů dat.

Aktuální verze Delta Lake, která je součástí Azure Synapse, má jazykovou podporu pro Scala, PySpark a .NET a je kompatibilní se službou Linux Foundation Delta Lake. V dolní části stránky najdete odkazy na podrobnější příklady a dokumentaci. Další informace najdete ve videu Úvod k tabulkám Delta.

Klíčové funkce

Funkce	Popis
Transakce ACID	Datová jezera se obvykle naplňují několika procesy a kanály, z nichž některé zapisují data souběžně se čtením. Před Delta Lake a přidáním transakcí museli datoví inženýři projít ručním procesem náchylného k chybám, aby se zajistila integrita dat. Delta Lake přináší známé transakce ACID do datových jezer. Poskytuje serializovatelnost, nejsilnější úroveň izolace. Další informace najdete v části Diving into Delta Lake: Rozbalení transakčního protokolu.
Škálovatelné zpracování metadat	V případě velkých objemů dat můžou být i samotná metadata "velké objemy dat". Delta Lake zpracovává metadata stejně jako data a využívá distribuovaný výpočetní výkon Sparku ke zpracování všech jeho metadat. V důsledku toho může Delta Lake zpracovávat petabajtové tabulky se škálováním s miliardami oddílů a souborů.
Time Travel (správa verzí dat)	Schopnost vrátit zpět změnu nebo se vrátit k předchozí verzi je jednou z klíčových funkcí transakcí. Delta Lake poskytuje snímky dat, které umožňují vrátit se k dřívějším verzím dat pro audity, vrácení zpět nebo reprodukovat experimenty. Přečtěte si další informace v úvodu k funkci Delta Lake Time Travel for Large Scale Data Lakes.
Otevřít formát	Apache Parquet je základní formát pro Delta Lake, který vám umožňuje využít efektivní schémata komprese a kódování, která jsou pro tento formát nativní.
Unified Batch and Streaming Source and Sink	Tabulka v Delta Lake je dávková tabulka i zdroj streamování a jímka. Streamování ingestování dat, dávkové historické doplňování a interaktivní dotazy fungují jenom mimo kancelář.
Vynucení schématu	Vynucení schématu pomáhá zajistit správnost datových typů a požadovaná sloupce, což brání nesprávnému datu v tom, aby způsobila nekonzistenci dat. Další informace najdete v tématu Potápění do Delta Lake: Vynucení schématu a vývoj
Vývoj schématu	Delta Lake umožňuje provádět změny schématu tabulky, které se dají použít automaticky, aniž byste museli zapisovat DDL migrace. Další informace najdete v tématu Potápění do Delta Lake: Vynucení schématu a vývoj
Historie auditu	Záznamy transakčního protokolu Delta Lake o každé změně provedené v datech poskytují úplný záznam auditu změn.
Aktualizace a odstranění	Delta Lake podporuje rozhraní Scala / Java / Python a ROZHRANÍ SQL API pro celou řadu funkcí. Podpora operací sloučení, aktualizace a odstranění pomáhá splňovat požadavky na dodržování předpisů. Další informace najdete v tématu Oznámení verze Delta Lake 0.6.1, oznámení verze Delta Lake 0.7 Release and Simple, Reliable Upserts a Deletes v tabulkách Delta Lake pomocí rozhraní Python API, která obsahuje fragmenty kódu pro sloučení, aktualizaci a odstranění příkazů DML.
100 % kompatibilní s rozhraním Apache Spark API	Vývojáři můžou používat Delta Lake se svými stávajícími datovými kanály s minimálními změnami, protože je plně kompatibilní s existujícími implementacemi Sparku.

Úplnou dokumentaci najdete na stránce dokumentace k Delta Lake.

Další informace najdete v tématu Delta Lake Project.

Co je Delta Lake?

Klíčové funkce

Další kroky

Další materiály