Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tento článek představuje projekt Dlt-meta, projekt Databricks Labs , který poskytuje nástroje pro generování kanálů z metadat, která spravujete.
Poznámka:
Open source projekt dlt-meta, stejně jako všechny projekty v účtu Databrickslabs GitHub, existuje pouze pro účely zkoumání. Azure Databricks ji nepodporuje ani neposkytuje smlouvy o úrovni služeb (SLA). Neodesílejte lístky podpory Azure Databricks pro problémy související s tímto projektem. Místo toho vytvořte problém GitHubu, který se zkontroluje jako časová povolení.
Co je dlt-meta?
Deklarativní kanály Sparku pro Lakeflow umožňují deklarativní zadání tabulky a vygeneruje tok v kanálu, který vytvoří tabulku a udržuje ji v aktualizovaném stavu při změnách zdrojových dat. Pokud má vaše organizace stovky tabulek, generování a správu těchto kanálů je časově náročné a může vést k nekonzistentním postupům.
Projekt dlt-meta je metaprogramovací architektura založená na metadatech navržená pro práci s deklarativními kanály Sparku Lakeflow. Tato architektura umožňuje automatizaci bronzových a stříbrných datových kanálů s využitím metadat zaznamenaných v sadě souborů JSON a YAML. Modul dlt-meta pomocí kódu Pythonu dynamicky generuje kód kanálu pro toky popsané v metadatech. Vygenerujete metadata o kanálech a dlt-meta vygeneruje vaše kanály.
Díky centralizované logice na jednom místě (metadata) je váš systém rychlejší, opakovaně použitelný a snadněji udržovatelný.
Poznámka:
Projekt dlt-meta byl pojmenován pro starší funkci Delta Live Tables v Azure Databricks. Dynamické tabulky Delta byly nahrazeny deklarativními kanály Lakeflow Spark a dlt-meta funguje s deklarativními kanály Lakeflow Spark.
Výhody dlt-meta
Existují dva hlavní případy použití dlt-meta:
- Ingestování a čištění velkého počtu tabulek jednoduše.
- Vynucujte standardy přípravy dat napříč několika kanály a uživateli.
Mezi výhody používání přístupu řízeného metadaty patří:
- Údržbu metadat je možné provádět bez znalosti kódu Pythonu nebo SQL.
- Údržba metadat, nikoli kódu, vyžaduje menší režii a snižuje chyby.
- Kód se generuje pomocí dlt-meta, takže zůstává konzistentní a má méně vlastního kódu napříč kanály a publikovanými tabulkami.
- Tabulky můžete snadno seskupit do kanálů v rámci metadat a generovat počet kanálů potřebných k co nejefektivnější aktualizaci dat.
Jak to funguje?
Následující obrázek znázorňuje přehled systému dlt-meta:
- Soubory metadat vytvoříte jako vstup pro dlt-meta a určíte zdrojové soubory a výstupy, pravidla kvality a požadované zpracování.
- Modul dlt-meta zkompiluje soubory onboardingu do specifikace toku dat označované jako DataflowSpec a uloží je pro pozdější použití.
- Modul dlt-meta používá DataflowSpec k vytvoření kanálů, které generují bronzové tabulky. To používá soubory metadat ke čtení zdrojových dat a použití správných očekávání dat tak, aby odpovídaly pravidlům kvality.
- Modul dlt-meta dále používá DataflowSpec k vytvoření dalších kanálů, které generují stříbrné tabulky. To používá soubory metadat k použití vhodných transformací a dalšího zpracování pro váš systém.
Kanály vygenerované pomocí dlt-meta spustíte, aby byl výstup aktuální při aktualizaci zdrojových dat.
Jak mohu začít?
Chcete-li použít dlt-meta, musíte:
- Nasaďte a nakonfigurujte řešení dlt-meta.
- Připravte metadata pro tabulky bronzové a stříbrné vrstvy.
- Vytvořte úlohu pro onboarding metadat.
- Pomocí metadat můžete vytvářet kanály pro tabulky.
Dokumentace dlt-meta na GitHubu obsahuje kurz, který vám pomůže začít s tímto procesem. Další informace najdete v tématu Začínáme s dlt-meta na GitHubu.