Vytváření kanálů pomocí dlt-meta

Tento článek představuje projekt Dlt-meta, projekt Databricks Labs , který poskytuje nástroje pro generování kanálů z metadat, která spravujete.

Poznámka:

Open source projekt dlt-meta, stejně jako všechny projekty v účtu Databrickslabs GitHub, existuje pouze pro účely zkoumání. Azure Databricks ji nepodporuje ani neposkytuje smlouvy o úrovni služeb (SLA). Neodesílejte lístky podpory Azure Databricks pro problémy související s tímto projektem. Místo toho vytvořte problém GitHubu, který se zkontroluje jako časová povolení.

Co je dlt-meta?

Deklarativní kanály Sparku pro Lakeflow umožňují deklarativní zadání tabulky a vygeneruje tok v kanálu, který vytvoří tabulku a udržuje ji v aktualizovaném stavu při změnách zdrojových dat. Pokud má vaše organizace stovky tabulek, generování a správu těchto kanálů je časově náročné a může vést k nekonzistentním postupům.

Projekt dlt-meta je metaprogramovací architektura založená na metadatech navržená pro práci s deklarativními kanály Sparku Lakeflow. Tato architektura umožňuje automatizaci bronzových a stříbrných datových kanálů s využitím metadat zaznamenaných v sadě souborů JSON a YAML. Modul dlt-meta pomocí kódu Pythonu dynamicky generuje kód kanálu pro toky popsané v metadatech. Vygenerujete metadata o kanálech a dlt-meta vygeneruje vaše kanály.

Díky centralizované logice na jednom místě (metadata) je váš systém rychlejší, opakovaně použitelný a snadněji udržovatelný.

Poznámka:

Projekt dlt-meta byl pojmenován pro starší funkci Delta Live Tables v Azure Databricks. Dynamické tabulky Delta byly nahrazeny deklarativními kanály Lakeflow Spark a dlt-meta funguje s deklarativními kanály Lakeflow Spark.

Výhody dlt-meta

Existují dva hlavní případy použití dlt-meta:

  • Ingestování a čištění velkého počtu tabulek jednoduše.
  • Vynucujte standardy přípravy dat napříč několika kanály a uživateli.

Mezi výhody používání přístupu řízeného metadaty patří:

  • Údržbu metadat je možné provádět bez znalosti kódu Pythonu nebo SQL.
  • Údržba metadat, nikoli kódu, vyžaduje menší režii a snižuje chyby.
  • Kód se generuje pomocí dlt-meta, takže zůstává konzistentní a má méně vlastního kódu napříč kanály a publikovanými tabulkami.
  • Tabulky můžete snadno seskupit do kanálů v rámci metadat a generovat počet kanálů potřebných k co nejefektivnější aktualizaci dat.

Jak to funguje?

Následující obrázek znázorňuje přehled systému dlt-meta:

Dlt-meta overview

  1. Soubory metadat vytvoříte jako vstup pro dlt-meta a určíte zdrojové soubory a výstupy, pravidla kvality a požadované zpracování.
  2. Modul dlt-meta zkompiluje soubory onboardingu do specifikace toku dat označované jako DataflowSpec a uloží je pro pozdější použití.
  3. Modul dlt-meta používá DataflowSpec k vytvoření kanálů, které generují bronzové tabulky. To používá soubory metadat ke čtení zdrojových dat a použití správných očekávání dat tak, aby odpovídaly pravidlům kvality.
  4. Modul dlt-meta dále používá DataflowSpec k vytvoření dalších kanálů, které generují stříbrné tabulky. To používá soubory metadat k použití vhodných transformací a dalšího zpracování pro váš systém.

Kanály vygenerované pomocí dlt-meta spustíte, aby byl výstup aktuální při aktualizaci zdrojových dat.

Jak mohu začít?

Chcete-li použít dlt-meta, musíte:

  • Nasaďte a nakonfigurujte řešení dlt-meta.
  • Připravte metadata pro tabulky bronzové a stříbrné vrstvy.
  • Vytvořte úlohu pro onboarding metadat.
  • Pomocí metadat můžete vytvářet kanály pro tabulky.

Dokumentace dlt-meta na GitHubu obsahuje kurz, který vám pomůže začít s tímto procesem. Další informace najdete v tématu Začínáme s dlt-meta na GitHubu.

Dodatečné zdroje