Úvod

Dokončeno

Vy a váš tým datových inženýrů se chcete zaměřit na to, co je opravdu důležité: strukturování dat, aby byla připravená pro firmu. To znamená transformaci a agregaci, přípravu na BI, datové vědy a strojové učení. Ale předtím než tam budete moci vůbec dojít, uvíznete muset zjistit, kde se data ve skutečnosti nacházejí – rozptýlená v datovém jezeře a datovém skladu. Pak přichází poptávka po podpoře kanálů streamování pro nové případy použití, povolení generování projektů AI a správa orchestrace, a to vše při žonglování správy verzí, CI/CD a infrastruktury nasazení. Přidejte kontroly kvality dat, správu a objevování, a výzvy tak budou pouze narůstat. A kromě toho je zde provozní dril – ruční psaní kódu pro zpětná doplnění, správa závislostí, partitionů, zaznamenávání kontrolních bodů a opakování – když jediné, co opravdu chcete, je poskytovat spolehlivá data.

Proto je vytváření a spouštění datových kanálů tak obtížné. Vývoj je pomalý a náročný na práci, datové toky jsou křehké a náchylné k chybám a zpoždění se šíří do podnikání. Provozní složitost vede k výpadkům, plýtvání prostředkům a technickému zatěžování. A protože dávkovému zpracování a streamování se často přistupuje odděleně, úprava podle nových požadavků na latenci, náklady a SLA působí rigidně a draze.

Diagram deklarativních kanálů lakeflow

Díky deklarativním kanálům Lakeflow můžete vy a váš tým nechat tyto bolesti hlavy za sebou. Místo zápasů s orchestrací a infrastrukturou se můžete soustředit na psaní a správu logiky transformace. Jedná se o architekturu v rámci platformy Databricks Lakehouse pro vytváření a spouštění datových kanálů deklarativním způsobem. Výsledek: čisté a spolehlivé datové kanály, doručované s menším úsilím a mnohem větší jistotou.

Deklarativní kanály Lakeflow mají několik funkcí pro zjednodušení úloh přípravy dat a zvýšení spolehlivosti datové infrastruktury. Pravidla kvality dat a očekávání můžete definovat přímo v kódu kanálu. Systém monitoruje kvalitu dat v reálném čase a poskytuje přehled a kontrolu nad integritou vašich dat. Pomocí funkce Change Data Capture (CDC) zpracovává vkládání, aktualizace a odstraňování automaticky kromě zpracování událostí mimo pořadí.