Jaká je architektura jezera v medailiónu?

Architektura medailonu popisuje řadu datových vrstev, které označují kvalitu dat uložených v jezeře. Databricks doporučuje použít vícevrstvý přístup k vytvoření jediného zdroje pravdivých informací pro podnikové datové produkty. Tato architektura zaručuje atomicitu, konzistenci, izolaci a odolnost při průchodu dat několika vrstvami ověření a transformací před uložením v rozložení optimalizovaném pro efektivní analýzu. Termíny bronzová (nezpracovaná), stříbro (ověřeno) a zlato (obohacené) popisují kvalitu dat v každé z těchto vrstev.

Je důležité si uvědomit, že tato architektura medailonu nenahrazuje jiné techniky dimenzionálního modelování. Schémata a tabulky v každé vrstvě můžou mít různé formy a stupně normalizace v závislosti na četnosti a povaze aktualizací dat a případů použití podřízených dat pro data.

Organizace můžou využít Databricks Lakehouse k vytváření a údržbě ověřených datových sad dostupných v celé společnosti. Přijetí organizačního myšlení zaměřeného na kurátorování dat jako produktů je klíčovým krokem při úspěšném vytvoření datového jezera.

Příjem nezpracovaných dat do bronzové vrstvy

Bronzová vrstva obsahuje neověřená data. Data přijatá v bronzové vrstvě obvykle:

  • Udržuje nezpracovaný stav zdroje dat.
  • Připojuje se přírůstkově a postupně roste.
  • Může to být libovolná kombinace streamovaných a dávkových transakcí.

Zachování úplné nezpracované historie každé datové sady ve efektivním formátu úložiště umožňuje znovu vytvořit libovolný stav daného datového systému.

Do dat o ingestování je možné přidat další metadata (například názvy zdrojových souborů nebo záznam dat o době zpracování) pro lepší zjistitelnost, popis stavu zdrojové datové sady a optimalizovaný výkon v podřízených aplikacích.

Ověření a odstranění duplicitních dat ve stříbrné vrstvě

Vzpomeňte si, že zatímco bronzová vrstva obsahuje celou historii dat v téměř nezpracovaném stavu, stříbrná vrstva představuje ověřenou a rozšířenou verzi našich dat, která lze považovat za důvěryhodnou pro podřízenou analýzu.

I když Databricks věří, že v vizi jezerahouse řízené bronzovou, stříbrnou a zlatou tabulkou, jednoduše implementuje stříbrnou vrstvu efektivně, okamžitě odemkne mnoho potenciálních výhod jezerahouse.

U jakéhokoli datového kanálu může stříbrná vrstva obsahovat více než jednu tabulku.

Power analytics with the gold layer

Tato zlatá data jsou často vysoce zpřesněná a agregovaná, obsahují data, která pomůžou analyzovat, strojové učení a produkční aplikace. I když všechny tabulky v jezeře by měly sloužit k důležitému účelu, zlaté tabulky představují data, která byla transformována na znalosti, a ne jen informace.

Analytici z velké části spoléhají na zlaté tabulky pro své základní odpovědnosti a data sdílená se zákazníkem by se zřídka ukládaly mimo tuto úroveň.

Aktualizace do těchto tabulek jsou dokončeny jako součást pravidelně plánovaných produkčních úloh, což pomáhá řídit náklady a umožňuje smlouvy o úrovni služeb (SLA) za účelem vytvoření aktuálnosti dat.

I když lakehouse nemá stejné problémy se vzájemným zablokováním, se kterými se můžete setkat v podnikovém datovém skladu, zlaté tabulky se často ukládají do samostatného kontejneru úložiště, aby se zabránilo omezením cloudu u požadavků na data.

Obecně platí, že agregace, spojení a filtrování se zpracovávají před zápisem dat do zlaté vrstvy, takže uživatelé by měli vidět nízký výkon dotazů na latenci u dat ve zlatých tabulkách.