Popsat architekturu medailiónu

Dokončeno

Datové jezerahouse v prostředcích infrastruktury jsou založené na formátu Delta Lake, který nativně podporuje transakce ACID (Atomicity, Consistency, Isolation, Durability). V rámci této architektury je architektura medailonu doporučeným vzorem návrhu dat sloužícím k logickému uspořádání dat v jezeře. Cílem je zlepšit kvalitu dat při procházení různými vrstvami. Architektura má obvykle tři vrstvy – bronzovou (nezpracovanou), stříbro (ověřeno) a zlato (obohacené), přičemž každá představuje vyšší úroveň kvality dat. Některým lidem se také říká architektura s více segmenty směrování, což znamená, že data se můžou podle potřeby přesouvat mezi vrstvami.

Tato architektura zajišťuje, že data jsou spolehlivá a konzistentní, protože procházejí různými kontrolami a změnami. Zaručuje také, že jsou data bezpečně uložená způsobem, který usnadňuje a rychlejší analýzu.

Architektura medailonu doplňuje jiné metody organizace dat, nikoli jejich nahrazení. Architekturu medailonu si můžete představit jako architekturu pro čištění dat, nikoli architekturu nebo model dat. Zajišťuje kompatibilitu a flexibilitu pro firmy, aby mohly využívat své výhody spolu se stávajícími datovými modely, což umožňuje přizpůsobit řešení dat a zachovat odborné znalosti a zároveň zůstat přizpůsobitelné v neustále se měnící oblasti dat.

Diagram of a medallion architecture where data flows from the source to the bronze, silver, and gold layers.

Vysvětlení formátu architektury medallionu

Bronzová vrstva

Bronzová nebo nezpracovaná vrstva architektury medailiónu je první vrstvou jezera. Jedná se o cílovou zónu pro všechna data, ať už jsou strukturovaná, částečně strukturovaná nebo nestrukturovaná. Data jsou uložená v původním formátu a v něm nejsou provedeny žádné změny.

Stříbrná vrstva

Stříbrná nebo ověřená vrstva je druhou vrstvou jezerahouse. Tady ověříte a zpřesníte svá data. Mezi typické aktivity ve stříbrné vrstvě patří kombinování a slučování dat a vynucování ověřovacích pravidel dat, jako je odebrání hodnot null a odstranění duplicitních dat. Stříbrnou vrstvu si můžete představit jako centrální úložiště v rámci organizace nebo týmu, kde jsou data uložená v konzistentním formátu a můžou k němu přistupovat více týmů. Ve stříbrné vrstvě, kterou vyčistit data dostatečně, aby všechno bylo na jednom místě a připravené k upřesnění a modelování ve zlaté vrstvě.

Zlatá vrstva

Zlatá nebo rozšířená vrstva je třetí vrstvou jezera. Ve zlaté vrstvě procházejí data dalším vylepšením, aby byla v souladu s konkrétními obchodními a analytickými potřebami. To může zahrnovat agregaci dat na určitou členitost, například denní nebo hodinovou, nebo její rozšiřování externími informacemi. Jakmile data dosáhnou zlaté fáze, jsou připravená k použití podřízenými týmy, včetně analýz, datových věd nebo MLOps.

Přizpůsobení architektury medailiónu

V závislosti na konkrétním případu použití vaší organizace možná budete potřebovat více vrstev. Před transformací do bronzové vrstvy můžete mít například další "nezpracovanou" vrstvu pro cílová data v určitém formátu. Nebo můžete mít vrstvu platiny pro data, která jsou dále zpřesněna a rozšířena pro konkrétní případ použití. Bez ohledu na názvy a počet vrstev je architektura medailonu flexibilní a je možné ji přizpůsobit tak, aby vyhovovala konkrétním požadavkům vaší organizace.

Přesun dat mezi vrstvami v prostředcích infrastruktury

Přesouvání dat mezi vrstvami medallionu se zpřesňuje, uspořádá a připraví na podřízené datové aktivity. V jezeře Fabricu existuje více než jeden způsob, jak přesouvat data mezi vrstvami a zajistit, abyste mohli zvolit metodu, která funguje pro váš tým.

Při rozhodování o přesunu a transformaci dat mezi vrstvami je potřeba vzít v úvahu několik věcí.

  • S kolika daty pracujete?
  • Jak složité jsou transformace, které potřebujete udělat?
  • Jak často budete muset přesouvat data mezi vrstvami?
  • S jakými nástroji nejlíbíte?

Pochopení rozdílu mezi transformací dat a orchestrací dat vám pomůže vybrat správné nástroje pro úlohu v rámci infrastruktury.

Transformace dat zahrnuje změnu struktury nebo obsahu dat tak, aby splňovala konkrétní požadavky. Mezi nástroje pro transformaci dat v prostředcích infrastruktury patří toky dat (Gen2) a poznámkové bloky. Toky dat jsou skvělou volbou pro menší sémantické modely a jednoduché transformace. Poznámkové bloky jsou lepší volbou pro větší sémantické modely a složitější transformace. Poznámkové bloky také umožňují ukládat transformovaná data jako spravovanou tabulku Delta v jezeře připravené k vytváření sestav.

Orchestrace dat odkazuje na koordinaci a správu více procesů souvisejících s daty a zajišťuje jejich spolupráci na dosažení požadovaného výsledku. Primárním nástrojem pro orchestraci dat v prostředcích infrastruktury jsou kanály. Kanál je řada kroků, které přesouvají data z jednoho místa do druhého, v tomto případě z jedné vrstvy architektury medailonu na další. Kanály je možné automatizovat tak, aby běžely podle plánu nebo aktivovaly událostí.