Mi a medallion lakehouse architektúra?

A medallion architektúra olyan adatrétegeket ír le, amelyek a lakehouse-ban tárolt adatok minőségét jelölik. A Databricks azt javasolja, hogy többrétegű megközelítést alkalmazzon a vállalati adattermékek egyetlen igazságforrásának létrehozására. Ez az architektúra garantálja az atomitást, a konzisztenciát, az elkülönítést és a tartósságot, mivel az adatok több érvényesítési és átalakítási rétegen haladnak át, mielőtt a hatékony elemzésre optimalizált elrendezésben tárolva lesznek. A bronz (nyers), ezüst (ellenőrzött) és arany (dúsított) kifejezések az egyes rétegekben lévő adatok minőségét írják le.

Fontos megjegyezni, hogy ez a medál architektúra nem helyettesíti az egyéb dimenziómodellezési technikákat. Az egyes rétegek sémái és táblázatai az adatfrissítések gyakoriságától és jellegétől, valamint az adatokhoz tartozó alsóbb rétegbeli használati esetektől függően számos formát és normalizálási fokot ölthetnek.

A szervezetek a Databricks lakehouse használatával a vállalat teljes területén elérhető érvényesített adathalmazokat hozhatnak létre és tarthatnak fenn. A data lakehouse sikeres kiépítésének kulcsfontosságú lépése az adatok termékekként való válogatására összpontosító szervezeti gondolkodásmód bevezetése.

Nyers adatok betöltése a bronz rétegbe

A bronzréteg páratlan adatokat tartalmaz. A bronzrétegbe betöltött adatok általában:

  • Fenntartja az adatforrás nyers állapotát.
  • Növekményesen van hozzáfűzve, és idővel növekszik.
  • A streamelés és a kötegtranzakciók bármilyen kombinációja lehet.

Az egyes adathalmazok teljes, feldolgozatlan előzményeinek hatékony tárolási formátumban való megőrzése lehetővé teszi egy adott adatrendszer bármilyen állapotának újbóli létrehozását.

További metaadatok (például a forrásfájlnevek vagy az adatok feldolgozásának időpontjának rögzítése) hozzáadhatók a betöltési adatokhoz a jobb felderíthetőség, a forrásadatkészlet állapotának leírása és az alárendelt alkalmazások optimalizált teljesítménye érdekében.

Adatok ellenőrzése és deduplikálása az ezüstrétegben

Ne feledje, hogy míg a bronz réteg a teljes adatelőzményt szinte nyers állapotban tartalmazza, az ezüst réteg az adatok ellenőrzött, bővített verzióját jelöli, amely megbízható lehet az alsóbb rétegbeli elemzésekhez.

Bár a Databricks erősen hisz a bronz, ezüst és arany táblák által vezetett tóházi látásban, az ezüstréteg hatékony implementálása azonnal feloldja a tóház számos lehetséges előnyét.

Bármely adatfolyam esetében az ezüstréteg egynél több táblát tartalmazhat.

Power Analytics az aranyréteggel

Ezek az aranyadatok gyakran rendkívül kifinomultak és összesítettek, amelyek elemzést, gépi tanulást és éles alkalmazásokat használó adatokat tartalmaznak. Bár a tóparti összes táblának fontos célt kell szolgálnia, az aranytáblák az ismeretekké átalakított adatokat jelölik, nem csupán az információkat.

Az elemzők nagyrészt az aranytáblákra támaszkodnak az alapvető feladataikhoz, és az ügyféllel megosztott adatokat ritkán tárolnák ezen a szinten kívül.

Frissítések ezekre a táblákra rendszeres ütemezett éles számítási feladatok részeként kerül sor, amely segít a költségek szabályozásában, és lehetővé teszi a szolgáltatásiszint-szerződések (SLA-k) létrehozását az adatok frissességének érdekében.

Bár a lakehouse nem rendelkezik ugyanazokkal a holtponti problémákkal, amelyeket egy vállalati adattárházban tapasztalhat, az aranytáblákat gyakran külön tárolóban tárolják, így elkerülhetők az adatkérések felhőkorlátjai.

Általánosságban elmondható, hogy mivel az aggregációkat, illesztéseket és szűréseket az adatok aranyrétegbe való írása előtt kezeli a rendszer, a felhasználóknak alacsony késésű lekérdezési teljesítményt kell látniuk az aranytáblákban lévő adatokon.