Mi a medallion lakehouse architektúra?
A medallion architektúra adatrétegek sorozatát írja le, amelyek a tóházban tárolt adatok minőségét jelölik. A Databricks azt javasolja, hogy többrétegű megközelítést alkalmazzanak a vállalati adattermékek egyetlen igazságforrásának kiépítéséhez. Ez az architektúra garantálja az atomitást, a konzisztenciát, az elkülönítést és a tartósságot, mivel az adatok több ellenőrzési és átalakítási rétegen haladnak át, mielőtt a hatékony elemzésre optimalizált elrendezésben tárolják őket. A bronz (nyers), ezüst (ellenőrzött) és arany (gazdagított) kifejezések az egyes rétegekben lévő adatok minőségét írják le.
Fontos megjegyezni, hogy ez a medallion architektúra nem helyettesíti a többi dimenziós modellezési technikát. Az egyes rétegek sémái és táblázatai az adatfrissítések gyakoriságától és természetétől, valamint az adatok alsóbb rétegbeli használati eseteitől függően különböző formákat és normalizálási fokokat alkalmazhatnak.
A szervezetek a Databricks Lakehouse használatával létrehozhatnak és tarthatnak fenn érvényesített adatkészleteket a vállalaton belül. A data lakehouse sikeres felépítésének egyik kulcsfontosságú lépése az adatok termékként történő összeállítására összpontosító szervezeti szemlélet bevezetése.
Nyers adatok betöltése a bronz rétegbe
A bronz réteg nem értékelt adatokat tartalmaz. A bronz rétegbe betöltött adatok általában:
- Fenntartja az adatforrás nyers állapotát.
- A hozzáfűzés növekményesen történik, és idővel nő.
- A streamelés és a kötegelt tranzakciók bármilyen kombinációja lehet.
Az egyes adathalmazok teljes, feldolgozatlan előzményeinek hatékony tárolási formátumban való megőrzése lehetővé teszi egy adott adatrendszer bármely állapotának újbóli létrehozását.
További metaadatok (például a forrásfájlnevek vagy az adatok feldolgozásának időpontjának rögzítése) is hozzáadhatók a betöltési adatokhoz a jobb felderíthetőség, a forrásadatkészlet állapotának leírása és az alárendelt alkalmazások optimalizált teljesítménye érdekében.
Adatok ellenőrzése és deduplikálása az ezüst rétegben
Ne feledje, hogy bár a bronz réteg szinte nyers állapotban tartalmazza a teljes adatelőzményt, az ezüst réteg az adatok ellenőrzött, bővített verzióját jelöli, amely megbízható az alsóbb rétegbeli elemzésekhez.
Bár a Databricks erősen hisz a bronz, ezüst és arany asztalok által vezérelt tóházi látásban, az ezüst réteg hatékony implementálása azonnal feloldja a tóház számos lehetséges előnyét.
Bármely adatfolyam esetében az ezüstréteg egynél több táblát tartalmazhat.
Power Analytics az aranyréteggel
Ezek az aranyadatok gyakran rendkívül pontosak és összesítettek, és elemzési, gépi tanulási és éles alkalmazásokat használó adatokat tartalmaznak. Bár a tótárház összes táblájának fontos célt kell szolgálnia, az aranytáblák nem csak az információkat, hanem az ismeretekké átalakított adatokat jelölik.
Az elemzők nagyrészt az aranytáblákra támaszkodnak az alapvető feladataikhoz, és az ügyféllel megosztott adatokat ritkán tárolnák ezen a szinten kívül.
Frissítések ezekre a táblákra a rendszeres ütemezett éles számítási feladatok részeként kerül sor, amely segít a költségek szabályozásában, és lehetővé teszi a szolgáltatói szerződések (SLA-k) létrehozását az adatok frissességének érdekében.
Bár a tótárház nem rendelkezik ugyanazokkal a holtpontokkal, mint a vállalati adattárházakban, az aranytáblákat gyakran külön tárolóban tárolják, hogy elkerülje az adatkérelmek felhőbeli korlátait.
Általánosságban elmondható, hogy mivel az aggregációkat, illesztéseket és szűréseket az adatok aranyrétegbe való írása előtt kezeli a rendszer, a felhasználóknak alacsony késésű lekérdezési teljesítményt kell látniuk az aranytáblákban lévő adatokon.