Data lake-zónák és -tárolók

Cikk
10/10/2023

Fontos megtervezni az adatstruktúrát, mielőtt egy adattóba kerül. Ha rendelkezik tervvel, hatékonyan használhatja a biztonságot, a particionálást és a feldolgozást.

A data lake-ek áttekintését az Azure Data Lake Storage felhőalapú elemzésekhez készült áttekintésében tekintheti meg.

Áttekintés

A három data lake-fióknak a tipikus data lake-rétegekhez kell igazodnia.

Tó száma	Rétegek	Tároló száma	Tárolónév
1	Nyers	1	Leszállás
1	Nyers	2	Megfelelőség
2	Dúsított	1	Szabványosított
2	Kurátora	2	Adattermékek
3	Fejlesztés	1	Elemzési tesztkörnyezet
3	Fejlesztés	#	Synapse elsődleges tárolószáma

Az előző táblázat az adat-kezdőzónánként javasolt tárolók szabványos számát mutatja. Ez alól a javaslat alól kivételt képez, ha a tárolóban lévő adatokhoz különböző helyreállítható törlési szabályzatok szükségesek. Ezek a követelmények határozzák meg, hogy szükség van-e további tárolókra.

Megjegyzés:

Minden adat-kezdőzónában három adattó látható. A data lake három Data Lake-fiókban, több tárolóban és mappában található, de egyetlen logikai adattavat jelöl az adat-kezdőzónához.

A követelményektől függően érdemes lehet a nyers, gazdagított és válogatott rétegeket egyetlen tárfiókba összesíteni. Tartsa meg a "fejlesztés" nevű másik tárfiókot az adatfelhasználók számára, hogy más hasznos adattermékeket hozhassanak.

A Data Lake-fiókok elkülönítéséről további információt a Storage-fiókok logikai adattóban című témakörben talál.

Engedélyezze az Azure Storage-t a hierarchikus névtér funkcióval, amely lehetővé teszi a fájlok hatékony kezelését. A hierarchikus névtér funkció a fiókon belüli objektumokat és fájlokat címtárak és beágyazott alkönyvtárak hierarchiájába rendezi. Ez a hierarchia ugyanúgy van rendszerezve, mint a számítógépen lévő fájlrendszer.

Amikor az adatbetöltési motor vagy az előkészítési alkalmazás új rekordrendszert regisztrál, a szükséges mappákat a nyers, bővített és szabványosított adatrétegekben lévő tárolókban hozza létre. Ha egy forráshoz igazított adatalkalmazás betölti az adatokat, az adatalkalmazás csapatának szüksége van az adat-kezdőzóna-csapatra a mappák és biztonsági csoportok létrehozásához. Helyezzen egy szolgáltatáselv-nevet vagy felügyelt identitást a megfelelő csoportba, és rendeljen hozzá egy jogosultsági szintet. Dokumentálja ezt a folyamatot az adat-kezdőzóna és az adatalkalmazás-csapatok számára.

A csapatokról további információt az Azure-beli felhőalapú elemzési szerepkörök és csapatok ismertetése című témakörben talál.

Minden adatterméknek két mappával kell rendelkeznie abban az adattermék-tárolóban, amelyet az adattermék-csapat birtokol.

A szabványosított tároló gazdagított rétegében forrásrendszerenként két mappa található, besorolás szerint osztva. Ezzel a struktúrával a csapat külön tárolhat különböző biztonsági és adatbesorolású adatokat, és különböző biztonsági hozzáféréseket rendelhet hozzájuk.

A szabványosított tárolónak szüksége van egy általános mappára a bizalmas vagy az alatti adatokhoz, valamint egy bizalmas mappát a személyes adatokhoz. Hozzáférés vezérlése ezekhez a mappákhoz hozzáférés-vezérlési listák (ACL-ek) használatával. Létrehozhat egy adatkészletet az összes személyes adat eltávolításával, és tárolhatja azokat az általános mappában. Létrehozhat egy másik adatkészletet is, amely a bizalmas személyes adatok mappájában lévő összes személyes adatot tartalmazza.

Az ACL-ek és a Microsoft Entra-csoportok kombinációja korlátozza az adathozzáférést. Ezek a listák és csoportok szabályozzák, hogy a többi csoport mit tud és mit nem. Az adattulajdonosok és az adatalkalmazási csapatok jóváhagyhatják vagy elutasíthatják az adategységeikhez való hozzáférést.

További információ: Adathozzáférés-kezelés és korlátozott adatok.

Figyelmeztetés:

Egyes szoftvertermékek nem támogatják a Data Lake-tároló gyökerének csatlakoztatását. A korlátozás miatt a nyers, válogatott, gazdagított és fejlesztői rétegekben lévő data lake-tárolóknak egyetlen mappát kell tartalmazniuk, amely több mappára ágaz le. Gondosan állítsa be a mappaengedélyeket. Amikor új mappát hoz létre a gyökérkönyvtárból, a szülőkönyvtár alapértelmezett ACL-je határozza meg a gyermekkönyvtár alapértelmezett ACL-jét, és hozzáfér az ACL-hez. A gyermekfájlok ACL-jének nincs alapértelmezett ACL-je.

További információ: Hozzáférés-vezérlési listák (ACL-ek) az Azure Data Lake Storage Gen2-ben.

Nyers réteg vagy data lake one

Gondoljunk a nyers rétegre, mint egy olyan tározóra, amely az adatokat természetes és eredeti állapotában tárolja. Szűretlen és meg nem hamisított. Előfordulhat, hogy az adatokat eredeti formátumban tárolja, például JSON vagy CSV formátumban. Vagy költséghatékony lehet, ha a fájl tartalmát oszlopként tárolja tömörített fájlformátumban, például Avro, Parquet vagy Databricks Delta Lake formátumban.

Ezek a nyers adatok nem módosíthatók. Tartsa zárolva a nyers adatokat, és ha engedélyeket ad bármely felhasználónak, automatizált vagy emberi felhasználónak, győződjön meg arról, hogy azok írásvédettek. Ezt a réteget forrásrendszerenként egy mappával rendszerezheti. Minden betöltési folyamat írási hozzáférésének biztosítása csak a társított mappához.

Amikor adatokat tölt be a forrásrendszerekből a nyers zónába, a következőket teheti:

Teljes terhelés egy teljes adatkészlet kinyeréséhez.
A változás csak a módosított adatok betöltéséhez töltődik be .

Adja meg a választott betöltési mintát a mappastruktúrában, hogy egyszerűbben használhassa az adatfelhasználók számára.

A forrásrendszerekből származó nyers adatok minden forráshoz igazított adatalkalmazáshoz vagy automatizált betöltési motorforráshoz a teljes mappába vagy a delta mappába kerülnek. Minden betöltési folyamatnak írási hozzáféréssel kell rendelkeznie csak a társított mappához.

A teljes terhelés és a különbözeti terhelés közötti különbségek a következők:

Teljes terhelés – A forrásból származó teljes adatok a következő esetekben készíthetők elő:
- A forrás adatmennyisége kicsi.
- A forrásrendszer nem tart fenn időbélyegmezőt, amely azonosítja az adatok hozzáadását, frissítését vagy törlését.
- A forrásrendszer minden alkalommal felülírja a teljes adatokat.
Változásbetöltés – A forrásból származó növekményes adatok a következő esetekben helyezhetők elő:
- A forrás adatmennyisége nagy.
- A forrásrendszer egy időbélyegmezőt tart fenn, amely azonosítja az adatok hozzáadását, frissítését vagy törlését.
- A forrásrendszer fájlokat hoz létre és frissít az adatváltozásokról.

A nyers adattó a leszállási és megfelelőségi tárolókból áll. Minden tároló 100%-ig kötelező mappastruktúrát használ, amely a rendeltetésének megfelelően van meghatározva.

Céltároló elrendezése

A céltároló egy felismert forrásrendszerből származó nyers adatok számára van fenntartva. Az adatelemzési motor vagy a forráshoz igazított adatalkalmazás betölti az adatokat, amely változatlan és eredeti támogatott formátumban van.

.
|-Landing
|--Log
|---{Application Name}
|--Master and Reference
|---{Source System}
|--Telemetry
|---{Source System}
|----{Application}
|--Transactional
|---{Source System}
|----{Entity}
|-----{Version}
|------Delta
|-------{date (ex. rundate=2019-08-22)}
|------Full

Nyersréteg-megfelelőségi tároló

A nyers réteg adatminőségnek megfelelő adatokat tartalmaz. Mivel az adatok át lesznek másolva egy céltárolóba, az adatfeldolgozás és a számítástechnika aktiválódik, hogy az adatokat a céltárolóból a megfelelő tárolóba másolja. Ebben az első szakaszban az adatok delta lake formátumúvá alakulnak, és egy bemeneti mappába kerülnek. Az adatminőség futtatásakor a rendszer az átmenő rekordokat a kimeneti mappába másolja. Olyan rekordok, amelyek a hibamappában landoltak.

.
|-Conformance
|--Log
|---{Application Name}
|--Master and Reference
|---{Source System}
|--Telemetry
|---{Source System}
|----{Application}
|--Transactional
|---{Source System}
|----{Entity}
|-----{Version}
|------Delta
|-------Input
|--------{date (ex. rundate=2019-08-22)}
|-------Output
|--------{date (ex. rundate=2019-08-22)}
|-------Error
|--------{date (ex. rundate=2019-08-22)}
|------Full
|-------Input
|--------{date (ex. rundate=2019-08-22)}
|-------Output
|--------{date (ex. rundate=2019-08-22)}
|-------Error
|--------{date (ex. rundate=2019-08-22)}

Tipp.

Gondolja át azokat a forgatókönyveket, amikor esetleg újra kell építenie egy elemzési platformot az alapoktól. Vegye figyelembe az alsóbb rétegbeli olvasási adattárak újraépítéséhez szükséges legrészletesebb adatokat. Győződjön meg arról, hogy rendelkezik egy üzletmenet-folytonossági és vészhelyreállítási tervvel a fő összetevőkhöz.

Bővített réteg vagy data lake 2

Gondoljon a dúsított rétegre szűrőrétegként. Eltávolítja a szennyeződéseket, és dúsítást is magában foglalhat.

A szabványosítási tároló rekord- és főkiszolgálói rendszereket tartalmaz. A mappák először a tárgyterület, majd az entitás szerint vannak szegmentáltak. Az adatok egyesített, particionált táblákban érhetők el, amelyek elemzési felhasználásra vannak optimalizálva.

Szabványosított tároló

.
|-Standardized
|--Log
|---{Application Name}
|--Master and Reference
|---{Source System}
|--Telemetry
|---{Source System}
|----{Application}
|--Transactional
|---{Source System}
|----{Entity}
|-----{Version}
|------General
|--------{date (ex. rundate=2019-08-22)}
|-------Sensitive
|--------{date (ex. rundate=2019-08-22)}

Megjegyzés:

Ez az adatréteg az ezüstréteg vagy az olvasási adatforrás. Az ezen a rétegen belüli adatok az adatminőségen, a delta lake-átalakításon és az adattípus-igazításon kívül más átalakításokat nem alkalmaztak.

Az alábbi ábra az adattavak és tárolók forrásadatokból szabványosított tárolókba való áramlását mutatja be.

Válogatott réteg vagy data lake 2

A válogatott réteg a használati réteg. Adatbetöltés vagy -feldolgozás helyett elemzésre van optimalizálva. A válogatott réteg denormalizált adat martokban vagy csillagsémákban tárolhatja az adatokat.

A szabványosított tárolóból származó adatok nagy értékű adattermékekké alakulnak át, amelyek az adatfelhasználók számára lesznek kiszolgálva. Ezek az adatok struktúrával rendelkeznek. A szolgáltatás a felhasználók számára is kiszolgálható, például adatelemzési jegyzetfüzetek vagy egy másik olvasási adattáron keresztül, például az Azure SQL Database-en keresztül.

Az olyan eszközökkel, mint a Spark vagy a Data Factory, dimenziómodellezést hajthat végre, nem pedig az adatbázismotoron belül. Ez az eszközök használata kulcsfontosságú ponttá válik, ha azt szeretné, hogy a tó az egyetlen igazságforrás legyen.

Ha a tavon kívül végez dimenziómodellezést, érdemes lehet a modelleket a tóban közzétenni a konzisztencia érdekében. Ez a réteg nem helyettesíti az adattárházat. Teljesítménye általában nem megfelelő válasz irányítópultokhoz, végfelhasználói és fogyasztói interaktív elemzésekhez. Ez a réteg leginkább olyan belső elemzők és adattudósok számára ideális, akik nagy léptékű, improvizált lekérdezéseket vagy elemzéseket futtatnak, vagy olyan fejlett elemzők számára, akik nem rendelkeznek időérzékeny jelentéskészítési igényekkel. Mivel a tárolási költségek alacsonyabbak a data lake-ben, mint az adattárház, költséghatékony lehet a részletes, alacsony szintű adatok tárolása a tóban. Összesített adatok tárolása a raktárban. Ezeket az összesítéseket a Spark vagy az Azure Data Factory használatával hozhatja létre. Őrizze meg őket a data lake-ben, mielőtt betöltené őket az adattárházba.

Az ebben a zónában lévő adategységek általában szigorúan szabályozottak és jól dokumentáltak. Engedélyek hozzárendelése részlegek vagy függvények szerint, valamint engedélyek rendszerezése fogyasztói csoportok vagy adatpiacok szerint.

Adattermékek tárolója

.
|-{Data Product}
|---{Entity}
|----{Version}
|-----General
|-------{date (ex. rundate=2019-08-22)}
|------Sensitive
|-------{date (ex. rundate=2019-08-22)}

Tipp.

Ha egy másik olvasási adattárban, például az Azure SQL Database-ben helyez el adatokat, győződjön meg arról, hogy az adatok másolata megtalálható a válogatott adatokban. Az adattermék felhasználói a fő olvasási adattárba vagy az Azure SQL Database-példányba kerülnek, de további eszközökkel is megvizsgálhatják az adatokat, ha elérhetővé teszi az adatokat a data lake-ben.

A harmadik fejlesztési réteg vagy a data lake

Az adatfelhasználók a standardizált tárolóba betöltött adatok mellett más hasznos adattermékeket is használhatnak.

Ebben az esetben az adatplatform kioszthat egy elemzési tesztkörnyezetet ezekhez a felhasználókhoz. A tesztkörnyezetben értékes megállapításokat hozhatnak létre az általuk készített válogatott adatok és adattermékek használatával. Ha például egy adatelemzési csapat meg szeretné határozni egy új régió legjobb termékelhelyezési stratégiáját, más adattermékeket, például az ügyfelek demográfiai adatait és használati adatait is felhasználhatja az adott régió hasonló termékeiből. A csapat az adatokból származó nagy értékű értékesítési megállapításokkal elemezheti a termékpiac illeszkedési és ajánlati stratégiáját.

Megjegyzés:

Az elemzési tesztkörnyezet a közreműködők egy vagy egy kis csoportjának munkaterülete. A tesztkörnyezet mappái olyan speciális szabályzatokkal rendelkeznek, amelyek megakadályozzák a terület éles megoldás részeként való használatát. Ezek a szabályzatok korlátozzák a teljes rendelkezésre álló tárterületet, és hogy mennyi ideig tárolhatók az adatok.

Ezek az adattermékek általában ismeretlen minőségűek és pontosságúak. Ezek továbbra is adattermékként vannak kategorizálva, de ideiglenesek, és csak az adatokat használó felhasználói csoport számára relevánsak.

Ha ezek az adattermékek kiforrottak, a vállalat előléptetheti ezeket az adattermékeket a válogatott adatrétegbe. Ha az adattermék-csapatokat szeretné felelősnek tartani az új adattermékekért, biztosítson a csapatoknak egy dedikált mappát a válogatott adatzónában. Az új eredményeket a mappában tárolhatják, és megoszthatják őket a szervezet más csapataival.

Megjegyzés:

Minden létrehozott Azure Synapse-munkaterülethez a Data Lake Three használatával hozzon létre egy tárolót elsődleges tárolóként. Ez a tároló megakadályozza, hogy az Azure Synapse-munkaterületek zavarják a válogatott és bővített zónák átviteli sebességkorlátjait.

Példa a termékekbe és elemzési tesztkörnyezetbe irányuló adatfolyamra

Az alábbi ábra a cikkben szereplő információkat állítja össze, és bemutatja, hogyan haladnak át az adatok az adattermékekbe és az elemzési tesztkörnyezetbe.

Következő lépések

Az Azure Data Lake Storage főbb szempontjai

Data lake-zónák és -tárolók

Áttekintés

Nyers réteg vagy data lake one

Céltároló elrendezése

Nyersréteg-megfelelőségi tároló

Bővített réteg vagy data lake 2

Szabványosított tároló

Válogatott réteg vagy data lake 2

Adattermékek tárolója

A harmadik fejlesztési réteg vagy a data lake

Példa a termékekbe és elemzési tesztkörnyezetbe irányuló adatfolyamra

Következő lépések

További források