Az Azure Data Lake Storage áttekintése felhőalapú elemzésekhez

Cikk
10/10/2023

Az Azure Data Lake egy nagymértékben skálázható és biztonságos adattárolás a nagy teljesítményű elemzési számítási feladatokhoz. A felhőalapú elemzésekhez egyetlen erőforráscsoportban hozhat létre tárfiókokat. Javasoljuk, hogy három Azure Data Lake Storage Gen2-fiókot építsen ki egyetlen erőforráscsoporton belül, storage-rg a felhőalapú elemzési architektúra adat-kezdőzónájának áttekintésében ismertetett erőforráscsoporthoz hasonlóan.

Az adat-kezdőzóna minden egyes tárfiókja három lépésben tárolja az adatokat:

Nyers adatok
Bővített és válogatott adatok
Fejlesztői adattavak

Az adatalkalmazások gazdagított és válogatott adatokat használhatnak fel egy tárfiókból, amely egy automatizált adatbetöltési szolgáltatást betöltött. Forráshoz igazított adatalkalmazást akkor hozhat létre, ha nem implementálja az adatelemzési motort, vagy összetett kapcsolatokat tesz lehetővé az operatív forrásokból származó adatok betöltéséhez. Ez az adatalkalmazás ugyanazt a folyamatot követi, mint egy adatelemzési motor, amikor külső adatforrásokból származó adatokat vesz fel.

A Data Lake Storage Gen2 támogatja azokat a részletes hozzáférés-vezérlési listákat (ACL-eket), amelyek fájl- és mappaszinten védik az adatokat. A hozzáférés-vezérlési listák segíthetnek a szervezetnek szigorú biztonsági intézkedések végrehajtásában az adattermékek hitelesítéséhez és engedélyezéséhez a következő célokra:

Az adatok biztonságos tárolása inaktív titkosítással.
A Microsoft Entra-felhasználók és biztonsági csoportok hozzáférés-vezérlése a Microsoft Entra-integráción keresztül.

Data Lake-tervezés

A data lake tervezésekor mindig érdemes megfontolni a struktúrát, a szabályozást és a biztonságot. Az egyes data lake-ek struktúráját és szervezetét több tényező befolyásolja:

A tárolt adatok típusa
Adatok átalakítása
Ki fér hozzá az adataihoz?
Milyenek a tipikus hozzáférési minták?

Csoportosítsa a felhasználókat és a gyártókat az adathozzáférési igényeik alapján. Érdemes megtervezni az implementációt és a hozzáférés-vezérlés szabályozását a data lake-ben.

Ha a data lake tartalmaz néhány adategységet és automatizált folyamatokat, például kinyerést, átalakítást, betöltést (ETL) kiszervezést, a tervezés valószínűleg meglehetősen egyszerű lesz. Ha a data lake több száz adategységet tartalmaz, és automatizált és manuális interakciót is magában foglal, várhatóan hosszabb időt kell terveznie, mivel sokkal több együttműködésre lesz szüksége az adattulajdonosoktól.

Adat mocsári analógia

Az adatcsomó egy nem felügyelt adattó, amely szinte elérhetetlen a felhasználók számára. Adat mocsarak akkor fordulnak elő, ha nem valósít meg adatminőségi és adatszabályozási intézkedéseket. A meglévő hibrid modellekkel rendelkező adattárházakban néha adatcsomó is látható.

A megfelelő irányítás és szervezet megakadályozza az adatcsomóták használatát. Ha szilárd alapot hoz létre a data lake-hez, az növeli a Data Lake sikeres és üzleti sikerének esélyét.

A data lake méretének, összetettségének, adategységeinek száma és a felhasználók vagy részlegek számának növekedésével egyre kritikusabbá válik a robusztus adatkatalógus-rendszer használata. Az adatkatalógus rendszere biztosítja, hogy a felhasználók az adatok feldolgozása, felhasználása és szabályozása során megtalálják, címkézhessék és osztályozzák az adatokat.

További információkért tekintse meg az adatszabályozás áttekintését.

Tárfiókok logikai data lake-ben

Fontolja meg, hogy a szervezetnek szüksége van-e egy vagy több tárfiókra, és fontolja meg, hogy milyen fájlrendszerek szükségesek a logikai adattó létrehozásához. Az egytárolós technológia több adatelérési módszert is biztosít, és segít a szervezet egységesítésében.

A Data Lake Storage Gen2 egy teljes körűen felügyelt platform szolgáltatásként (PaaS). Több tárfiók vagy fájlrendszer nem vonhat maga után pénzügyi költséget, amíg nem fér hozzá vagy nem tárolja az adatokat. Vegye figyelembe, hogy minden Azure-erőforrás felügyeleti és üzemeltetési többletterheléssel rendelkezik a kiépítés, a biztonság és a szabályozás során, beleértve a biztonsági mentéseket és a vészhelyreállítást.

Megjegyzés:

Minden adat-kezdőzónában három adattó látható. A követelményektől függően azonban előfordulhat, hogy a nyers, gazdagított és válogatott rétegeket egyetlen tárfiókba összesítheti. Létrehozhat egy másik, fejlesztésnek nevezett tárfiókot, ahol az adatfelhasználók más hasznos adattermékeket hozhatnak létre.

Az összevont vagy három tárfiók-megközelítés közötti döntés során vegye figyelembe a következő tényezőket:

Az adatkörnyezetek elkülönítése és a kiszámíthatóság
- Elkülönítheti a nyers és fejlesztési zónákban futó tevékenységeket, hogy elkerülje a válogatott zónára gyakorolt lehetséges hatást, amely a kritikus döntéshozatalhoz szükséges nagy üzleti értékkel rendelkező adatokat tárolja
Szolgáltatások és funkciók a tárfiók szintjén
- Megadhatja, hogy az életciklus-kezelési beállításokat vagy a tűzfalszabályokat az adat-kezdőzóna vagy a data lake szintjén kell-e alkalmazni.
- Hozzon létre több tárfiókot, de nem kéretlen silókat.
- Kerülje a duplikált adatprojektek láthatóságának vagy tudásmegosztásának hiányát a szervezeten belül.
- Győződjön meg arról, hogy megfelelő adatszabályozással, projektkövető eszközökkel és adatkatalógussal rendelkezik.
Adatfeldolgozási eszközök és technológiák interakciója több tó adataival a konfigurált engedélyek alapján
Regionális és globális tavak
- A tó globálisan elosztott felhasználói vagy folyamatai érzékenyek a földrajzi távolságok által okozott késésre.
- Az adatok helyi tárolása ajánlott eljárás.
- A szabályozási korlátozások és az adatok szuverenitása megköveteli, hogy az adatok egy adott régióban maradjanak.
- További információkért tekintse meg a többrégiós üzemelő példányokat.

Többrégiós üzemelő példányok

Ha az adattárolási szabályok vagy a felhasználói bázishoz közeli adatok megőrzésére vonatkozó követelmény diktálja, előfordulhat, hogy több Azure-régióban is létre kell hoznia Azure Data Lake-fiókokat. Ehhez hozzon létre egy adat-célzónát egy régióban, majd replikálja a globális adatokat az AzCopy, az Azure Data Factory vagy a külső termékek használatával. A helyi adatok régión belül élnek, míg a globális adatok több régióban replikálódnak.

Következő lépések

Data lake-zónák és -tárolók

Share via