Megosztás a következőn keresztül:


Felhőalapú elemzések méretezése az Azure-ban

A méretezhető adatplatform kritikus fontosságú az adatok gyors növekedésének fogadására. A világ minden pontján hatalmas mennyiségű adat jön létre másodpercenként. A rendelkezésre álló adatok mennyisége várhatóan exponenciálisan növekszik a következő néhány évben. Az adatlétrehozás sebességének növekedésével az adatáthelyezés sebessége is nő.

Függetlenül attól, hogy mennyi adata van, a felhasználók gyors lekérdezési válaszokat igényelnek. Az eredményekért nem órákat, hanem perceket várnak. Ez a cikk azt ismerteti, hogyan skálázhatja az Azure felhőalapú elemzési megoldását, és hogyan tudja kielégíteni a felhasználói sebességet.

Introduction

Sok vállalat rendelkezik nagy adatplatform-monolitokkal. Ezek a monolitok egyetlen Azure Data Lake Gen2-fiók, és néha egyetlen tároló köré épülnek. Az adatplatformhoz kapcsolódó feladatokhoz gyakran egyetlen Azure-előfizetést használnak. Az előfizetési szint skálázása a legtöbb architektúraplatformon hiányzik, ami akadályozhatja az Azure folyamatos bevezetését, ha a felhasználók az Azure-előfizetés vagy a szolgáltatásszintű korlátozások bármelyikébe ütköznek. Annak ellenére, hogy egyes korlátozások puha korlátok, az ezek elérése továbbra is jelentős negatív hatással lehet az adatplatformra.

Az adatplatform strukturálásakor vegye figyelembe a szervezet struktúráját. Jegyezze fel a csapatok adattulajdonosi és funkcionális feladatait. Ha a szervezet nagy fokú önállóságot és elosztott tulajdonjogot biztosít a csapatoknak, az adathálós architektúra a legjobb választás.

Kerülje azokat a helyzeteket, amelyekben különböző csapatok felelősek a megoldások különböző feladataiért – például a betöltésért, a tisztításért, az összesítésért és a kiszolgálásért. Több csapattól függően a sebesség drámai csökkenését okozhatja. Ha például a kiszolgáló réteg adatfelhasználóinak új adategységeket kell előkészíteniük, vagy funkcionális módosításokat kell végrehajtaniuk egy adott adategységen, akkor többlépéses folyamaton kell átmenniük. Ebben a példában a lépések a következők:

  1. Az adatfelhasználó minden olyan csapatnak elküld egy jegyet, amely egy adatfolyamat-szakaszért felelős.
  2. A csapatoknak szinkronban kell működnie, mert a rétegek egymáshoz vannak kötve. Az új szolgáltatásokhoz módosítani kell az adattisztítási réteget, ami az adatösszesítési réteg változásaihoz vezet, ami a kiszolgáló réteg változásaihoz vezet. A módosítások minden folyamatszakaszt érinthetnek.
  3. A csapatok nehezen látják a változások feldolgozásának lehetséges hatásait, mivel nem rendelkeznek áttekintéssel a teljes teljes életciklusról. Közösen kell megtervezniük egy jól definiált kiadási tervet, amely minimalizálja a meglévő fogyasztókra és folyamatokra gyakorolt hatásokat. Ez a függőségkezelés növeli a felügyeleti többletterhelést.
  4. A csapatok általában nem az adatfelhasználó által kért adategység szakértői. Az új adathalmaz-funkciók vagy paraméterértékek megismeréséhez szakértőkkel kell konzultálniuk.
  5. Az összes módosítás implementálása után az adatfelhasználó értesítést kap arról, hogy az új adategység használatra kész.

Minden nagy szervezet több ezer adatfelhasználóval rendelkezik. A leírthoz hasonló bonyolult folyamat jelentősen csökkenti a nagy architektúrák sebességét, mivel a központosított csapatok szűk keresztmetszetet képeznek az üzleti egységek számára. Az eredmény kisebb innováció és korlátozott hatékonyság. Lehetséges, hogy az üzleti egységek dönthetnek úgy, hogy elhagyják a szolgáltatást, és inkább saját adatplatformot építenek ki.

Skálázási módszerek

Diagram of data management landing zone and multiple data landing zones.

A felhőalapú elemzés két alapvető fogalom használatával oldja meg a skálázási kihívásokat:

  • Adat-kezdőzónák használata skálázáshoz
  • Adattermékek vagy adatintegrációk használata skálázáshoz az elosztott és decentralizált adattulajdonlás lehetővé tétele érdekében

Egyetlen adat-kezdőzóna vagy több is üzembe helyezhető. Az adat-kezdőzónák lehetővé teszik az adatok felderítését és kezelését egy adatkezelési célzónához való csatlakozással. Minden adatkezelési célzóna egyetlen Azure-előfizetésen belül található.

Az előfizetések az Azure felügyeleti, számlázási és skálázási egységei. Kritikus szerepet játszanak a nagy léptékű Azure-bevezetési tervben.

Méretezés adat-kezdőzónákkal

A felhőalapú elemzés központi fogalmai az adatkezelési célzóna és az adat-célzóna. Mindegyiknek saját Azure-előfizetésben kell lennie. Az elkülönítésük lehetővé teszi a feladatok egyértelmű elkülönítését, a minimális jogosultsági elv követését, és részben a korábban említett előfizetés-méretezési problémák kezelését. A minimális felhőalapú elemzési beállítás egyetlen adat-célzónát és egyetlen adatkezelési célzónát tartalmaz.

A minimális beállítás azonban nem elegendő a nagy méretű adatplatformok üzembe helyezéséhez. A vállalatok nagy léptékű platformokat építenek ki, és befektetésekkel folyamatosan és hatékonyan skálázhatják az adat- és elemzési erőfeszítéseiket. Az előfizetési szintű korlátozások leküzdése érdekében a felhőalapú elemzések az előfizetéseket használják a skálázási egységként, ahogyan azt az Azure-beli kezdőzónákban tárgyaljuk. Ez a technika lehetővé teszi az adatplatform-lábnyom növelését azáltal, hogy további adat-kezdőzónákat ad hozzá az architektúrához. Ennek a technikának a bevezetése azzal a problémával is foglalkozik, hogy egy Azure Data Lake Gen2-t használnak egy teljes szervezet számára, mivel minden adat-kezdőzóna három adattóból áll. A több tartományból származó projektek és tevékenységek több Azure-előfizetésben is eloszthatók, így nagyobb méretezhetőséget biztosítanak.

A felhőalapú elemzési architektúra implementálása előtt döntse el, hogy hány adat-kezdőzónára van szüksége a szervezetnek. A megfelelő döntés meghozatala egy hatékony és hatékony adatplatform alapja.

A szükséges adat-kezdőzónák száma számos tényezőtől függ, különösen:

  • Szervezeti igazítás, például hogy hány üzleti egységnek van szüksége saját adat-kezdőzónára
  • Működési szempontok, például az, hogy a szervezet hogyan igazítja a működési erőforrásokat és az adott üzleti egységhez tartozó erőforrásokat.

A megfelelő adat-célzónamodell használata minimálisra csökkenti az adattermékek és adategységek egyik célzónából a másikba való áthelyezésére irányuló jövőbeli erőfeszítéseket. Emellett segít hatékonyan és következetesen méretezni a big data- és elemzési erőfeszítéseket a jövőben.

Az üzembe helyezendő adat-kezdőzónák számának meghatározásakor vegye figyelembe az alábbi tényezőket.

Tényező Leírás
Szervezeti struktúra és adatok tulajdonjoga Gondolja át, hogyan épül fel a szervezet, és hogyan birtokolja az adatokat a szervezetében.
Régió és hely Ha több régióban telepít, döntse el, hogy melyik régió vagy régió üzemeltetje az adatzónákat. Ügyeljen arra, hogy minden adattárolási követelményt betartson.
Quotas Az előfizetési kvóták nem kapacitásgaranciák, és régiónként vannak alkalmazva.
Adatfüggetlenség Az adatelkonvertitásra vonatkozó szabályozások miatt az adatokat egy adott régióban kell tárolni, és régióspecifikus szabályzatokat kell követni.
Azure-szabályzatok Az adat-kezdőzónáknak meg kell felelnie a különböző Azure-szabályzatok követelményeinek.
Felügyeleti határ Az előfizetések felügyeleti határt biztosítanak az irányításhoz és az elkülönítéshez, amely egyértelműen elválasztja az aggályokat.
Networking Minden kezdőzóna rendelkezik virtuális hálózatokkal. Mivel egy virtuális hálózat egyetlen régióban található, minden új régióhoz új kezdőzóna szükséges. A tartományközi kommunikáció engedélyezéséhez a virtuális hálózatoknak társ virtuális hálózatoknak kell lenniük.
Korlátozások Az előfizetések korlátai vannak. Ha több előfizetéssel rendelkezik, mérsékelheti a korlátok elérésének veszélyeit.
Költséglefoglalás Fontolja meg, hogy a megosztott szolgáltatásokat, például a központilag fizetett tárfiókokat üzleti egység vagy tartomány szerint kell-e felosztani. Ha külön előfizetést használ, határt hoz létre a költségfelosztáshoz. Ugyanezeket a funkciókat címkékkel érheti el.
Adatbesorolások és szigorúan bizalmas adatok A biztonsági mechanizmusok hatással lehetnek az adattermék-fejlesztésre és az adatplatformok használhatóságára. Fontolja meg az adatbesorolásokat, és döntse el, hogy a szigorúan bizalmas adathalmazok különleges kezelést igényelnek-e, például az igény szerinti hozzáférést, az ügyfél által kezelt kulcsokat (CMK), a részletes hálózati vezérlőket vagy a titkosítást.
Egyéb jogi vagy biztonsági következmények Fontolja meg, hogy vannak-e olyan egyéb jogi vagy biztonsági követelmények, amelyek az adatok logikai vagy fizikai elkülönítését igénylik.

Ha adathálós architektúrát implementál, vegye figyelembe az alábbi tényezőket, amikor eldönti, hogyan osztja el az adat-kezdőzónákat és az adattartományokat.

Tényező Leírás
Adattartományok Vegye figyelembe a szervezet által használt adattartományokat, és döntse el, hogy melyik legyen az adatplatformon. Vegye figyelembe az egyes adattartományok méretét. További információ: Mik azok az adattartományok?
Latency A nagy mennyiségű adaton együttműködő tartományok nagy mennyiségű adatot továbbíthatnak a célzónák között. Fontolja meg a tartományok kiosztását ugyanabban a kezdőzónában vagy régióban. Az elkülönítésük növeli a késést, és növelheti a régiók közötti tartományok költségeit.
Biztonság Egyes szolgáltatástelepítések vagy -konfigurációk emelt szintű jogosultságokat igényelnek egy előfizetésben. Ha ezeket a jogosultságokat egy adott tartományban lévő felhasználónak adja, implicit módon ugyanazokat a jogosultságokat biztosítja a felhasználónak ugyanazon előfizetésen belüli más tartományokban.

További szempontokat a felhőbevezetési keretrendszer előfizetésekre vonatkozó útmutatójában találhat.

Számos szervezet hatékony skálázást szeretne a vállalati adatplatformon. Az üzleti egységeknek képesnek kell lenniük arra, hogy saját adatmegoldásokat és alkalmazásokat építsenek ki egyedi igényeiknek megfelelően. Ennek a képességnek a biztosítása kihívást jelenthet, mivel számos meglévő adatplatform nem a méretezhetőség és a decentralizált tulajdonjog fogalmaira épül. Ez a hiányosság egyértelműen látható ezen adatplatformok architektúrájában, csapatstruktúrájában és ops modelljében.

Az adat-kezdőzónák nem hoznak létre adatsilókat a szervezeten belül. A felhőalapú elemzésekhez javasolt hálózati beállítás biztonságos és helyszíni adatmegosztást tesz lehetővé a kezdőzónák között, ami pedig lehetővé teszi az adattartományok és üzleti egységek közötti innovációt. További információkért tekintse meg a hálózati architektúra szempontjait.

Ugyanez igaz az identitásrétegre is. Ha egyetlen Microsoft Entra-bérlőt használ, az identitások számára több adat-célzóna adategységeihez is hozzáférést biztosíthat. A felhasználói és identitás-engedélyezési folyamatról további információt az Adathozzáférés-kezelés című témakörben talál.

Megjegyzés:

Ha több adat-kezdőzónával rendelkezik, mindegyik zóna csatlakozhat más zónákban tárolt adatokhoz. Ez lehetővé teszi, hogy a csoportok együttműködjenek a vállalaton belül.

A felhőalapú elemzések közös architektúrával támogatják a konzisztens szabályozást. Az architektúra alapszintű képességeket és szabályzatokat határoz meg. Minden adat-kezdőzóna ugyanazokat a naplózási és vezérlőket követi. A csapatok létrehozhatnak adatfolyamokat, betölthetnek forrásokat, és olyan adattermékeket hozhatnak létre, mint a jelentések és az irányítópultok. A Teams szükség szerint Spark-/SQL-elemzést is végezhet. Az adat-kezdőzóna képességeit úgy bővítheti, hogy szolgáltatásokat ad hozzá a szabályzat képességeihez. Egy csapat például hozzáadhat egy külső gráfmotort az üzleti követelmények kielégítéséhez.

A felhőalapú elemzések nagy hangsúlyt fektetnek a központi katalogizálásra és besorolásra az adatok védelme érdekében, és lehetővé teszik a különböző csoportok számára az adattermékek felderítését.

Figyelmeztetés

Javasoljuk, hogy ne kérdezz le adatokat régiók között. Ehelyett győződjön meg arról, hogy az adatok közel állnak az azt használó számításhoz, miközben tiszteletben tartják a regionális határokat.

A felhőalapú elemzési architektúra és az adat-kezdőzónák fogalma lehetővé teszi a szervezet számára, hogy idővel egyszerűen növelje az adatplatform méretét. Szakaszos megközelítésben további adat-kezdőzónákat is hozzáadhat. Az ügyfeleknek először nem kell több célzónát használniuk. Az architektúra bevezetésekor rangsoroljon néhány adat-kezdőzónát és az általuk tartalmazott adattermékeket. A megfelelő rangsorolás segít biztosítani a felhőalapú elemzések üzembe helyezésének sikerességét.

Méretezés adattermékekkel vagy adatintegrációkkal

Az egyes célzónákon belül a szervezet adatalkalmazások használatával skálázhat. Az adatalkalmazások az adatarchitektúra olyan egységei vagy összetevői, amelyek olyan funkciókat foglalnak magában, amelyek olvasásra optimalizált adattermékeket biztosítanak más adatalkalmazások általi felhasználás céljából. Az Azure-ban az adatalkalmazások olyan erőforráscsoportok formájában létrehozott környezetek, amelyek lehetővé teszik a többfunkcionális csapatok számára az adatmegoldások és számítási feladatok implementálását. A társított csapat gondoskodik az adatmegoldás teljes életciklusáról, amely magában foglalja a betöltést, a tisztítást, az összesítést és a feladatok kiszolgálását.

A felhőalapú elemzés a korábban tárgyalt adatintegrációs és felelősségi problémákat kezeli. A táblabetöltés és a forrásrendszer-integráció monolitikus funkcionális feladatai helyett a referenciaterv egy elosztott architektúrát biztosít, amelyet adattartományok vezérelnek. A többfunkcionális csapatok átveszik az adattartomány teljes körű funkcionális felelősségét és tulajdonjogát.

Központosított technikai verem és az adatfeldolgozási munkafolyamat minden feladatáért felelős csapat helyett a teljes körű felelősséget több autonóm, többfunkciós adatintegrációs csapat között oszthatja el. Minden csapat rendelkezik egy tartomány- vagy altartomány-képességgel, és javasoljuk, hogy az adathalmazokat az adatfelhasználók által megkövetelt módon szolgálja ki.

Ezek az architektúrabeli különbségek növelik az adatplatform sebességét. Az adatfelhasználóknak többé nem kell központosított csapatokra támaszkodniuk, és nem kell harcolniuk a kért módosítások rangsorolásáért. Mivel a kisebb csapatok átveszik a végpontok közötti integrációs munkafolyamat tulajdonjogát, az adatszolgáltató és az adatfelhasználó közötti visszajelzési ciklus sokkal rövidebb. Ez a megközelítés gyorsabb rangsorolást, gyorsabb fejlesztési ciklusokat és agilisabb fejlesztési folyamatot eredményez. A csapatoknak már nem kell egymás között szinkronizálniuk a folyamatokat és a kiadási terveket, mert a többfunkcionális adatintegrációs csapat teljes mértékben tisztában van a teljes körű technikai veremtel és a változások következményeival. A szoftvermérnöki eljárások használatával egység- és integrációs teszteket futtathat a fogyasztókra gyakorolt általános hatás minimalizálása érdekében.

Ideális esetben az adatintegrációs rendszerek tulajdonosa csapat is a forrásrendszereket birtokolja. Ennek a csapatnak olyan adatmérnökökből kell állnia, akik a forrásrendszereken dolgoznak, az adathalmazok, a felhőmérnökök és az adattermék-tulajdonosok szakterületi szakértőiből (KKV-kból). Az ilyen típusú keresztfunkcionális csapat létrehozása csökkenti a külső csapatokkal szükséges kommunikáció mennyiségét, és elengedhetetlen a teljes verem infrastruktúrától a tényleges adatfolyamokig történő fejlesztése során.

Az adatplatform alapja a forrásrendszerekből integrálható adathalmazok. Ezek az adathalmazok lehetővé teszik az adattermék-csapatok számára az üzleti ténytáblákon való innovációt, valamint a döntéshozatal és az üzleti folyamatok javítását. Az adatintegrációs csapatoknak és az adattermék-csapatoknak SLA-kat kell kínálnia a fogyasztóknak, és gondoskodniuk kell arról, hogy minden megállapodás teljesüljön. A kínált SLA-k az adatminőséghez, az ütemtervekhez, a hibaarányokhoz, az üzemidőhöz és más feladatokhoz kapcsolódhatnak.

Summary

A felhőalapú elemzési architektúra skálázási mechanizmusainak használatával szervezete idővel növeli az adatvagyont az Azure-ban, és elkerülheti a jól ismert technikai korlátozásokat. A cikkben ismertetett mindkét skálázási módszer segít leküzdeni a különböző technikai összetettségeket, és egyszerűen és hatékonyan használható.

Következő lépések