Big Data Storage-technológia kiválasztása az Azure-ban

Cikk
10/05/2024

Ez a cikk összehasonlítja a big data-megoldások adattárolási lehetőségeit– különösen a tömeges adatbetöltéshez és kötegelt feldolgozáshoz használt adattárolási lehetőségeket, szemben az elemzési adattárakkal vagy a valós idejű streamelési betöltéssel.

Milyen lehetőségei vannak az Azure-beli adattárolás kiválasztásakor?

Az adatok azure-ba való betöltésére az igényeitől függően számos lehetőség közül választhat.

Egyesített logikai adattó:

OneLake a Microsoft Fabricben

Fájltárolás:

NoSQL-adatbázisok:

Elemzési adatbázisok:

Azure Data Explorer

OneLake a Hálóban

A OneLake in Fabric egy egységes és logikai adattó, amely a teljes szervezetre szabott. Központi központként szolgál az összes elemzési adathoz, és minden Microsoft Fabric-bérlőhöz tartozik. A OneLake in Fabric a Data Lake Storage Gen2 alapjaira épül.

OneLake a Hálóban:

Támogatja a strukturált és strukturálatlan fájltípusokat.
Az összes táblázatos adatot Delta Parquet formátumban tárolja.
Egyetlen adattavat biztosít a bérlői határokon belül, amely alapértelmezés szerint szabályozva van.
Támogatja a munkaterületek bérlőn belüli létrehozását, hogy a szervezet eloszthassa a tulajdonjogi és hozzáférési szabályzatokat.
Támogatja a különböző adatelemek, például a tóházak és a raktárak létrehozását, amelyekből hozzáférhet az adatokhoz.

A OneLake in Fabric a betöltések, átalakítások, valós idejű elemzések és üzletiintelligencia-vizualizációk gyakori tárolási helye. Központosítja a különböző Fabric-szolgáltatásokat, és tárolja azokat az adatelemeket, amelyeket minden számítási feladat használ a Fabricben. A Fabric-számítási feladatokhoz megfelelő adattár kiválasztásához tekintse meg a Fabric döntési útmutatóját: válasszon egy adattárat.

Azure Storage-blobok

Az Azure Storage egy felügyelt tárolási szolgáltatás, amely magas rendelkezésre állású, biztonságos, tartós, méretezhető és redundáns. A karbantartást és a kritikus problémák kezelését a Microsoft végzi el Önnek. Az Azure Storage a leggyakrabban elérhető tárolási megoldás, amelyet az Azure nyújt, a vele használható szolgáltatások és eszközök száma miatt.

Különböző Azure Storage-szolgáltatások használhatók az adatok tárolására. A blobok számos adatforrásból való tárolásának legrugalmasabb lehetősége a Blob Storage. A blobok alapvetően fájlok. Képeket, dokumentumokat, HTML-fájlokat, virtuális merevlemezeket (VHD-ket), big data-okat, például naplókat, adatbázis-biztonsági mentéseket tárolnak – nagyjából bármit. A blobok tárolása tárolókban történik, amelyek a mappákhoz hasonlatosak. A tároló blobkészletek csoportosítását biztosítja. Egy tárfiók korlátlan számú tárolót tartalmazhat, egy tároló pedig korlátlan számú blob tárolására használható.

Az Azure Storage a rugalmasság, a magas rendelkezésre állás és az alacsony költségek miatt jó választás big data- és elemzési megoldásokhoz. Gyakori, ritka elérésű és archív tárolási szinteket biztosít a különböző használati esetekhez. További információ: Azure Blob Storage: Gyakori elérésű, ritka elérésű és archív tárolási szintek.

Az Azure Blob Storage a Hadoopból érhető el (a HDInsighton keresztül érhető el). A HDInsight egy blobtárolót használhat az Azure Storage-ben a fürt alapértelmezett fájlrendszereként. A WASB-illesztők által biztosított Hadoop Elosztott fájlrendszer (HDFS) interfészen keresztül a HDInsight összetevőinek teljes készlete közvetlenül a blobokként tárolt strukturált vagy strukturálatlan adatokon működhet. Az Azure Blob Storage az Azure Synapse Analyticsen keresztül is elérhető a PolyBase funkciójával.

Az Azure Storage-t a következő funkciók teszik jó választássá:

Több egyidejűségi stratégia.
Vészhelyreállítási és magas rendelkezésre állási lehetőségek.
Titkosítás inaktív állapotban.
Azure-beli szerepköralapú hozzáférés-vezérlés (RBAC) a Hozzáférés szabályozásához Microsoft Entra-felhasználók és -csoportok használatával.

2. generációs Data Lake Storage

A Data Lake Storage Gen2 egyetlen, központosított adattár, ahol az összes adatot strukturált és strukturálatlan állapotban tárolhatja. A data lake lehetővé teszi a szervezet számára, hogy gyorsan és egyszerűbben tároljon, hozzáférjen és elemezzen számos adatot egyetlen helyen. A data lake-nek nem kell megfelelnie az adatoknak egy meglévő struktúra követelményeinek. Ehelyett tárolhatja az adatokat nyers vagy natív formátumban, általában fájlokként vagy bináris nagy objektumokként (blobokként).

A Data Lake Storage Gen2 az Azure Data Lake Storage Gen1 és az Azure Blob Storage képességeit konvergálja. A Data Lake Storage Gen2 például fájlrendszer-szemantikát, fájlszintű biztonságot és skálázást biztosít. Mivel ezek a képességek a Blob Storage-ra épülnek, alacsony költségű, rétegzett tárterületet is kap, magas rendelkezésre állási/vészhelyreállítási képességekkel.

A Data Lake Storage Gen2 teszi az Azure Storage-t az Azure-beli nagyvállalati adattavak készítésének alapjaként. A Data Lake Storage Gen2 a kezdetektől több petabájtnyi információ kiszolgálása és több száz gigabájtos átviteli sebesség fenntartása mellett lehetővé teszi a nagy mennyiségű adat egyszerű kezelését.

Azure Cosmos DB

Az Azure Cosmos DB a Microsoft globálisan elosztott többmodelles adatbázisa. Az Azure Cosmos DB garantálja az egy számjegyből álló ezredmásodperc késéseket a 99. percentilisben bárhol a világon, több jól definiált konzisztenciamodellt biztosít a teljesítmény finomhangolásához, és magas rendelkezésre állást garantál több-homing képességekkel.

Az Azure Cosmos DB sémafüggetlen. Automatikusan indexeli az összes adatot anélkül, hogy a sémával és az indexkezeléssel kellene foglalkoznia. Emellett többmodelles, natívan támogató dokumentum-, kulcs-érték-, gráf- és oszlopcsalád-adatmodellek.

Az Azure Cosmos DB funkciói:

HBase on HDInsight

Az Apache HBase egy nyílt forráskódú NoSQL-adatbázis, amely a Hadoopra épül, és a Google BigTable után modellezhető. A HBase véletlenszerű hozzáférést és erős konzisztenciát biztosít nagy mennyiségű strukturálatlan és félig strukturált adathoz egy oszlopcsaládok által rendezett séma nélküli adatbázisban.

Az adatok a táblasorokban vannak tárolva, és a sorokon belüli adatok oszlopcsalád szerint vannak csoportosítva. A HBase séma nélküli abban az értelemben, hogy a használat előtt sem az oszlopok, sem a bennük tárolt adatok típusát nem kell definiálni. A nyílt forráskód lineáris módon méreteződik át a több ezer csomópontnyi adat petabájtjainak kezelése érdekében. Az adatredundanciára, a kötegelt feldolgozásra és más olyan szolgáltatásokra támaszkodhat, amelyeket elosztott alkalmazások nyújtanak a Hadoop rendszerben.

A HDInsight-implementáció a HBase horizontális felskálázási architektúráját használja a táblák automatikus szilánkolására, az olvasások és írások erős konzisztenciájára, valamint az automatikus feladatátvételre. A teljesítményt a memóriába való gyorsítótárazás növeli az olvasáshoz, és a nagy streaming-kapacitás az írásokhoz. A legtöbb esetben a HBase-fürtöt egy virtuális hálózaton belül szeretné létrehozni, hogy más HDInsight-fürtök és alkalmazások közvetlenül elérhessék a táblákat.

Azure Adatkezelő

Az Azure Data Explorer egy gyors és nagy mértékben méretezhető adatfeltárási szolgáltatás a napló- és telemetriaadatokhoz. Segít kezelni a modern szoftverek által kibocsátott számos adatfolyamot, így adatokat gyűjthet, tárolhat és elemezhet. Az Azure Adatkezelő ideális választás nagy mennyiségű, különböző forrásokból (például webhelyekről, alkalmazásokból, IoT-eszközökről stb.) származó adatok elemzéséhez. Ezek az adatok a diagnosztikához, a monitorozáshoz, a jelentéskészítéshez, a gépi tanuláshoz és a további elemzési funkciókhoz szükségesek. Az Azure Data Explorer egyszerűvé teszi az adatok betöltését, és lehetővé teszi, hogy összetett, nem tervezett lekérdezéseket hajtson végre az adatokon másodpercek alatt.

Az Azure Data Explorer lineárisan felskálázható a betöltési és lekérdezésfeldolgozási átviteli sebesség növelése érdekében. Az Azure Data Explorer-fürtök üzembe helyezhetők egy virtuális hálózaton a magánhálózatok engedélyezéséhez.

Kulcsválasztási feltételek

A lehetőségek szűkítéséhez először válaszoljon az alábbi kérdésekre:

Szüksége van egységes adattóra többfelhős támogatással, robusztus irányítással és az elemzési eszközökkel való zökkenőmentes integrációval? Ha igen, válassza a OneLake in Fabric lehetőséget az egyszerűsített adatkezeléshez és a jobb együttműködéshez.
Szüksége van felügyelt, nagy sebességű, felhőalapú tárolóra bármilyen típusú szöveges vagy bináris adathoz? Ha igen, válassza ki a fájltárolási vagy elemzési lehetőségek egyikét.
Szüksége van a párhuzamos elemzési számítási feladatokra és a magas átviteli sebességre/IOPS-ra optimalizált fájltárolásra? Ha igen, válasszon egy beállítást, amely az elemzési számítási feladatok teljesítményére van hangolva.
Strukturálatlan vagy félig strukturált adatokat kell tárolnia egy séma nélküli adatbázisban? Ha igen, válassza ki a nem arelációs vagy elemzési lehetőségek egyikét. Hasonlítsa össze az indexelési és adatbázismodellek beállításait. A tárolni kívánt adatok típusától függően az elsődleges adatbázismodellek lehetnek a legnagyobb tényező.
Használhatja a szolgáltatást a régióban? Ellenőrizze az egyes Azure-szolgáltatások regionális elérhetőségét. További információért lásd a régiónként elérhető termékeket.

Képességmátrix

Az alábbi táblázatok összefoglalják a képességek főbb különbségeit.

OneLake in Fabric képességek

Funkció	OneLake a Hálóban
Egyesített adattó	Egyetlen, egységes adattó a teljes szervezet számára, amely kiküszöböli az adatsilókat.
Többfelhős támogatás	Támogatja a különböző felhőplatformokkal való integrációt és kompatibilitást.
Adatszabályozás	Olyan funkciókat tartalmaz, mint az adatkisorolás, az adatvédelem, a minősítés és a katalógusintegráció.
Központosított adatközpont	Központosított központként szolgál az adatfelderítéshez és -kezeléshez.
Elemzési motor támogatása	Kompatibilis több elemzési motorral. Ez a kompatibilitás lehetővé teszi, hogy különböző eszközök és technológiák működjenek ugyanazon az adatokon.
Biztonság és megfelelőség	Biztosítja, hogy a bizalmas adatok biztonságosak maradnak, és a hozzáférés csak a jogosult felhasználók számára legyen korlátozva.
Egyszerű használat	Felhasználóbarát kialakítást biztosít, amely automatikusan elérhető minden Fabric-bérlőnél, és nincs szükség beállításra.
Méretezhetőség	Képes nagy mennyiségű, különböző forrásból származó adat kezelésére.

Fájltárolási képességek

Funkció	2. generációs Data Lake Storage	Azure Blob Storage-tárolók
Cél	Optimalizált tárolás big data-elemzési számítási feladatokhoz	Általános célú objektumtároló a tárolási forgatókönyvek széles köréhez
Használati esetek	Batch, streaming analytics és gépi tanulási adatok, például naplófájlok, IoT-adatok, kattintási streamek, nagy adathalmazok	Bármilyen típusú szöveges vagy bináris adat, például alkalmazás háttérrendszere, biztonsági mentési adatok, streamelési adathordozó-tárolás és általános célú adatok
Struktúra	Hierarchikus fájlrendszer	Objektumtároló egysíkú névtérrel
Hitelesítés	Microsoft Entra-identitások alapján	A megosztott titkos kulcsok és a közös hozzáférésű jogosultságkódkulcsok, valamint az Azure szerepköralapú hozzáférés-vezérlése (Azure RBAC) alapján
Hitelesítési protokoll	Open Authorization (OAuth) 2.0. A hívásoknak tartalmazniuk kell a Microsoft Entra ID által kibocsátott érvényes JWT-t (JSON webes jogkivonatot)	Kivonatalapú üzenethitelesítési kód (HMAC). A hívásoknak tartalmazniuk kell egy Base64-kódolású SHA-256 kivonatot a HTTP-kérés egy része felett.
Engedélyezés	Portable Operating System Interface (POSIX) hozzáférés-vezérlési listák (ACL-ek). A Microsoft Entra-identitásokon alapuló ACL-ek fájl- és mappaszintet állíthatnak be.	Fiókszintű engedélyezéshez használja a fiók hozzáférési kulcsait. Fiók-, tároló- vagy blobengedélyezési célokhoz használja a közös hozzáférésű jogosultságkódkulcsokat.
Naplózás	Beszerezhető.	Rendelkezésre áll
Titkosítás inaktív állapotban	Transzparens, kiszolgálóoldali	Transzparens, kiszolgálóoldali; Ügyféloldali titkosítás
Fejlesztői SDK-k	.NET, Java, Python, Node.js	.NET, Java, Python, Node.js, C++, Ruby
Elemzési számítási feladatok teljesítménye	Optimalizált teljesítmény párhuzamos elemzési számítási feladatokhoz, magas átviteli sebességhez és IOPS-hoz	Nincs elemzési számítási feladatokra optimalizálva
Méretkorlátok	Nincs korlátozva a fiókméret, a fájlméret vagy a fájlok száma	Az itt dokumentált konkrét korlátok
Georedundancia	Helyileg redundáns (helyileg redundáns tárolás (LRS)), globálisan redundáns (georedundáns tárolás (GRS)), olvasási hozzáférés globálisan redundáns (olvasási hozzáférésű georedundáns tárolás (RA-GRS)), zónaredundáns (zónaredundáns tárolás (ZRS)).	Helyileg redundáns (LRS), globálisan redundáns (GRS), olvasási hozzáférés globálisan redundáns (RA-GRS), zónaredundáns (ZRS). További információ: Azure Storage-redundancia

A NoSQL-adatbázis képességei

Funkció	Azure Cosmos DB	HBase on HDInsight
Elsődleges adatbázismodell	Dokumentumtár, gráf, kulcs-érték tároló, széles oszloptároló	Széles oszloptár
Másodlagos indexek	Igen	Nem
SQL-nyelv támogatása	Igen	Igen (a Phoenix JDBC-illesztőprogram használatával)
Konzisztencia	Erős, kötött-elavult, munkamenet, konzisztens előtag, végleges	Erős
Natív Azure Functions-integráció	Igen	Nem
Automatikus globális terjesztés	Igen	A HBase-fürtreplikációs szolgáltatás nemkonfigurálható a régiók között végleges konzisztenciával
Díjszabási modell	Rugalmasan méretezhető kérelemegységek (kérelemegységek) szükség szerint másodpercenként feltöltve, rugalmasan méretezhető tárolással	HDInsight-fürt percenkénti díjszabása (csomópontok horizontális skálázása), tárolás

Elemzési adatbázis képességei

Funkció	Azure Adatkezelő
Elsődleges adatbázismodell	Relációs (oszloptároló), telemetria és idősorozat-tároló
SQL-nyelv támogatása	Igen
Díjszabási modell	Rugalmasan méretezhető fürtpéldányok
Hitelesítés	Microsoft Entra-identitások alapján
Titkosítás inaktív állapotban	Támogatott, ügyfél által felügyelt kulcsok
Elemzési számítási feladatok teljesítménye	Optimalizált teljesítmény párhuzamos elemzési számítási feladatokhoz
Méretkorlátok	Lineárisan skálázható

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

Zoiner Tejada | vezérigazgató és tervező

Megosztás a következőn keresztül:

Big Data Storage-technológia kiválasztása az Azure-ban

Milyen lehetőségei vannak az Azure-beli adattárolás kiválasztásakor?

OneLake a Hálóban

Azure Storage-blobok

2. generációs Data Lake Storage

Azure Cosmos DB

HBase on HDInsight

Azure Adatkezelő

Kulcsválasztási feltételek

Képességmátrix

OneLake in Fabric képességek

Fájltárolási képességek

A NoSQL-adatbázis képességei

Elemzési adatbázis képességei

Közreműködők

Következő lépések

Visszajelzés

További források

Megosztás a következőn keresztül:

Big Data Storage-technológia kiválasztása az Azure-ban

Milyen lehetőségei vannak az Azure-beli adattárolás kiválasztásakor?

OneLake a Hálóban

Azure Storage-blobok

2. generációs Data Lake Storage

Azure Cosmos DB

HBase on HDInsight

Azure Adatkezelő

Kulcsválasztási feltételek

Képességmátrix

OneLake in Fabric képességek

Fájltárolási képességek

A NoSQL-adatbázis képességei

Elemzési adatbázis képességei

Közreműködők

Következő lépések

Kapcsolódó erőforrások

Visszajelzés

További források