Big Data Storage-technológia kiválasztása az Azure-ban

Megjegyzés:

2024. február 29-én az 1. generációs Azure Data Lake Storage megszűnik. For more information, see the official announcement. Ha az Azure Data Lake Storage Gen1-et használja, a dátum előtt mindenképpen migráljon az Azure Data Lake Storage Gen2-be. További információ: Azure Data Lake Storage migrálása Gen1-ből Gen2-be az Azure Portal használatával.

Ha még nem rendelkezik Azure Data Lake Storage Gen1-fiókkal, nem hozhat létre újakat.

Ez a témakör a big data-megoldások adattárolási lehetőségeit hasonlítja össze– pontosabban a tömeges adatbetöltés és a kötegelt feldolgozás adattárolási lehetőségeit, szemben az elemzési adattárakkal vagy a valós idejű streamelési betöltéssel.

Milyen lehetőségei vannak az Azure-beli adattárolás kiválasztásakor?

Az adatok azure-ba való betöltésére az igényeitől függően számos lehetőség közül választhat.

Fájltárolás:

NoSQL-adatbázisok:

Elemzési adatbázisok:

Azure Data Explorer

Azure Storage-blobok

Az Azure Storage egy felügyelt tárolási szolgáltatás, amely magas rendelkezésre állású, biztonságos, tartós, méretezhető és redundáns. A karbantartást és a kritikus problémák kezelését a Microsoft végzi el Önnek. Az Azure Storage a leggyakrabban elérhető tárolási megoldás, amelyet az Azure nyújt, a vele használható szolgáltatások és eszközök száma miatt.

Különböző Azure Storage-szolgáltatások használhatók az adatok tárolására. A blobok számos adatforrásból való tárolásának legrugalmasabb lehetősége a Blob Storage. A blobok alapvetően fájlok. Képeket, dokumentumokat, HTML-fájlokat, virtuális merevlemezeket (VHD-ket), big data-okat, például naplókat, adatbázis-biztonsági mentéseket tárolnak – nagyjából bármit. A blobok tárolása tárolókban történik, amelyek a mappákhoz hasonlatosak. A tároló blobkészletek csoportosítását biztosítja. Egy tárfiók korlátlan számú tárolót tartalmazhat, egy tároló pedig korlátlan számú blob tárolására használható.

Az Azure Storage a rugalmasság, a magas rendelkezésre állás és az alacsony költségek miatt jó választás big data- és elemzési megoldásokhoz. Gyakori, ritka elérésű és archív tárolási szinteket biztosít a különböző használati esetekhez. További információ: Azure Blob Storage: Gyakori elérésű, ritka elérésű és archív tárolási szintek.

Az Azure Blob Storage a Hadoopból érhető el (a HDInsighton keresztül érhető el). A HDInsight egy blobtárolót használhat az Azure Storage-ben a fürt alapértelmezett fájlrendszereként. A WASB-illesztőprogramok által biztosított Hadoop elosztott fájlrendszer (HDFS) interfészen keresztül a HDInsight összetevőinek teljes készlete közvetlenül a blobokként tárolt strukturált vagy strukturálatlan adatokon működhet. Az Azure Blob Storage az Azure Synapse Analyticsen keresztül is elérhető a PolyBase funkciójával.

Az Azure Storage-t a következő funkciók teszik jó választássá:

Azure Data Lake Storage Gen1

Az Azure Data Lake Storage Gen1 egy nagyvállalati szintű rugalmas skálázási adattár big data elemzési számítási feladatokhoz. A Data Lake lehetővé teszi bármilyen méretű, típusú és betöltési sebességű adatok egyetlen biztonságos helyen történő rögzítését a működési és feltáró elemzésekhez.

Az Azure Data Lake Storage Gen1 nem korlátozza a fiókméreteket, a fájlméreteket és a data lake-ben tárolható adatok mennyiségét. Az adatok tárolása tartósan történik több másolat készítésével, és nincs korlátozva az adatok Data Lake-ben való tárolásának időtartama. Amellett, hogy több fájlpéldányt is készít a váratlan hibák elleni védelem érdekében, a Data Lake a fájl egyes részeit több különálló tárolókiszolgálón is elterjeszti. Ez javítja az olvasás átviteli sebességét a fájl adatelemzés céljából történő párhuzamos beolvasásakor.

Az Azure Data Lake Storage Gen1 a Hadoopból (a HDInsighton keresztül érhető el) érhető el a WebHDFS-kompatibilis REST API-k használatával. Ezt az Azure Storage alternatívaként is használhatja, ha egyéni vagy kombinált fájlmérete meghaladja az Azure Storage által támogatott méretet. Vannak azonban olyan teljesítményhangolási irányelvek, amelyeket akkor kell követnie, amikor az Azure Data Lake Storage Gen1-et használja elsődleges tárolóként egy HDInsight-fürthöz, a Spark, a Hive és a MapReduce speciális irányelveivel. Emellett ellenőrizze az Azure Data Lake Storage Gen1 regionális elérhetőségét is, mert nem érhető el annyi régióban, mint az Azure Storage, és ugyanabban a régióban kell lennie, mint a HDInsight-fürtnek.

Az Azure Data Lake Analyticsszel együtt az Azure Data Lake Storage Gen1 úgy lett kialakítva, hogy lehetővé tegye a tárolt adatok elemzését, és az adatelemzési forgatókönyvek teljesítményére van hangolva. Az Azure Data Lake Storage Gen1 a PolyBase funkciójával az Azure Synapse-on keresztül is elérhető.

Azure Cosmos DB

Az Azure Cosmos DB a Microsoft globálisan elosztott többmodelles adatbázisa. Az Azure Cosmos DB garantálja az egy számjegyből álló ezredmásodperc késéseket a 99. percentilisben bárhol a világon, több jól definiált konzisztenciamodellt kínál a teljesítmény finomhangolásához, és magas rendelkezésre állást garantál a többtényezős funkciókkal.

Az Azure Cosmos DB sémafüggetlen. Automatikusan indexeli az összes adatot anélkül, hogy a sémával és az indexkezeléssel kellene foglalkoznia. Emellett többmodelles, natívan támogató dokumentum-, kulcs-érték-, gráf- és oszlopcsalád-adatmodellek.

Az Azure Cosmos DB funkciói:

HBase on HDInsight

Az Apache HBase egy nyílt forráskódú NoSQL-adatbázis, amely a Hadoopra épül, és a Google BigTable után modellezhető. A HBase véletlenszerű hozzáférést és erős konzisztenciát biztosít nagy mennyiségű strukturálatlan és félig strukturált adathoz egy oszlopcsaládok által rendezett séma nélküli adatbázisban.

Az adatok a táblasorokban vannak tárolva, és a sorokon belüli adatok oszlopcsalád szerint vannak csoportosítva. A HBase séma nélküli abban az értelemben, hogy a használat előtt sem az oszlopok, sem a bennük tárolt adatok típusát nem kell definiálni. A nyílt forráskód lineáris módon méreteződik át a több ezer csomópontnyi adat petabájtjainak kezelése érdekében. Az adatredundanciára, a kötegelt feldolgozásra és más olyan szolgáltatásokra támaszkodhat, amelyeket elosztott alkalmazások nyújtanak a Hadoop rendszerben.

A HDInsight implementáció a HBase horizontális felskálázási architektúráját használja a táblák automatikus horizontális skálázásához, az olvasások és írások erős konzisztenciájához, valamint az automatikus feladatátvételhez. A teljesítményt a memóriába való gyorsítótárazás növeli az olvasáshoz, és a nagy streaming-kapacitás az írásokhoz. A legtöbb esetben létre kell hoznia a HBase-fürtöt egy virtuális hálózaton belül, hogy más HDInsight-fürtök és alkalmazások közvetlenül elérhessék a táblákat.

Azure Data Explorer

Az Azure Data Explorer egy gyors és nagy mértékben méretezhető adatfeltárási szolgáltatás a napló- és telemetriaadatokhoz. Segít kezelni a modern szoftverek által kibocsátott számos adatfolyamot, így adatokat gyűjthet, tárolhat és elemezhet. Az Azure Adatkezelő ideális választás nagy mennyiségű, különböző forrásokból (például webhelyekről, alkalmazásokból, IoT-eszközökről stb.) származó adatok elemzéséhez. Ezek az adatok a diagnosztikához, a monitorozáshoz, a jelentéskészítéshez, a gépi tanuláshoz és a további elemzési funkciókhoz szükségesek. Az Azure Data Explorer egyszerűvé teszi az adatok betöltését, és lehetővé teszi, hogy összetett alkalmi lekérdezéseket hajtson végre az adatokon másodpercek alatt.

Az Azure Data Explorer lineárisan felskálázható a betöltési és lekérdezésfeldolgozási átviteli sebesség növelése érdekében. Az Azure Data Explorer-fürtök üzembe helyezhetők egy virtuális hálózaton a magánhálózatok engedélyezéséhez.

Kulcsválasztási feltételek

A lehetőségek szűkítéséhez először válaszoljon az alábbi kérdésekre:

  • Szüksége van felügyelt, nagy sebességű, felhőalapú tárolóra bármilyen típusú szöveges vagy bináris adathoz? Ha igen, válassza ki a fájltárolási vagy elemzési lehetőségek egyikét.

  • Szüksége van a párhuzamos elemzési számítási feladatokra és a magas átviteli sebességre/IOPS-ra optimalizált fájltárolásra? Ha igen, válasszon egy beállítást, amely az elemzési számítási feladatok teljesítményére van hangolva.

  • Strukturálatlan vagy félig strukturált adatokat kell tárolnia egy séma nélküli adatbázisban? Ha igen, válassza ki a nem relációs vagy elemzési lehetőségek egyikét. Hasonlítsa össze az indexelési és adatbázismodellek beállításait. A tárolandó adatok típusától függően az elsődleges adatbázismodellek lehetnek a legnagyobb tényező.

  • Használhatja a szolgáltatást a régióban? Ellenőrizze az egyes Azure-szolgáltatások regionális elérhetőségét. Lásd: Régiónként elérhető termékek.

Képességmátrix

Az alábbi táblázatok összefoglalják a képességek főbb különbségeit.

Fájltárolási képességek

Funkció Azure Data Lake Storage Gen1 Azure Blob Storage-tárolók
Cél Optimalizált tárolás big data-elemzési számítási feladatokhoz Általános célú objektumtároló a tárolási forgatókönyvek széles köréhez
Használati esetek Batch, streaming analytics és gépi tanulási adatok, például naplófájlok, IoT-adatok, kattintási streamek, nagy adathalmazok Bármilyen típusú szöveges vagy bináris adat, például alkalmazás háttérrendszere, biztonsági mentési adatok, streamelési adathordozó-tárolás és általános célú adatok
Struktúra Hierarchikus fájlrendszer Objektumtároló egysíkú névtérrel
Hitelesítés Microsoft Entra-identitások alapján A megosztott titkos kulcsok és a közös hozzáférésű jogosultságkódkulcsok, valamint az Azure szerepköralapú hozzáférés-vezérlése (Azure RBAC) alapján
Hitelesítési protokoll OAuth 2.0. A hívásoknak tartalmazniuk kell a Microsoft Entra ID által kibocsátott érvényes JWT-t (JSON webes jogkivonatot) Kivonatalapú üzenethitelesítési kód (HMAC). A hívásoknak tartalmazniuk kell egy Base64-kódolású SHA-256 kivonatot a HTTP-kérés egy része felett.
Authorization POSIX-hozzáférés-vezérlési listák (ACL-ek). A Microsoft Entra-identitásokon alapuló ACL-ek fájl- és mappaszintet állíthatnak be. Fiókszintű engedélyezéshez használja a fiók hozzáférési kulcsait. Fiók-, tároló- vagy blobengedélyezési célokhoz használja a közös hozzáférésű jogosultságkódkulcsokat.
Naplózás Elérhető. Rendelkezésre áll
Titkosítás inaktív állapotban Transzparens, kiszolgálóoldali Transzparens, kiszolgálóoldali; Ügyféloldali titkosítás
Fejlesztői SDK-k .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Elemzési számítási feladatok teljesítménye Optimalizált teljesítmény párhuzamos elemzési számítási feladatokhoz, magas átviteli sebességhez és IOPS-hoz Nincs elemzési számítási feladatokra optimalizálva
Méretkorlátok Nincs korlátozva a fiókméret, a fájlméret vagy a fájlok száma Az itt dokumentált konkrét korlátok
Georedundancia Helyileg redundáns (LRS), globálisan redundáns (GRS), olvasási hozzáférés globálisan redundáns (RA-GRS), zónaredundáns (ZRS). Helyileg redundáns (LRS), globálisan redundáns (GRS), olvasási hozzáférés globálisan redundáns (RA-GRS), zónaredundáns (ZRS). További információt itt talál

A NoSQL-adatbázis képességei

Funkció Azure Cosmos DB HBase on HDInsight
Elsődleges adatbázismodell Dokumentumtár, gráf, kulcs-érték tároló, széles oszloptároló Széles oszloptár
Másodlagos indexek Igen Nem
SQL-nyelv támogatása Igen Igen (a Phoenix JDBC-illesztőprogram használatával)
Konzisztencia Erős, kötött-elavult, munkamenet, konzisztens előtag, végleges Erős
Natív Azure Functions-integráció Igen Nem
Automatikus globális terjesztés Igen A HBase-fürtreplikációs szolgáltatás nemkonfigurálható a régiók között végleges konzisztenciával
Díjszabási modell Rugalmasan méretezhető kérelemegységek (kérelemegységek) szükség szerint másodpercenként feltöltve, rugalmasan méretezhető tárolással HDInsight-fürt percenkénti díjszabása (csomópontok horizontális skálázása), tárolás

Elemzési adatbázis képességei

Funkció Azure Data Explorer
Elsődleges adatbázismodell Relációs (oszloptároló), telemetria és idősorozat-tároló
SQL-nyelv támogatása Igen
Díjszabási modell Rugalmasan méretezhető fürtpéldányok
Hitelesítés Microsoft Entra-identitások alapján
Titkosítás inaktív állapotban Támogatott, ügyfél által felügyelt kulcsok
Elemzési számítási feladatok teljesítménye Optimalizált teljesítmény párhuzamos elemzési számítási feladatokhoz
Méretkorlátok Lineárisan skálázható

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

További lépések