Big Data Storage-technológia kiválasztása az Azure-ban
Megjegyzés:
2024. február 29-én az 1. generációs Azure Data Lake Storage megszűnik. For more information, see the official announcement. Ha az Azure Data Lake Storage Gen1-et használja, a dátum előtt mindenképpen migráljon az Azure Data Lake Storage Gen2-be. További információ: Azure Data Lake Storage migrálása Gen1-ből Gen2-be az Azure Portal használatával.
Ha még nem rendelkezik Azure Data Lake Storage Gen1-fiókkal, nem hozhat létre újakat.
Ez a témakör a big data-megoldások adattárolási lehetőségeit hasonlítja össze– pontosabban a tömeges adatbetöltés és a kötegelt feldolgozás adattárolási lehetőségeit, szemben az elemzési adattárakkal vagy a valós idejű streamelési betöltéssel.
Milyen lehetőségei vannak az Azure-beli adattárolás kiválasztásakor?
Az adatok azure-ba való betöltésére az igényeitől függően számos lehetőség közül választhat.
Fájltárolás:
NoSQL-adatbázisok:
Elemzési adatbázisok:
Azure Storage-blobok
Az Azure Storage egy felügyelt tárolási szolgáltatás, amely magas rendelkezésre állású, biztonságos, tartós, méretezhető és redundáns. A karbantartást és a kritikus problémák kezelését a Microsoft végzi el Önnek. Az Azure Storage a leggyakrabban elérhető tárolási megoldás, amelyet az Azure nyújt, a vele használható szolgáltatások és eszközök száma miatt.
Különböző Azure Storage-szolgáltatások használhatók az adatok tárolására. A blobok számos adatforrásból való tárolásának legrugalmasabb lehetősége a Blob Storage. A blobok alapvetően fájlok. Képeket, dokumentumokat, HTML-fájlokat, virtuális merevlemezeket (VHD-ket), big data-okat, például naplókat, adatbázis-biztonsági mentéseket tárolnak – nagyjából bármit. A blobok tárolása tárolókban történik, amelyek a mappákhoz hasonlatosak. A tároló blobkészletek csoportosítását biztosítja. Egy tárfiók korlátlan számú tárolót tartalmazhat, egy tároló pedig korlátlan számú blob tárolására használható.
Az Azure Storage a rugalmasság, a magas rendelkezésre állás és az alacsony költségek miatt jó választás big data- és elemzési megoldásokhoz. Gyakori, ritka elérésű és archív tárolási szinteket biztosít a különböző használati esetekhez. További információ: Azure Blob Storage: Gyakori elérésű, ritka elérésű és archív tárolási szintek.
Az Azure Blob Storage a Hadoopból érhető el (a HDInsighton keresztül érhető el). A HDInsight egy blobtárolót használhat az Azure Storage-ben a fürt alapértelmezett fájlrendszereként. A WASB-illesztőprogramok által biztosított Hadoop elosztott fájlrendszer (HDFS) interfészen keresztül a HDInsight összetevőinek teljes készlete közvetlenül a blobokként tárolt strukturált vagy strukturálatlan adatokon működhet. Az Azure Blob Storage az Azure Synapse Analyticsen keresztül is elérhető a PolyBase funkciójával.
Az Azure Storage-t a következő funkciók teszik jó választássá:
- Több egyidejűségi stratégia.
- Vészhelyreállítás és magas rendelkezésre állási lehetőségek.
- Titkosítás inaktív állapotban.
- Az Azure szerepköralapú hozzáférés-vezérlése (Azure RBAC) a Hozzáférés vezérléséhez a Microsoft Entra felhasználói és csoportjai használatával.
Azure Data Lake Storage Gen1
Az Azure Data Lake Storage Gen1 egy nagyvállalati szintű rugalmas skálázási adattár big data elemzési számítási feladatokhoz. A Data Lake lehetővé teszi bármilyen méretű, típusú és betöltési sebességű adatok egyetlen biztonságos helyen történő rögzítését a működési és feltáró elemzésekhez.
Az Azure Data Lake Storage Gen1 nem korlátozza a fiókméreteket, a fájlméreteket és a data lake-ben tárolható adatok mennyiségét. Az adatok tárolása tartósan történik több másolat készítésével, és nincs korlátozva az adatok Data Lake-ben való tárolásának időtartama. Amellett, hogy több fájlpéldányt is készít a váratlan hibák elleni védelem érdekében, a Data Lake a fájl egyes részeit több különálló tárolókiszolgálón is elterjeszti. Ez javítja az olvasás átviteli sebességét a fájl adatelemzés céljából történő párhuzamos beolvasásakor.
Az Azure Data Lake Storage Gen1 a Hadoopból (a HDInsighton keresztül érhető el) érhető el a WebHDFS-kompatibilis REST API-k használatával. Ezt az Azure Storage alternatívaként is használhatja, ha egyéni vagy kombinált fájlmérete meghaladja az Azure Storage által támogatott méretet. Vannak azonban olyan teljesítményhangolási irányelvek, amelyeket akkor kell követnie, amikor az Azure Data Lake Storage Gen1-et használja elsődleges tárolóként egy HDInsight-fürthöz, a Spark, a Hive és a MapReduce speciális irányelveivel. Emellett ellenőrizze az Azure Data Lake Storage Gen1 regionális elérhetőségét is, mert nem érhető el annyi régióban, mint az Azure Storage, és ugyanabban a régióban kell lennie, mint a HDInsight-fürtnek.
Az Azure Data Lake Analyticsszel együtt az Azure Data Lake Storage Gen1 úgy lett kialakítva, hogy lehetővé tegye a tárolt adatok elemzését, és az adatelemzési forgatókönyvek teljesítményére van hangolva. Az Azure Data Lake Storage Gen1 a PolyBase funkciójával az Azure Synapse-on keresztül is elérhető.
Azure Cosmos DB
Az Azure Cosmos DB a Microsoft globálisan elosztott többmodelles adatbázisa. Az Azure Cosmos DB garantálja az egy számjegyből álló ezredmásodperc késéseket a 99. percentilisben bárhol a világon, több jól definiált konzisztenciamodellt kínál a teljesítmény finomhangolásához, és magas rendelkezésre állást garantál a többtényezős funkciókkal.
Az Azure Cosmos DB sémafüggetlen. Automatikusan indexeli az összes adatot anélkül, hogy a sémával és az indexkezeléssel kellene foglalkoznia. Emellett többmodelles, natívan támogató dokumentum-, kulcs-érték-, gráf- és oszlopcsalád-adatmodellek.
Az Azure Cosmos DB funkciói:
- Georeplikáció
- A teljesítmény és a tárterület rugalmas méretezése világszerte
- Öt jól definiált konzisztenciaszint
HBase on HDInsight
Az Apache HBase egy nyílt forráskódú NoSQL-adatbázis, amely a Hadoopra épül, és a Google BigTable után modellezhető. A HBase véletlenszerű hozzáférést és erős konzisztenciát biztosít nagy mennyiségű strukturálatlan és félig strukturált adathoz egy oszlopcsaládok által rendezett séma nélküli adatbázisban.
Az adatok a táblasorokban vannak tárolva, és a sorokon belüli adatok oszlopcsalád szerint vannak csoportosítva. A HBase séma nélküli abban az értelemben, hogy a használat előtt sem az oszlopok, sem a bennük tárolt adatok típusát nem kell definiálni. A nyílt forráskód lineáris módon méreteződik át a több ezer csomópontnyi adat petabájtjainak kezelése érdekében. Az adatredundanciára, a kötegelt feldolgozásra és más olyan szolgáltatásokra támaszkodhat, amelyeket elosztott alkalmazások nyújtanak a Hadoop rendszerben.
A HDInsight implementáció a HBase horizontális felskálázási architektúráját használja a táblák automatikus horizontális skálázásához, az olvasások és írások erős konzisztenciájához, valamint az automatikus feladatátvételhez. A teljesítményt a memóriába való gyorsítótárazás növeli az olvasáshoz, és a nagy streaming-kapacitás az írásokhoz. A legtöbb esetben létre kell hoznia a HBase-fürtöt egy virtuális hálózaton belül, hogy más HDInsight-fürtök és alkalmazások közvetlenül elérhessék a táblákat.
Azure Data Explorer
Az Azure Data Explorer egy gyors és nagy mértékben méretezhető adatfeltárási szolgáltatás a napló- és telemetriaadatokhoz. Segít kezelni a modern szoftverek által kibocsátott számos adatfolyamot, így adatokat gyűjthet, tárolhat és elemezhet. Az Azure Adatkezelő ideális választás nagy mennyiségű, különböző forrásokból (például webhelyekről, alkalmazásokból, IoT-eszközökről stb.) származó adatok elemzéséhez. Ezek az adatok a diagnosztikához, a monitorozáshoz, a jelentéskészítéshez, a gépi tanuláshoz és a további elemzési funkciókhoz szükségesek. Az Azure Data Explorer egyszerűvé teszi az adatok betöltését, és lehetővé teszi, hogy összetett alkalmi lekérdezéseket hajtson végre az adatokon másodpercek alatt.
Az Azure Data Explorer lineárisan felskálázható a betöltési és lekérdezésfeldolgozási átviteli sebesség növelése érdekében. Az Azure Data Explorer-fürtök üzembe helyezhetők egy virtuális hálózaton a magánhálózatok engedélyezéséhez.
Kulcsválasztási feltételek
A lehetőségek szűkítéséhez először válaszoljon az alábbi kérdésekre:
Szüksége van felügyelt, nagy sebességű, felhőalapú tárolóra bármilyen típusú szöveges vagy bináris adathoz? Ha igen, válassza ki a fájltárolási vagy elemzési lehetőségek egyikét.
Szüksége van a párhuzamos elemzési számítási feladatokra és a magas átviteli sebességre/IOPS-ra optimalizált fájltárolásra? Ha igen, válasszon egy beállítást, amely az elemzési számítási feladatok teljesítményére van hangolva.
Strukturálatlan vagy félig strukturált adatokat kell tárolnia egy séma nélküli adatbázisban? Ha igen, válassza ki a nem relációs vagy elemzési lehetőségek egyikét. Hasonlítsa össze az indexelési és adatbázismodellek beállításait. A tárolandó adatok típusától függően az elsődleges adatbázismodellek lehetnek a legnagyobb tényező.
Használhatja a szolgáltatást a régióban? Ellenőrizze az egyes Azure-szolgáltatások regionális elérhetőségét. Lásd: Régiónként elérhető termékek.
Képességmátrix
Az alábbi táblázatok összefoglalják a képességek főbb különbségeit.
Fájltárolási képességek
Funkció | Azure Data Lake Storage Gen1 | Azure Blob Storage-tárolók |
---|---|---|
Cél | Optimalizált tárolás big data-elemzési számítási feladatokhoz | Általános célú objektumtároló a tárolási forgatókönyvek széles köréhez |
Használati esetek | Batch, streaming analytics és gépi tanulási adatok, például naplófájlok, IoT-adatok, kattintási streamek, nagy adathalmazok | Bármilyen típusú szöveges vagy bináris adat, például alkalmazás háttérrendszere, biztonsági mentési adatok, streamelési adathordozó-tárolás és általános célú adatok |
Struktúra | Hierarchikus fájlrendszer | Objektumtároló egysíkú névtérrel |
Hitelesítés | Microsoft Entra-identitások alapján | A megosztott titkos kulcsok és a közös hozzáférésű jogosultságkódkulcsok, valamint az Azure szerepköralapú hozzáférés-vezérlése (Azure RBAC) alapján |
Hitelesítési protokoll | OAuth 2.0. A hívásoknak tartalmazniuk kell a Microsoft Entra ID által kibocsátott érvényes JWT-t (JSON webes jogkivonatot) | Kivonatalapú üzenethitelesítési kód (HMAC). A hívásoknak tartalmazniuk kell egy Base64-kódolású SHA-256 kivonatot a HTTP-kérés egy része felett. |
Authorization | POSIX-hozzáférés-vezérlési listák (ACL-ek). A Microsoft Entra-identitásokon alapuló ACL-ek fájl- és mappaszintet állíthatnak be. | Fiókszintű engedélyezéshez használja a fiók hozzáférési kulcsait. Fiók-, tároló- vagy blobengedélyezési célokhoz használja a közös hozzáférésű jogosultságkódkulcsokat. |
Naplózás | Elérhető. | Rendelkezésre áll |
Titkosítás inaktív állapotban | Transzparens, kiszolgálóoldali | Transzparens, kiszolgálóoldali; Ügyféloldali titkosítás |
Fejlesztői SDK-k | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
Elemzési számítási feladatok teljesítménye | Optimalizált teljesítmény párhuzamos elemzési számítási feladatokhoz, magas átviteli sebességhez és IOPS-hoz | Nincs elemzési számítási feladatokra optimalizálva |
Méretkorlátok | Nincs korlátozva a fiókméret, a fájlméret vagy a fájlok száma | Az itt dokumentált konkrét korlátok |
Georedundancia | Helyileg redundáns (LRS), globálisan redundáns (GRS), olvasási hozzáférés globálisan redundáns (RA-GRS), zónaredundáns (ZRS). | Helyileg redundáns (LRS), globálisan redundáns (GRS), olvasási hozzáférés globálisan redundáns (RA-GRS), zónaredundáns (ZRS). További információt itt talál |
A NoSQL-adatbázis képességei
Funkció | Azure Cosmos DB | HBase on HDInsight |
---|---|---|
Elsődleges adatbázismodell | Dokumentumtár, gráf, kulcs-érték tároló, széles oszloptároló | Széles oszloptár |
Másodlagos indexek | Igen | Nem |
SQL-nyelv támogatása | Igen | Igen (a Phoenix JDBC-illesztőprogram használatával) |
Konzisztencia | Erős, kötött-elavult, munkamenet, konzisztens előtag, végleges | Erős |
Natív Azure Functions-integráció | Igen | Nem |
Automatikus globális terjesztés | Igen | A HBase-fürtreplikációs szolgáltatás nemkonfigurálható a régiók között végleges konzisztenciával |
Díjszabási modell | Rugalmasan méretezhető kérelemegységek (kérelemegységek) szükség szerint másodpercenként feltöltve, rugalmasan méretezhető tárolással | HDInsight-fürt percenkénti díjszabása (csomópontok horizontális skálázása), tárolás |
Elemzési adatbázis képességei
Funkció | Azure Data Explorer |
---|---|
Elsődleges adatbázismodell | Relációs (oszloptároló), telemetria és idősorozat-tároló |
SQL-nyelv támogatása | Igen |
Díjszabási modell | Rugalmasan méretezhető fürtpéldányok |
Hitelesítés | Microsoft Entra-identitások alapján |
Titkosítás inaktív állapotban | Támogatott, ügyfél által felügyelt kulcsok |
Elemzési számítási feladatok teljesítménye | Optimalizált teljesítmény párhuzamos elemzési számítási feladatokhoz |
Méretkorlátok | Lineárisan skálázható |
Közreműködők
Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.
Fő szerző:
- Zoiner Tejada | vezérigazgató és tervező
További lépések
- Azure Cloud Storage-megoldások és -szolgáltatások
- A tárolási beállítások áttekintése
- A Microsoft Azure Storage bemutatása
- Az Azure Data Explorer bemutatása
Kapcsolódó erőforrások
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: