Big Data Storage-technológia kiválasztása az Azure-ban
Ez a cikk összehasonlítja a big data-megoldások adattárolási lehetőségeit– különösen a tömeges adatbetöltéshez és kötegelt feldolgozáshoz használt adattárolási lehetőségeket, szemben az elemzési adattárakkal vagy a valós idejű streamelési betöltéssel.
Milyen lehetőségei vannak az Azure-beli adattárolás kiválasztásakor?
Az adatok azure-ba való betöltésére az igényeitől függően számos lehetőség közül választhat.
Egyesített logikai adattó:
Fájltárolás:
NoSQL-adatbázisok:
Elemzési adatbázisok:
OneLake a Hálóban
A OneLake in Fabric egy egységes és logikai adattó, amely a teljes szervezetre szabott. Központi központként szolgál az összes elemzési adathoz, és minden Microsoft Fabric-bérlőhöz tartozik. A OneLake in Fabric a Data Lake Storage Gen2 alapjaira épül.
OneLake a Hálóban:
- Támogatja a strukturált és strukturálatlan fájltípusokat.
- Az összes táblázatos adatot Delta Parquet formátumban tárolja.
- Egyetlen adattavat biztosít a bérlői határokon belül, amely alapértelmezés szerint szabályozva van.
- Támogatja a munkaterületek bérlőn belüli létrehozását, hogy a szervezet eloszthassa a tulajdonjogi és hozzáférési szabályzatokat.
- Támogatja a különböző adatelemek, például a tóházak és a raktárak létrehozását, amelyekből hozzáférhet az adatokhoz.
A OneLake in Fabric a betöltések, átalakítások, valós idejű elemzések és üzletiintelligencia-vizualizációk gyakori tárolási helye. Központosítja a különböző Fabric-szolgáltatásokat, és tárolja azokat az adatelemeket, amelyeket minden számítási feladat használ a Fabricben. A Fabric-számítási feladatokhoz megfelelő adattár kiválasztásához tekintse meg a Fabric döntési útmutatóját: válasszon egy adattárat.
Azure Storage-blobok
Az Azure Storage egy felügyelt tárolási szolgáltatás, amely magas rendelkezésre állású, biztonságos, tartós, méretezhető és redundáns. A karbantartást és a kritikus problémák kezelését a Microsoft végzi el Önnek. Az Azure Storage a leggyakrabban elérhető tárolási megoldás, amelyet az Azure nyújt, a vele használható szolgáltatások és eszközök száma miatt.
Különböző Azure Storage-szolgáltatások használhatók az adatok tárolására. A blobok számos adatforrásból való tárolásának legrugalmasabb lehetősége a Blob Storage. A blobok alapvetően fájlok. Képeket, dokumentumokat, HTML-fájlokat, virtuális merevlemezeket (VHD-ket), big data-okat, például naplókat, adatbázis-biztonsági mentéseket tárolnak – nagyjából bármit. A blobok tárolása tárolókban történik, amelyek a mappákhoz hasonlatosak. A tároló blobkészletek csoportosítását biztosítja. Egy tárfiók korlátlan számú tárolót tartalmazhat, egy tároló pedig korlátlan számú blob tárolására használható.
Az Azure Storage a rugalmasság, a magas rendelkezésre állás és az alacsony költségek miatt jó választás big data- és elemzési megoldásokhoz. Gyakori, ritka elérésű és archív tárolási szinteket biztosít a különböző használati esetekhez. További információ: Azure Blob Storage: Gyakori elérésű, ritka elérésű és archív tárolási szintek.
Az Azure Blob Storage a Hadoopból érhető el (a HDInsighton keresztül érhető el). A HDInsight egy blobtárolót használhat az Azure Storage-ben a fürt alapértelmezett fájlrendszereként. A WASB-illesztők által biztosított Hadoop Elosztott fájlrendszer (HDFS) interfészen keresztül a HDInsight összetevőinek teljes készlete közvetlenül a blobokként tárolt strukturált vagy strukturálatlan adatokon működhet. Az Azure Blob Storage az Azure Synapse Analyticsen keresztül is elérhető a PolyBase funkciójával.
Az Azure Storage-t a következő funkciók teszik jó választássá:
- Több egyidejűségi stratégia.
- Vészhelyreállítási és magas rendelkezésre állási lehetőségek.
- Titkosítás inaktív állapotban.
- Azure-beli szerepköralapú hozzáférés-vezérlés (RBAC) a Hozzáférés szabályozásához Microsoft Entra-felhasználók és -csoportok használatával.
2. generációs Data Lake Storage
A Data Lake Storage Gen2 egyetlen, központosított adattár, ahol az összes adatot strukturált és strukturálatlan állapotban tárolhatja. A data lake lehetővé teszi a szervezet számára, hogy gyorsan és egyszerűbben tároljon, hozzáférjen és elemezzen számos adatot egyetlen helyen. A data lake-nek nem kell megfelelnie az adatoknak egy meglévő struktúra követelményeinek. Ehelyett tárolhatja az adatokat nyers vagy natív formátumban, általában fájlokként vagy bináris nagy objektumokként (blobokként).
A Data Lake Storage Gen2 az Azure Data Lake Storage Gen1 és az Azure Blob Storage képességeit konvergálja. A Data Lake Storage Gen2 például fájlrendszer-szemantikát, fájlszintű biztonságot és skálázást biztosít. Mivel ezek a képességek a Blob Storage-ra épülnek, alacsony költségű, rétegzett tárterületet is kap, magas rendelkezésre állási/vészhelyreállítási képességekkel.
A Data Lake Storage Gen2 teszi az Azure Storage-t az Azure-beli nagyvállalati adattavak készítésének alapjaként. A Data Lake Storage Gen2 a kezdetektől több petabájtnyi információ kiszolgálása és több száz gigabájtos átviteli sebesség fenntartása mellett lehetővé teszi a nagy mennyiségű adat egyszerű kezelését.
Azure Cosmos DB
Az Azure Cosmos DB a Microsoft globálisan elosztott többmodelles adatbázisa. Az Azure Cosmos DB garantálja az egy számjegyből álló ezredmásodperc késéseket a 99. percentilisben bárhol a világon, több jól definiált konzisztenciamodellt biztosít a teljesítmény finomhangolásához, és magas rendelkezésre állást garantál több-homing képességekkel.
Az Azure Cosmos DB sémafüggetlen. Automatikusan indexeli az összes adatot anélkül, hogy a sémával és az indexkezeléssel kellene foglalkoznia. Emellett többmodelles, natívan támogató dokumentum-, kulcs-érték-, gráf- és oszlopcsalád-adatmodellek.
Az Azure Cosmos DB funkciói:
- Georeplikáció
- A teljesítmény és a tárterület rugalmas méretezése világszerte
- Öt jól definiált konzisztenciaszint
HBase on HDInsight
Az Apache HBase egy nyílt forráskódú NoSQL-adatbázis, amely a Hadoopra épül, és a Google BigTable után modellezhető. A HBase véletlenszerű hozzáférést és erős konzisztenciát biztosít nagy mennyiségű strukturálatlan és félig strukturált adathoz egy oszlopcsaládok által rendezett séma nélküli adatbázisban.
Az adatok a táblasorokban vannak tárolva, és a sorokon belüli adatok oszlopcsalád szerint vannak csoportosítva. A HBase séma nélküli abban az értelemben, hogy a használat előtt sem az oszlopok, sem a bennük tárolt adatok típusát nem kell definiálni. A nyílt forráskód lineáris módon méreteződik át a több ezer csomópontnyi adat petabájtjainak kezelése érdekében. Az adatredundanciára, a kötegelt feldolgozásra és más olyan szolgáltatásokra támaszkodhat, amelyeket elosztott alkalmazások nyújtanak a Hadoop rendszerben.
A HDInsight-implementáció a HBase horizontális felskálázási architektúráját használja a táblák automatikus szilánkolására, az olvasások és írások erős konzisztenciájára, valamint az automatikus feladatátvételre. A teljesítményt a memóriába való gyorsítótárazás növeli az olvasáshoz, és a nagy streaming-kapacitás az írásokhoz. A legtöbb esetben a HBase-fürtöt egy virtuális hálózaton belül szeretné létrehozni, hogy más HDInsight-fürtök és alkalmazások közvetlenül elérhessék a táblákat.
Azure Adatkezelő
Az Azure Data Explorer egy gyors és nagy mértékben méretezhető adatfeltárási szolgáltatás a napló- és telemetriaadatokhoz. Segít kezelni a modern szoftverek által kibocsátott számos adatfolyamot, így adatokat gyűjthet, tárolhat és elemezhet. Az Azure Adatkezelő ideális választás nagy mennyiségű, különböző forrásokból (például webhelyekről, alkalmazásokból, IoT-eszközökről stb.) származó adatok elemzéséhez. Ezek az adatok a diagnosztikához, a monitorozáshoz, a jelentéskészítéshez, a gépi tanuláshoz és a további elemzési funkciókhoz szükségesek. Az Azure Data Explorer egyszerűvé teszi az adatok betöltését, és lehetővé teszi, hogy összetett, nem tervezett lekérdezéseket hajtson végre az adatokon másodpercek alatt.
Az Azure Data Explorer lineárisan felskálázható a betöltési és lekérdezésfeldolgozási átviteli sebesség növelése érdekében. Az Azure Data Explorer-fürtök üzembe helyezhetők egy virtuális hálózaton a magánhálózatok engedélyezéséhez.
Kulcsválasztási feltételek
A lehetőségek szűkítéséhez először válaszoljon az alábbi kérdésekre:
Szüksége van egységes adattóra többfelhős támogatással, robusztus irányítással és az elemzési eszközökkel való zökkenőmentes integrációval? Ha igen, válassza a OneLake in Fabric lehetőséget az egyszerűsített adatkezeléshez és a jobb együttműködéshez.
Szüksége van felügyelt, nagy sebességű, felhőalapú tárolóra bármilyen típusú szöveges vagy bináris adathoz? Ha igen, válassza ki a fájltárolási vagy elemzési lehetőségek egyikét.
Szüksége van a párhuzamos elemzési számítási feladatokra és a magas átviteli sebességre/IOPS-ra optimalizált fájltárolásra? Ha igen, válasszon egy beállítást, amely az elemzési számítási feladatok teljesítményére van hangolva.
Strukturálatlan vagy félig strukturált adatokat kell tárolnia egy séma nélküli adatbázisban? Ha igen, válassza ki a nem arelációs vagy elemzési lehetőségek egyikét. Hasonlítsa össze az indexelési és adatbázismodellek beállításait. A tárolni kívánt adatok típusától függően az elsődleges adatbázismodellek lehetnek a legnagyobb tényező.
Használhatja a szolgáltatást a régióban? Ellenőrizze az egyes Azure-szolgáltatások regionális elérhetőségét. További információért lásd a régiónként elérhető termékeket.
Képességmátrix
Az alábbi táblázatok összefoglalják a képességek főbb különbségeit.
OneLake in Fabric képességek
Funkció | OneLake a Hálóban |
---|---|
Egyesített adattó | Egyetlen, egységes adattó a teljes szervezet számára, amely kiküszöböli az adatsilókat. |
Többfelhős támogatás | Támogatja a különböző felhőplatformokkal való integrációt és kompatibilitást. |
Adatszabályozás | Olyan funkciókat tartalmaz, mint az adatkisorolás, az adatvédelem, a minősítés és a katalógusintegráció. |
Központosított adatközpont | Központosított központként szolgál az adatfelderítéshez és -kezeléshez. |
Elemzési motor támogatása | Kompatibilis több elemzési motorral. Ez a kompatibilitás lehetővé teszi, hogy különböző eszközök és technológiák működjenek ugyanazon az adatokon. |
Biztonság és megfelelőség | Biztosítja, hogy a bizalmas adatok biztonságosak maradnak, és a hozzáférés csak a jogosult felhasználók számára legyen korlátozva. |
Egyszerű használat | Felhasználóbarát kialakítást biztosít, amely automatikusan elérhető minden Fabric-bérlőnél, és nincs szükség beállításra. |
Méretezhetőség | Képes nagy mennyiségű, különböző forrásból származó adat kezelésére. |
Fájltárolási képességek
Funkció | 2. generációs Data Lake Storage | Azure Blob Storage-tárolók |
---|---|---|
Cél | Optimalizált tárolás big data-elemzési számítási feladatokhoz | Általános célú objektumtároló a tárolási forgatókönyvek széles köréhez |
Használati esetek | Batch, streaming analytics és gépi tanulási adatok, például naplófájlok, IoT-adatok, kattintási streamek, nagy adathalmazok | Bármilyen típusú szöveges vagy bináris adat, például alkalmazás háttérrendszere, biztonsági mentési adatok, streamelési adathordozó-tárolás és általános célú adatok |
Struktúra | Hierarchikus fájlrendszer | Objektumtároló egysíkú névtérrel |
Hitelesítés | Microsoft Entra-identitások alapján | A megosztott titkos kulcsok és a közös hozzáférésű jogosultságkódkulcsok, valamint az Azure szerepköralapú hozzáférés-vezérlése (Azure RBAC) alapján |
Hitelesítési protokoll | Open Authorization (OAuth) 2.0. A hívásoknak tartalmazniuk kell a Microsoft Entra ID által kibocsátott érvényes JWT-t (JSON webes jogkivonatot) | Kivonatalapú üzenethitelesítési kód (HMAC). A hívásoknak tartalmazniuk kell egy Base64-kódolású SHA-256 kivonatot a HTTP-kérés egy része felett. |
Engedélyezés | Portable Operating System Interface (POSIX) hozzáférés-vezérlési listák (ACL-ek). A Microsoft Entra-identitásokon alapuló ACL-ek fájl- és mappaszintet állíthatnak be. | Fiókszintű engedélyezéshez használja a fiók hozzáférési kulcsait. Fiók-, tároló- vagy blobengedélyezési célokhoz használja a közös hozzáférésű jogosultságkódkulcsokat. |
Naplózás | Beszerezhető. | Rendelkezésre áll |
Titkosítás inaktív állapotban | Transzparens, kiszolgálóoldali | Transzparens, kiszolgálóoldali; Ügyféloldali titkosítás |
Fejlesztői SDK-k | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
Elemzési számítási feladatok teljesítménye | Optimalizált teljesítmény párhuzamos elemzési számítási feladatokhoz, magas átviteli sebességhez és IOPS-hoz | Nincs elemzési számítási feladatokra optimalizálva |
Méretkorlátok | Nincs korlátozva a fiókméret, a fájlméret vagy a fájlok száma | Az itt dokumentált konkrét korlátok |
Georedundancia | Helyileg redundáns (helyileg redundáns tárolás (LRS)), globálisan redundáns (georedundáns tárolás (GRS)), olvasási hozzáférés globálisan redundáns (olvasási hozzáférésű georedundáns tárolás (RA-GRS)), zónaredundáns (zónaredundáns tárolás (ZRS)). | Helyileg redundáns (LRS), globálisan redundáns (GRS), olvasási hozzáférés globálisan redundáns (RA-GRS), zónaredundáns (ZRS). További információ: Azure Storage-redundancia |
A NoSQL-adatbázis képességei
Funkció | Azure Cosmos DB | HBase on HDInsight |
---|---|---|
Elsődleges adatbázismodell | Dokumentumtár, gráf, kulcs-érték tároló, széles oszloptároló | Széles oszloptár |
Másodlagos indexek | Igen | Nem |
SQL-nyelv támogatása | Igen | Igen (a Phoenix JDBC-illesztőprogram használatával) |
Konzisztencia | Erős, kötött-elavult, munkamenet, konzisztens előtag, végleges | Erős |
Natív Azure Functions-integráció | Igen | Nem |
Automatikus globális terjesztés | Igen | A HBase-fürtreplikációs szolgáltatás nemkonfigurálható a régiók között végleges konzisztenciával |
Díjszabási modell | Rugalmasan méretezhető kérelemegységek (kérelemegységek) szükség szerint másodpercenként feltöltve, rugalmasan méretezhető tárolással | HDInsight-fürt percenkénti díjszabása (csomópontok horizontális skálázása), tárolás |
Elemzési adatbázis képességei
Funkció | Azure Adatkezelő |
---|---|
Elsődleges adatbázismodell | Relációs (oszloptároló), telemetria és idősorozat-tároló |
SQL-nyelv támogatása | Igen |
Díjszabási modell | Rugalmasan méretezhető fürtpéldányok |
Hitelesítés | Microsoft Entra-identitások alapján |
Titkosítás inaktív állapotban | Támogatott, ügyfél által felügyelt kulcsok |
Elemzési számítási feladatok teljesítménye | Optimalizált teljesítmény párhuzamos elemzési számítási feladatokhoz |
Méretkorlátok | Lineárisan skálázható |
Közreműködők
Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.
Fő szerző:
- Zoiner Tejada | vezérigazgató és tervező
Következő lépések
- Mi az a Fabric?
- Bevezetés a végpontok közötti elemzésbe a Fabric használatával
- Azure Cloud Storage-megoldások és -szolgáltatások
- A tárolási beállítások áttekintése
- A Microsoft Azure Storage bemutatása
- Az Azure Data Explorer bemutatása