Megosztás a következőn keresztül:


Big Data Storage-technológia kiválasztása az Azure-ban

Ez a cikk összehasonlítja a big data-megoldások adattárolási lehetőségeit– különösen a tömeges adatbetöltéshez és kötegelt feldolgozáshoz használt adattárolási lehetőségeket, szemben az elemzési adattárakkal vagy a valós idejű streamelési betöltéssel.

Milyen lehetőségei vannak az Azure-beli adattárolás kiválasztásakor?

Az adatok azure-ba való betöltésére az igényeitől függően számos lehetőség közül választhat.

Egyesített logikai adattó:

Fájltárolás:

NoSQL-adatbázisok:

Elemzési adatbázisok:

OneLake a Hálóban

A OneLake in Fabric egy egységes és logikai adattó, amely a teljes szervezetre szabott. Központi központként szolgál az összes elemzési adathoz, és minden Microsoft Fabric-bérlőhöz tartozik. A OneLake in Fabric a Data Lake Storage Gen2 alapjaira épül.

OneLake a Hálóban:

  • Támogatja a strukturált és strukturálatlan fájltípusokat.
  • Az összes táblázatos adatot Delta Parquet formátumban tárolja.
  • Egyetlen adattavat biztosít a bérlői határokon belül, amely alapértelmezés szerint szabályozva van.
  • Támogatja a munkaterületek bérlőn belüli létrehozását, hogy a szervezet eloszthassa a tulajdonjogi és hozzáférési szabályzatokat.
  • Támogatja a különböző adatelemek, például a tóházak és a raktárak létrehozását, amelyekből hozzáférhet az adatokhoz.

A OneLake in Fabric a betöltések, átalakítások, valós idejű elemzések és üzletiintelligencia-vizualizációk gyakori tárolási helye. Központosítja a különböző Fabric-szolgáltatásokat, és tárolja azokat az adatelemeket, amelyeket minden számítási feladat használ a Fabricben. A Fabric-számítási feladatokhoz megfelelő adattár kiválasztásához tekintse meg a Fabric döntési útmutatóját: válasszon egy adattárat.

Azure Storage-blobok

Az Azure Storage egy felügyelt tárolási szolgáltatás, amely magas rendelkezésre állású, biztonságos, tartós, méretezhető és redundáns. A karbantartást és a kritikus problémák kezelését a Microsoft végzi el Önnek. Az Azure Storage a leggyakrabban elérhető tárolási megoldás, amelyet az Azure nyújt, a vele használható szolgáltatások és eszközök száma miatt.

Különböző Azure Storage-szolgáltatások használhatók az adatok tárolására. A blobok számos adatforrásból való tárolásának legrugalmasabb lehetősége a Blob Storage. A blobok alapvetően fájlok. Képeket, dokumentumokat, HTML-fájlokat, virtuális merevlemezeket (VHD-ket), big data-okat, például naplókat, adatbázis-biztonsági mentéseket tárolnak – nagyjából bármit. A blobok tárolása tárolókban történik, amelyek a mappákhoz hasonlatosak. A tároló blobkészletek csoportosítását biztosítja. Egy tárfiók korlátlan számú tárolót tartalmazhat, egy tároló pedig korlátlan számú blob tárolására használható.

Az Azure Storage a rugalmasság, a magas rendelkezésre állás és az alacsony költségek miatt jó választás big data- és elemzési megoldásokhoz. Gyakori, ritka elérésű és archív tárolási szinteket biztosít a különböző használati esetekhez. További információ: Azure Blob Storage: Gyakori elérésű, ritka elérésű és archív tárolási szintek.

Az Azure Blob Storage a Hadoopból érhető el (a HDInsighton keresztül érhető el). A HDInsight egy blobtárolót használhat az Azure Storage-ben a fürt alapértelmezett fájlrendszereként. A WASB-illesztők által biztosított Hadoop Elosztott fájlrendszer (HDFS) interfészen keresztül a HDInsight összetevőinek teljes készlete közvetlenül a blobokként tárolt strukturált vagy strukturálatlan adatokon működhet. Az Azure Blob Storage az Azure Synapse Analyticsen keresztül is elérhető a PolyBase funkciójával.

Az Azure Storage-t a következő funkciók teszik jó választássá:

2. generációs Data Lake Storage

A Data Lake Storage Gen2 egyetlen, központosított adattár, ahol az összes adatot strukturált és strukturálatlan állapotban tárolhatja. A data lake lehetővé teszi a szervezet számára, hogy gyorsan és egyszerűbben tároljon, hozzáférjen és elemezzen számos adatot egyetlen helyen. A data lake-nek nem kell megfelelnie az adatoknak egy meglévő struktúra követelményeinek. Ehelyett tárolhatja az adatokat nyers vagy natív formátumban, általában fájlokként vagy bináris nagy objektumokként (blobokként).

A Data Lake Storage Gen2 az Azure Data Lake Storage Gen1 és az Azure Blob Storage képességeit konvergálja. A Data Lake Storage Gen2 például fájlrendszer-szemantikát, fájlszintű biztonságot és skálázást biztosít. Mivel ezek a képességek a Blob Storage-ra épülnek, alacsony költségű, rétegzett tárterületet is kap, magas rendelkezésre állási/vészhelyreállítási képességekkel.

A Data Lake Storage Gen2 teszi az Azure Storage-t az Azure-beli nagyvállalati adattavak készítésének alapjaként. A Data Lake Storage Gen2 a kezdetektől több petabájtnyi információ kiszolgálása és több száz gigabájtos átviteli sebesség fenntartása mellett lehetővé teszi a nagy mennyiségű adat egyszerű kezelését.

Azure Cosmos DB

Az Azure Cosmos DB a Microsoft globálisan elosztott többmodelles adatbázisa. Az Azure Cosmos DB garantálja az egy számjegyből álló ezredmásodperc késéseket a 99. percentilisben bárhol a világon, több jól definiált konzisztenciamodellt biztosít a teljesítmény finomhangolásához, és magas rendelkezésre állást garantál több-homing képességekkel.

Az Azure Cosmos DB sémafüggetlen. Automatikusan indexeli az összes adatot anélkül, hogy a sémával és az indexkezeléssel kellene foglalkoznia. Emellett többmodelles, natívan támogató dokumentum-, kulcs-érték-, gráf- és oszlopcsalád-adatmodellek.

Az Azure Cosmos DB funkciói:

HBase on HDInsight

Az Apache HBase egy nyílt forráskódú NoSQL-adatbázis, amely a Hadoopra épül, és a Google BigTable után modellezhető. A HBase véletlenszerű hozzáférést és erős konzisztenciát biztosít nagy mennyiségű strukturálatlan és félig strukturált adathoz egy oszlopcsaládok által rendezett séma nélküli adatbázisban.

Az adatok a táblasorokban vannak tárolva, és a sorokon belüli adatok oszlopcsalád szerint vannak csoportosítva. A HBase séma nélküli abban az értelemben, hogy a használat előtt sem az oszlopok, sem a bennük tárolt adatok típusát nem kell definiálni. A nyílt forráskód lineáris módon méreteződik át a több ezer csomópontnyi adat petabájtjainak kezelése érdekében. Az adatredundanciára, a kötegelt feldolgozásra és más olyan szolgáltatásokra támaszkodhat, amelyeket elosztott alkalmazások nyújtanak a Hadoop rendszerben.

A HDInsight-implementáció a HBase horizontális felskálázási architektúráját használja a táblák automatikus szilánkolására, az olvasások és írások erős konzisztenciájára, valamint az automatikus feladatátvételre. A teljesítményt a memóriába való gyorsítótárazás növeli az olvasáshoz, és a nagy streaming-kapacitás az írásokhoz. A legtöbb esetben a HBase-fürtöt egy virtuális hálózaton belül szeretné létrehozni, hogy más HDInsight-fürtök és alkalmazások közvetlenül elérhessék a táblákat.

Azure Adatkezelő

Az Azure Data Explorer egy gyors és nagy mértékben méretezhető adatfeltárási szolgáltatás a napló- és telemetriaadatokhoz. Segít kezelni a modern szoftverek által kibocsátott számos adatfolyamot, így adatokat gyűjthet, tárolhat és elemezhet. Az Azure Adatkezelő ideális választás nagy mennyiségű, különböző forrásokból (például webhelyekről, alkalmazásokból, IoT-eszközökről stb.) származó adatok elemzéséhez. Ezek az adatok a diagnosztikához, a monitorozáshoz, a jelentéskészítéshez, a gépi tanuláshoz és a további elemzési funkciókhoz szükségesek. Az Azure Data Explorer egyszerűvé teszi az adatok betöltését, és lehetővé teszi, hogy összetett, nem tervezett lekérdezéseket hajtson végre az adatokon másodpercek alatt.

Az Azure Data Explorer lineárisan felskálázható a betöltési és lekérdezésfeldolgozási átviteli sebesség növelése érdekében. Az Azure Data Explorer-fürtök üzembe helyezhetők egy virtuális hálózaton a magánhálózatok engedélyezéséhez.

Kulcsválasztási feltételek

A lehetőségek szűkítéséhez először válaszoljon az alábbi kérdésekre:

  • Szüksége van egységes adattóra többfelhős támogatással, robusztus irányítással és az elemzési eszközökkel való zökkenőmentes integrációval? Ha igen, válassza a OneLake in Fabric lehetőséget az egyszerűsített adatkezeléshez és a jobb együttműködéshez.

  • Szüksége van felügyelt, nagy sebességű, felhőalapú tárolóra bármilyen típusú szöveges vagy bináris adathoz? Ha igen, válassza ki a fájltárolási vagy elemzési lehetőségek egyikét.

  • Szüksége van a párhuzamos elemzési számítási feladatokra és a magas átviteli sebességre/IOPS-ra optimalizált fájltárolásra? Ha igen, válasszon egy beállítást, amely az elemzési számítási feladatok teljesítményére van hangolva.

  • Strukturálatlan vagy félig strukturált adatokat kell tárolnia egy séma nélküli adatbázisban? Ha igen, válassza ki a nem arelációs vagy elemzési lehetőségek egyikét. Hasonlítsa össze az indexelési és adatbázismodellek beállításait. A tárolni kívánt adatok típusától függően az elsődleges adatbázismodellek lehetnek a legnagyobb tényező.

  • Használhatja a szolgáltatást a régióban? Ellenőrizze az egyes Azure-szolgáltatások regionális elérhetőségét. További információért lásd a régiónként elérhető termékeket.

Képességmátrix

Az alábbi táblázatok összefoglalják a képességek főbb különbségeit.

OneLake in Fabric képességek

Funkció OneLake a Hálóban
Egyesített adattó Egyetlen, egységes adattó a teljes szervezet számára, amely kiküszöböli az adatsilókat.
Többfelhős támogatás Támogatja a különböző felhőplatformokkal való integrációt és kompatibilitást.
Adatszabályozás Olyan funkciókat tartalmaz, mint az adatkisorolás, az adatvédelem, a minősítés és a katalógusintegráció.
Központosított adatközpont Központosított központként szolgál az adatfelderítéshez és -kezeléshez.
Elemzési motor támogatása Kompatibilis több elemzési motorral. Ez a kompatibilitás lehetővé teszi, hogy különböző eszközök és technológiák működjenek ugyanazon az adatokon.
Biztonság és megfelelőség Biztosítja, hogy a bizalmas adatok biztonságosak maradnak, és a hozzáférés csak a jogosult felhasználók számára legyen korlátozva.
Egyszerű használat Felhasználóbarát kialakítást biztosít, amely automatikusan elérhető minden Fabric-bérlőnél, és nincs szükség beállításra.
Méretezhetőség Képes nagy mennyiségű, különböző forrásból származó adat kezelésére.

Fájltárolási képességek

Funkció 2. generációs Data Lake Storage Azure Blob Storage-tárolók
Cél Optimalizált tárolás big data-elemzési számítási feladatokhoz Általános célú objektumtároló a tárolási forgatókönyvek széles köréhez
Használati esetek Batch, streaming analytics és gépi tanulási adatok, például naplófájlok, IoT-adatok, kattintási streamek, nagy adathalmazok Bármilyen típusú szöveges vagy bináris adat, például alkalmazás háttérrendszere, biztonsági mentési adatok, streamelési adathordozó-tárolás és általános célú adatok
Struktúra Hierarchikus fájlrendszer Objektumtároló egysíkú névtérrel
Hitelesítés Microsoft Entra-identitások alapján A megosztott titkos kulcsok és a közös hozzáférésű jogosultságkódkulcsok, valamint az Azure szerepköralapú hozzáférés-vezérlése (Azure RBAC) alapján
Hitelesítési protokoll Open Authorization (OAuth) 2.0. A hívásoknak tartalmazniuk kell a Microsoft Entra ID által kibocsátott érvényes JWT-t (JSON webes jogkivonatot) Kivonatalapú üzenethitelesítési kód (HMAC). A hívásoknak tartalmazniuk kell egy Base64-kódolású SHA-256 kivonatot a HTTP-kérés egy része felett.
Engedélyezés Portable Operating System Interface (POSIX) hozzáférés-vezérlési listák (ACL-ek). A Microsoft Entra-identitásokon alapuló ACL-ek fájl- és mappaszintet állíthatnak be. Fiókszintű engedélyezéshez használja a fiók hozzáférési kulcsait. Fiók-, tároló- vagy blobengedélyezési célokhoz használja a közös hozzáférésű jogosultságkódkulcsokat.
Naplózás Beszerezhető. Rendelkezésre áll
Titkosítás inaktív állapotban Transzparens, kiszolgálóoldali Transzparens, kiszolgálóoldali; Ügyféloldali titkosítás
Fejlesztői SDK-k .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Elemzési számítási feladatok teljesítménye Optimalizált teljesítmény párhuzamos elemzési számítási feladatokhoz, magas átviteli sebességhez és IOPS-hoz Nincs elemzési számítási feladatokra optimalizálva
Méretkorlátok Nincs korlátozva a fiókméret, a fájlméret vagy a fájlok száma Az itt dokumentált konkrét korlátok
Georedundancia Helyileg redundáns (helyileg redundáns tárolás (LRS)), globálisan redundáns (georedundáns tárolás (GRS)), olvasási hozzáférés globálisan redundáns (olvasási hozzáférésű georedundáns tárolás (RA-GRS)), zónaredundáns (zónaredundáns tárolás (ZRS)). Helyileg redundáns (LRS), globálisan redundáns (GRS), olvasási hozzáférés globálisan redundáns (RA-GRS), zónaredundáns (ZRS). További információ: Azure Storage-redundancia

A NoSQL-adatbázis képességei

Funkció Azure Cosmos DB HBase on HDInsight
Elsődleges adatbázismodell Dokumentumtár, gráf, kulcs-érték tároló, széles oszloptároló Széles oszloptár
Másodlagos indexek Igen Nem
SQL-nyelv támogatása Igen Igen (a Phoenix JDBC-illesztőprogram használatával)
Konzisztencia Erős, kötött-elavult, munkamenet, konzisztens előtag, végleges Erős
Natív Azure Functions-integráció Igen Nem
Automatikus globális terjesztés Igen A HBase-fürtreplikációs szolgáltatás nemkonfigurálható a régiók között végleges konzisztenciával
Díjszabási modell Rugalmasan méretezhető kérelemegységek (kérelemegységek) szükség szerint másodpercenként feltöltve, rugalmasan méretezhető tárolással HDInsight-fürt percenkénti díjszabása (csomópontok horizontális skálázása), tárolás

Elemzési adatbázis képességei

Funkció Azure Adatkezelő
Elsődleges adatbázismodell Relációs (oszloptároló), telemetria és idősorozat-tároló
SQL-nyelv támogatása Igen
Díjszabási modell Rugalmasan méretezhető fürtpéldányok
Hitelesítés Microsoft Entra-identitások alapján
Titkosítás inaktív állapotban Támogatott, ügyfél által felügyelt kulcsok
Elemzési számítási feladatok teljesítménye Optimalizált teljesítmény párhuzamos elemzési számítási feladatokhoz
Méretkorlátok Lineárisan skálázható

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

Következő lépések