Elemzési adattár kiválasztása az Azure-ban

2025-05-23

A big data architektúrában gyakran van szükség olyan elemzési adattárra, amely strukturált formátumban szolgálja ki a feldolgozott adatokat, és amely elemzési eszközökkel kérdezhető le. A gyakori elérésű és a ritka elérésű adatok lekérdezését támogató elemzési adattárakat együttesen kiszolgáló rétegnek vagy tárolóként nevezzük.

A kiszolgálóréteg a forró útvonalról és a hideg útvonalról származó feldolgozott adatokat egyaránt kezeli. A Lambda architektúrában a kiszolgáló réteg két rétegre van felosztva. A sebességkiszolgáló réteg tartalmazza a növekményesen feldolgozott adatokat. A kötegelt kiszolgáló réteg tartalmazza a kötegelt feldolgozású kimenetet. A kiszolgálóréteg erős támogatást igényel az alacsony késésű véletlenszerű olvasásokhoz. A sebességréteg adattárolásának a véletlenszerű írást is támogatnia kell, mivel az adatok kötegelt betöltése ebbe az tárolóba nem kívánt késéseket okoz. Másik lehetőségként a kötegréteg adattárolójának támogatnia kell a kötegírásokat, nem pedig a véletlenszerű írásokat.

Nincs egyetlen legjobb adatkezelési lehetőség az összes adattárolási feladathoz. A különböző adatkezelési megoldások különböző feladatokhoz vannak optimalizálva. A legtöbb valós felhőalkalmazás és big data-folyamat különböző adattárolási követelményekkel rendelkezik, és gyakran adattárolási megoldások kombinációját használja.

A modern elemzési megoldások, például a Microsoft Fabric átfogó platformot biztosítanak, amely különböző adatszolgáltatásokat és eszközöket integrál a különböző elemzési igények kielégítése érdekében. A Fabric tartalmazza a OneLake-t, amely egyetlen, egységes, logikai adattó a teljes szervezet számára. A OneLake úgy lett kialakítva, hogy az összes szervezeti adatot egy helyen tárolja, kezelje és biztonságossá tegye. Ez a rugalmasság lehetővé teszi a szervezet számára az adattárolási és feldolgozási követelmények széles skáláját.

Elemzési adattár kiválasztása

Az Azure-ban a tárolást kiszolgáló adatoknak az igényeitől függően számos lehetősége van:

A következő adatbázismodellek különböző típusú feladatokhoz vannak optimalizálva:

A kulcs-érték adatbázisok egyetlen szerializált objektumot tárolnak minden kulcsértékhez. Kiválóan alkalmasak nagy mennyiségű adat kezelésére, ha a lekérés egy adott kulcson alapul, anélkül, hogy más elemtulajdonságokat kellene lekérdeznie.
A dokumentumadatbázisok kulcs értékű adatbázisok, amelyekben az értékek dokumentumok. Ebben az összefüggésben a dokumentum nevesített mezőkből és értékekből álló gyűjtemény. Az adatbázis általában XML, YAML, JSON vagy bináris JSON formátumban tárolja az adatokat, de egyszerű szöveget is használhat. A dokumentumadatbázisok nem kulcsmezőkről kérdezhetők le, és másodlagos indexeket határozhatnak meg a lekérdezés hatékonyságának javítása érdekében. Ez a képesség alkalmasabbá teszi a dokumentum-adatbázist az olyan alkalmazások számára, amelyek a dokumentumkulcs értékénél összetettebb feltételek alapján szeretné lekérni az adatokat. Lekérdezhet például olyan mezőket, mint a termékazonosító, az ügyfélazonosító vagy az ügyfél neve.
Az oszloptár-adatbázisok kulcs értékű adattárak, amelyek minden oszlopot külön tárolnak a lemezen. A széles oszloptár-adatbázis olyan oszloptároló adatbázistípus, amely nem csak egyetlen oszlopcsaládot, hanem oszlopcsaládokat is tárol. Egy összeírási adatbázis például külön oszlopcsaláddal rendelkezhet az alábbi elemek mindegyikéhez:
- Egy személy első, középső és vezetékneve
- A személy címe
- A személy profiladatai, például születési dátumuk vagy nemük
Az adatbázis minden oszlopcsaládot külön partíción tárolhat, miközben az összes adat egy adott kulcshoz kapcsolódó személy számára marad. Az alkalmazások egyetlen oszlopcsaládot is beolvashatnak anélkül, hogy egy entitás összes adatát beolvasták.
A gráfadatbázisok objektumok és kapcsolatok gyűjteményeként tárolják az információkat. A gráfadatbázisok hatékonyan hajthatnak végre olyan lekérdezéseket, amelyek áthaladnak az objektumok hálózatán és a köztük lévő kapcsolatokon. Előfordulhat például, hogy az objektumok egy emberierőforrás-adatbázis alkalmazottai, és olyan lekérdezéseket szeretne megkönnyíteni, mint például a "Minden olyan alkalmazott megkeresése, aki közvetlenül vagy közvetve Scottnak dolgozik".
A telemetriai és idősoros adatbázisok csak hozzáfűző objektumok gyűjteményei. A telemetriai adatbázisok hatékonyan indexelik az adatokat a különböző oszloptárolókban és memóriabeli struktúrákban. Ez a képesség teszi őket optimális választássá nagy mennyiségű telemetriai és idősoros adat tárolásához és elemzéséhez.

A Fabric különböző adatbázismodelleket támogat, beleértve a kulcs-érték, a dokumentum, az oszloptároló, a gráf és a telemetriai adatbázisokat. Ez a rugalmasság számos elemzési feladat skálázhatóságát biztosítja.

Kulcsválasztási feltételek

A kiválasztási folyamat finomításához vegye figyelembe a következő feltételeket:

Szüksége van olyan tároló kiszolgálására, amely az adatok gyakori elérési útja lehet? Ha igen, szűkítse a beállításokat a sebességkiszolgáló rétegre optimalizált beállításokra.
Nagy mértékben párhuzamos feldolgozási támogatásra van szüksége, ahol a lekérdezések automatikusan elosztódnak több folyamat vagy csomópont között? Ha igen, válasszon egy olyan lehetőséget, amely támogatja a lekérdezések horizontális felskálázását.
Inkább relációs adattárat használ? Ha igen, szűkítse a lehetőségeket a relációs adatbázis-modellel rendelkezőkre. Egyes nem kapcsolódó tárolók azonban támogatják a lekérdezési SQL-szintaxist, és az olyan eszközök, mint a PolyBase, használhatók a nem kapcsolódó adattárak lekérdezésére.
Gyűjt idősoros adatokat? Csak hozzáfűző adatokat használ?

A Fabric OneLake több elemzési motort támogat, köztük az Analysis Servicest, a T-SQL-t és az Apache Sparkot. Ez a támogatás alkalmassá teszi a különböző adatfeldolgozási és lekérdezési igények kielégítésére.

Képességmátrix

Az alábbi táblázatok összefoglalják a képességek főbb különbségeit.

Általános képességek

Funkció	SQL-adatbázis	Azure Synapse Analytics SQL-készlet	Azure Synapse Analytics Spark-készlet	Azure Adatkezelő	Apache HBase vagy Apache Phoenix a HDInsighton	Hive LLAP a HDInsighton	Elemző Szolgáltatások	Azure Cosmos DB (adatbázis)	Szövet
Felügyelt szolgáltatás?	Igen	Igen	Igen	Igen	Igen ¹	Igen ¹	Igen	Igen	Igen
Elsődleges adatbázismodell	Relációs (oszloptároló formátum oszlopcentrikus indexek használatakor)	Relációs táblák oszloptárolóval	Széles oszloptár	Relációs (oszloptároló), telemetria és idősorozat-tároló	Széles oszloptár	Hive vagy memória	Táblázatos szemantikai modellek	Dokumentumtár, gráf, kulcs-érték tároló, széles oszloptároló	Egyesített adattó, relációs, telemetria, idősor, dokumentumtár, gráf, kulcs-érték tároló
SQL-nyelv támogatása	Igen	Igen	Igen	Igen	Igen ( Apache Phoenix Java-adatbázis-kapcsolatillesztő használata)	Igen	Nem	Igen	Igen
Sebességkiszolgáló rétegre optimalizálva	Igen ²	Igen ³	Igen	Igen	Igen	Igen	Nem	Igen	Igen

[1] Manuális konfigurációval és skálázással.

[2] Memóriaoptimalizált táblák és kivonatok vagy nemclustered indexek használata.

[3] Azure Stream Analytics-kimenetként támogatott.

Méretezhetőségi képességek

Funkció	SQL-adatbázis	Azure Synapse Analytics SQL-készlet	Azure Synapse Analytics Spark-készlet	Azure Adatkezelő	Apache HBase vagy Apache Phoenix a HDInsighton	Hive LLAP a HDInsighton	Elemző Szolgáltatások	Azure Cosmos DB (adatbázis)	Szövet
Redundáns regionális kiszolgálók magas rendelkezésre álláshoz	Igen	Nem	Nem	Igen	Igen	Nem	Igen	Igen	Igen
Támogatja a lekérdezések horizontális felskálázását	Nem	Igen	Igen	Igen	Igen	Igen	Igen	Igen	Igen
Dinamikus méretezhetőség (vertikális felskálázás)	Igen	Igen	Igen	Igen	Nem	Nem	Igen	Igen	Igen
Támogatja az adatok memóriabeli gyorsítótárazását	Igen	Igen	Igen	Igen	Nem	Igen	Igen	Nem	Igen

Biztonsági képességek

Funkció	SQL-adatbázis	Azure Synapse Analytics	Azure Adatkezelő	Apache HBase vagy Apache Phoenix a HDInsighton	Hive LLAP a HDInsighton	Elemző Szolgáltatások	Azure Cosmos DB (adatbázis)	Szövet
Hitelesítés	SQL- vagy Microsoft Entra-azonosító	SQL- vagy Microsoft Entra-azonosító	Microsoft Entra-azonosító	Helyi vagy Microsoft Entra ID ¹	Helyi vagy Microsoft Entra ID ¹	Microsoft Entra-azonosító	Adatbázis-felhasználók vagy Microsoft Entra-azonosító hozzáférés-vezérléssel (identitás- és hozzáférés-kezelés)	Microsoft Entra-azonosító
Adattitkosítás inaktív állapotban	Igen ²	Igen ²	Igen	Igen ¹	Igen ¹	Igen	Igen	Igen
Sorszintű biztonság	Igen	Igen ³	Igen	Igen ¹	Igen ¹	Igen	Nem	Igen
Tűzfalak támogatása	Igen	Igen	Igen	Igen ⁴	Igen ⁴	Igen	Igen	Igen
Dinamikus adatmaszkolás	Igen	Igen	Igen	Igen ¹	Igen	Nem	Nem	Igen

[1] Tartományhoz csatlakoztatott HDInsight-fürtöt kell használnia.

[2] Átlátszó adattitkosítást igényel a nyugalmi állapotban lévő adatok titkosításához és visszafejtéséhez.

[3] A szűrési predikátumok csak. További információ: Sorszintű biztonság.

[4] Azure-beli virtuális hálózaton belüli használat esetén. További információ: A HDInsight kiterjesztése Azure-beli virtuális hálózat használatával.

Megosztás a következőn keresztül:

Elemzési adattár kiválasztása az Azure-ban

Elemzési adattár kiválasztása

Kulcsválasztási feltételek

Képességmátrix

Általános képességek

Méretezhetőségi képességek

Biztonsági képességek

Következő lépések

Kapcsolódó erőforrások

Visszajelzés

További források