Megosztás a következőn keresztül:


Elemzési adattár kiválasztása az Azure-ban

A big data architektúrában gyakran van szükség olyan elemzési adattárra, amely strukturált formátumban szolgálja ki a feldolgozott adatokat, és amely elemzési eszközökkel kérdezhető le. A gyakori elérésű és a ritka elérésű adatok lekérdezését támogató elemzési adattárakat együttesen kiszolgáló rétegnek vagy tárolóként nevezzük.

A kiszolgálóréteg a forró útvonalról és a hideg útvonalról származó feldolgozott adatokat egyaránt kezeli. A Lambda architektúrában a kiszolgáló réteg két rétegre van felosztva. A sebességkiszolgáló réteg tartalmazza a növekményesen feldolgozott adatokat. A kötegelt kiszolgáló réteg tartalmazza a kötegelt feldolgozású kimenetet. A kiszolgálóréteg erős támogatást igényel az alacsony késésű véletlenszerű olvasásokhoz. A sebességréteg adattárolásának a véletlenszerű írást is támogatnia kell, mivel az adatok kötegelt betöltése ebbe az tárolóba nem kívánt késéseket okoz. Másik lehetőségként a kötegréteg adattárolójának támogatnia kell a kötegírásokat, nem pedig a véletlenszerű írásokat.

Nincs egyetlen legjobb adatkezelési lehetőség az összes adattárolási feladathoz. A különböző adatkezelési megoldások különböző feladatokhoz vannak optimalizálva. A legtöbb valós felhőalkalmazás és big data-folyamat különböző adattárolási követelményekkel rendelkezik, és gyakran adattárolási megoldások kombinációját használja.

A modern elemzési megoldások, például a Microsoft Fabric átfogó platformot biztosítanak, amely különböző adatszolgáltatásokat és eszközöket integrál a különböző elemzési igények kielégítése érdekében. A Fabric tartalmazza a OneLake-t, amely egyetlen, egységes, logikai adattó a teljes szervezet számára. A OneLake úgy lett kialakítva, hogy az összes szervezeti adatot egy helyen tárolja, kezelje és biztonságossá tegye. Ez a rugalmasság lehetővé teszi a szervezet számára az adattárolási és feldolgozási követelmények széles skáláját.

Elemzési adattár kiválasztása

Az Azure-ban a tárolást kiszolgáló adatoknak az igényeitől függően számos lehetősége van:

A következő adatbázismodellek különböző típusú feladatokhoz vannak optimalizálva:

  • A kulcs-érték adatbázisok egyetlen szerializált objektumot tárolnak minden kulcsértékhez. Kiválóan alkalmasak nagy mennyiségű adat kezelésére, ha a lekérés egy adott kulcson alapul, anélkül, hogy más elemtulajdonságokat kellene lekérdeznie.

  • A dokumentumadatbázisok kulcs értékű adatbázisok, amelyekben az értékek dokumentumok. Ebben az összefüggésben a dokumentum nevesített mezőkből és értékekből álló gyűjtemény. Az adatbázis általában XML, YAML, JSON vagy bináris JSON formátumban tárolja az adatokat, de egyszerű szöveget is használhat. A dokumentumadatbázisok nem kulcsmezőkről kérdezhetők le, és másodlagos indexeket határozhatnak meg a lekérdezés hatékonyságának javítása érdekében. Ez a képesség alkalmasabbá teszi a dokumentum-adatbázist az olyan alkalmazások számára, amelyek a dokumentumkulcs értékénél összetettebb feltételek alapján szeretné lekérni az adatokat. Lekérdezhet például olyan mezőket, mint a termékazonosító, az ügyfélazonosító vagy az ügyfél neve.

  • Az oszloptár-adatbázisok kulcs értékű adattárak, amelyek minden oszlopot külön tárolnak a lemezen. A széles oszloptár-adatbázis olyan oszloptároló adatbázistípus, amely nem csak egyetlen oszlopcsaládot, hanem oszlopcsaládokat is tárol. Egy összeírási adatbázis például külön oszlopcsaláddal rendelkezhet az alábbi elemek mindegyikéhez:

    • Egy személy első, középső és vezetékneve

    • A személy címe

    • A személy profiladatai, például születési dátumuk vagy nemük

    Az adatbázis minden oszlopcsaládot külön partíción tárolhat, miközben az összes adat egy adott kulcshoz kapcsolódó személy számára marad. Az alkalmazások egyetlen oszlopcsaládot is beolvashatnak anélkül, hogy egy entitás összes adatát beolvasták.

  • A gráfadatbázisok objektumok és kapcsolatok gyűjteményeként tárolják az információkat. A gráfadatbázisok hatékonyan hajthatnak végre olyan lekérdezéseket, amelyek áthaladnak az objektumok hálózatán és a köztük lévő kapcsolatokon. Előfordulhat például, hogy az objektumok egy emberierőforrás-adatbázis alkalmazottai, és olyan lekérdezéseket szeretne megkönnyíteni, mint például a "Minden olyan alkalmazott megkeresése, aki közvetlenül vagy közvetve Scottnak dolgozik".

  • A telemetriai és idősoros adatbázisok csak hozzáfűző objektumok gyűjteményei. A telemetriai adatbázisok hatékonyan indexelik az adatokat a különböző oszloptárolókban és memóriabeli struktúrákban. Ez a képesség teszi őket optimális választássá nagy mennyiségű telemetriai és idősoros adat tárolásához és elemzéséhez.

A Fabric különböző adatbázismodelleket támogat, beleértve a kulcs-érték, a dokumentum, az oszloptároló, a gráf és a telemetriai adatbázisokat. Ez a rugalmasság számos elemzési feladat skálázhatóságát biztosítja.

Kulcsválasztási feltételek

A kiválasztási folyamat finomításához vegye figyelembe a következő feltételeket:

  • Szüksége van olyan tároló kiszolgálására, amely az adatok gyakori elérési útja lehet? Ha igen, szűkítse a beállításokat a sebességkiszolgáló rétegre optimalizált beállításokra.

  • Nagy mértékben párhuzamos feldolgozási támogatásra van szüksége, ahol a lekérdezések automatikusan elosztódnak több folyamat vagy csomópont között? Ha igen, válasszon egy olyan lehetőséget, amely támogatja a lekérdezések horizontális felskálázását.

  • Inkább relációs adattárat használ? Ha igen, szűkítse a lehetőségeket a relációs adatbázis-modellel rendelkezőkre. Egyes nem kapcsolódó tárolók azonban támogatják a lekérdezési SQL-szintaxist, és az olyan eszközök, mint a PolyBase, használhatók a nem kapcsolódó adattárak lekérdezésére.

  • Gyűjt idősoros adatokat? Csak hozzáfűző adatokat használ?

A Fabric OneLake több elemzési motort támogat, köztük az Analysis Servicest, a T-SQL-t és az Apache Sparkot. Ez a támogatás alkalmassá teszi a különböző adatfeldolgozási és lekérdezési igények kielégítésére.

Képességmátrix

Az alábbi táblázatok összefoglalják a képességek főbb különbségeit.

Általános képességek

Funkció SQL-adatbázis Azure Synapse Analytics SQL-készlet Azure Synapse Analytics Spark-készlet Azure Adatkezelő Apache HBase vagy Apache Phoenix a HDInsighton Hive LLAP a HDInsighton Elemző Szolgáltatások Azure Cosmos DB (adatbázis) Szövet
Felügyelt szolgáltatás? Igen Igen Igen Igen Igen 1 Igen 1 Igen Igen Igen
Elsődleges adatbázismodell Relációs (oszloptároló formátum oszlopcentrikus indexek használatakor) Relációs táblák oszloptárolóval Széles oszloptár Relációs (oszloptároló), telemetria és idősorozat-tároló Széles oszloptár Hive vagy memória Táblázatos szemantikai modellek Dokumentumtár, gráf, kulcs-érték tároló, széles oszloptároló Egyesített adattó, relációs, telemetria, idősor, dokumentumtár, gráf, kulcs-érték tároló
SQL-nyelv támogatása Igen Igen Igen Igen Igen ( Apache Phoenix Java-adatbázis-kapcsolatillesztő használata) Igen Nem Igen Igen
Sebességkiszolgáló rétegre optimalizálva Igen 2 Igen 3 Igen Igen Igen Igen Nem Igen Igen

[1] Manuális konfigurációval és skálázással.

[2] Memóriaoptimalizált táblák és kivonatok vagy nemclustered indexek használata.

[3] Azure Stream Analytics-kimenetként támogatott.

Méretezhetőségi képességek

Funkció SQL-adatbázis Azure Synapse Analytics SQL-készlet Azure Synapse Analytics Spark-készlet Azure Adatkezelő Apache HBase vagy Apache Phoenix a HDInsighton Hive LLAP a HDInsighton Elemző Szolgáltatások Azure Cosmos DB (adatbázis) Szövet
Redundáns regionális kiszolgálók magas rendelkezésre álláshoz Igen Nem Nem Igen Igen Nem Igen Igen Igen
Támogatja a lekérdezések horizontális felskálázását Nem Igen Igen Igen Igen Igen Igen Igen Igen
Dinamikus méretezhetőség (vertikális felskálázás) Igen Igen Igen Igen Nem Nem Igen Igen Igen
Támogatja az adatok memóriabeli gyorsítótárazását Igen Igen Igen Igen Nem Igen Igen Nem Igen

Biztonsági képességek

Funkció SQL-adatbázis Azure Synapse Analytics Azure Adatkezelő Apache HBase vagy Apache Phoenix a HDInsighton Hive LLAP a HDInsighton Elemző Szolgáltatások Azure Cosmos DB (adatbázis) Szövet
Hitelesítés SQL- vagy Microsoft Entra-azonosító SQL- vagy Microsoft Entra-azonosító Microsoft Entra-azonosító Helyi vagy Microsoft Entra ID 1 Helyi vagy Microsoft Entra ID 1 Microsoft Entra-azonosító Adatbázis-felhasználók vagy Microsoft Entra-azonosító hozzáférés-vezérléssel (identitás- és hozzáférés-kezelés) Microsoft Entra-azonosító
Adattitkosítás inaktív állapotban Igen 2 Igen 2 Igen Igen 1 Igen 1 Igen Igen Igen
Sorszintű biztonság Igen Igen 3 Igen Igen 1 Igen 1 Igen Nem Igen
Tűzfalak támogatása Igen Igen Igen Igen 4 Igen 4 Igen Igen Igen
Dinamikus adatmaszkolás Igen Igen Igen Igen 1 Igen Nem Nem Igen

[1] Tartományhoz csatlakoztatott HDInsight-fürtöt kell használnia.

[2] Átlátszó adattitkosítást igényel a nyugalmi állapotban lévő adatok titkosításához és visszafejtéséhez.

[3] A szűrési predikátumok csak. További információ: Sorszintű biztonság.

[4] Azure-beli virtuális hálózaton belüli használat esetén. További információ: A HDInsight kiterjesztése Azure-beli virtuális hálózat használatával.

Következő lépések