Volba analytického úložiště dat v Azure

V architektuře pro velké objemy dat je často potřeba analytické úložiště dat, které obsluhuje zpracovávaná data ve strukturovaném formátu, který je možné dotazovat pomocí analytických nástrojů. Úložiště analytických dat, která podporují dotazování dat horké cesty i studené cesty, se souhrnně označují jako obslužná vrstva nebo data obsluhující úložiště.

Obslužná vrstva se zabývá zpracovanými daty z horké cesty i studené cesty. V architektuře lambda je obslužná vrstva rozdělena na vrstvu pro zpracování rychlosti, která ukládá data, která byla zpracována přírůstkově, a dávkovou obslužnou vrstvu, která obsahuje dávkový výstup. Obslužná vrstva vyžaduje silnou podporu náhodných čtení s nízkou latencí. Úložiště dat pro vrstvu rychlosti by také mělo podporovat náhodné zápisy, protože dávkové načítání dat do tohoto úložiště by mělo představovat nežádoucí zpoždění. Na druhou stranu úložiště dat pro dávkovou vrstvu nemusí podporovat náhodné zápisy, ale dávkové zápisy.

Pro všechny úlohy ukládání dat neexistuje jediná nejlepší volba správy dat. Různá řešení pro správu dat jsou optimalizovaná pro různé úlohy. Většina cloudových aplikací z reálného světa a procesů velkých objemů dat má různé požadavky na úložiště dat a často používá kombinaci řešení úložiště dat.

Jaké máte možnosti při výběru analytického úložiště dat?

V závislosti na vašich potřebách existuje několik možností pro data obsluhující úložiště v Azure:

Tyto možnosti poskytují různé databázové modely, které jsou optimalizované pro různé typy úloh:

  • Databáze klíč/hodnota obsahují jeden serializovaný objekt pro každou hodnotu klíče. Jsou vhodné pro ukládání velkých objemů dat na místo, kde chcete získat jednu položku pro danou hodnotu klíče a nemusíte se dotazovat na základě jiných vlastností položky.
  • Databáze dokumentů jsou databáze klíč/hodnota, ve kterých jsou hodnoty dokumenty. Dokument v tomto kontextu je kolekce pojmenovaných polí a hodnot. Databáze obvykle ukládá data ve formátu, jako je XML, YAML, JSON nebo BSON, ale může používat prostý text. Databáze dokumentů se můžou dotazovat na pole, která nejsou klíči, a definovat sekundární indexy, aby se dotazování zefektivnit. Díky tomu je databáze dokumentů vhodnější pro aplikace, které potřebují načítat data na základě složitějších kritérií než hodnota klíče dokumentu. Můžete se například dotazovat na pole, jako je ID produktu, ID zákazníka nebo jméno zákazníka.
  • Databáze úložiště sloupců jsou úložiště dat klíč/hodnota, která ukládají každý sloupec samostatně na disku. Široká databáze úložiště sloupců je typ databáze úložiště sloupců, která ukládá rodiny sloupců, nejen jednotlivé sloupce. Například databáze sčítání lidu může mít rodinu sloupců pro jméno osoby (první, prostřední, poslední), rodinu pro adresu osoby a rodinu pro profilové informace dané osoby (datum narození, pohlaví). Databáze může ukládat každou rodinu sloupců do samostatného oddílu a přitom uchovávat všechna data pro jednu osobu související se stejným klíčem. Aplikace může číst jednu rodinu sloupců bez čtení všech dat pro entitu.
  • Grafové databáze ukládají informace jako kolekci objektů a relací. Grafová databáze může efektivně provádět dotazy, které procházejí sítí objektů a vztahy mezi nimi. Objekty můžou být například zaměstnanci v databázi lidských zdrojů a můžete chtít usnadnit dotazy, například "najít všechny zaměstnance, kteří přímo nebo nepřímo pracují pro Scotta".
  • Telemetrie a databáze časových řad jsou jen doplňovací kolekce objektů. Databáze telemetrie efektivně indexují data v různých úložištích sloupců a strukturách v paměti, což je optimální volbou pro ukládání a analýzu obrovského množství telemetrických dat a dat časových řad.

Klíčová kritéria výběru

Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:

  • Potřebujete obsluhovat úložiště, které může sloužit jako horká cesta pro vaše data? Pokud ano, zužte možnosti na ty, které jsou optimalizované pro vrstvu rychlé obsluhy.

  • Potřebujete podporu mpP (Massively Parallel Processing), kde se dotazy automaticky distribuují napříč několika procesy nebo uzly? Pokud ano, vyberte možnost, která podporuje horizontální navýšení kapacity dotazu.

  • Dáváte přednost použití relačního úložiště dat? Pokud ano, zužte možnosti na ty, které mají model relační databáze. Všimněte si však, že některá nerelační úložiště podporují syntaxi SQL pro dotazování a nástroje, jako je PolyBase, se dají použít k dotazování nerelačních úložišť dat.

  • Shromažďujete data časových řad? Používáte data jen pro připojení?

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech.

Obecné možnosti

Schopnost Databáze SQL Fond Azure Synapse SQL Fond Azure Synapse Spark Průzkumník dat Azure HBase/Phoenix ve službě HDInsight Hive LLAP ve službě HDInsight Azure Analysis Services Azure Cosmos DB
Je spravovaná služba Ano Ano Ano Ano Ano 1 Ano 1 Ano Ano
Primární databázový model Relační (formát úložiště sloupců při použití indexů columnstore) Relační tabulky s úložištěm sloupců Široké úložiště sloupců Relační (úložiště sloupců), telemetrie a úložiště časových řad Široké úložiště sloupců Hive /In-Memory Tabulkové sémantické modely Úložiště dokumentů, graf, úložiště klíč-hodnota, široké úložiště sloupců
Podpora jazyka SQL Ano Ano Ano Ano Ano (použití ovladače Phoenix JDBC) Ano Ne Ano
Optimalizované pro rychlost obsluhující vrstvu Ano 2 Ano 3 Ano Ano Ano Ano Ne Ano

[1] S ruční konfigurací a škálováním.

[2] Použití tabulek optimalizovaných pro paměť a hodnot hash nebo neclusterovaných indexů.

[3] Podporuje se jako výstup Azure Stream Analytics.

Možnosti škálovatelnosti

Schopnost Databáze SQL Fond Azure Synapse SQL Fond Azure Synapse Spark Průzkumník dat Azure HBase/Phoenix ve službě HDInsight Hive LLAP ve službě HDInsight Azure Analysis Services Azure Cosmos DB
Redundantní regionální servery pro zajištění vysoké dostupnosti Ano No No Ano Ano Ne Ano Ano
Podporuje horizontální navýšení kapacity dotazů. Číslo Ano Ano Ano Ano Ano Ano Ano
Dynamická škálovatelnost (vertikální navýšení kapacity) Ano Ano Ano Ano No No Ano Ano
Podporuje ukládání dat do mezipaměti v paměti. Ano Ano Ano Ano Ne Ano Ano Ne

Možnosti zabezpečení

Schopnost Databáze SQL Azure Synapse Průzkumník dat Azure HBase/Phoenix ve službě HDInsight Hive LLAP ve službě HDInsight Azure Analysis Services Azure Cosmos DB
Authentication SQL / Microsoft Entra ID SQL / Microsoft Entra ID Microsoft Entra ID local / Microsoft Entra ID 1 local / Microsoft Entra ID 1 Microsoft Entra ID uživatelé databáze / Microsoft Entra ID prostřednictvím řízení přístupu (IAM)
Šifrování dat v klidovém stavu Ano 2 Ano 2 Ano Ano 1 Ano 1 Ano Ano
Zabezpečení na úrovni řádků Ano Ano 3 Ano Ano 1 Ano 1 Ano Ne
Podporuje brány firewall. Ano Ano Ano Ano 4 Ano 4 Ano Ano
Dynamické maskování dat Ano Ano Ano Ano 1 Ano No Číslo

[1] Vyžaduje použití clusteru HDInsight připojeného k doméně.

[2] Vyžaduje použití transparentního šifrování dat (TDE) k šifrování a dešifrování neaktivních uložených dat.

[3] Filtruje pouze predikáty. Zobrazit zabezpečení na úrovni řádků

[4] Při použití ve službě Azure Virtual Network. Viz Rozšíření služby Azure HDInsight pomocí služby Azure Virtual Network.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Další kroky