Volba analytického úložiště dat v Azure

Článek
05/31/2024

V architektuře pro velké objemy dat je často potřeba analytické úložiště dat, které obsluhuje zpracovávaná data ve strukturovaném formátu, který je možné dotazovat pomocí analytických nástrojů. Úložiště analytických dat, která podporují dotazování dat horké cesty i studené cesty, se souhrnně označují jako obslužná vrstva nebo data obsluhující úložiště.

Obslužná vrstva se zabývá zpracovanými daty z horké cesty i studené cesty. V architektuře lambda je obslužná vrstva rozdělena na vrstvu pro zpracování rychlosti, která ukládá data, která byla zpracována přírůstkově, a dávkovou obslužnou vrstvu, která obsahuje dávkový výstup. Obslužná vrstva vyžaduje silnou podporu náhodných čtení s nízkou latencí. Úložiště dat pro vrstvu rychlosti by také mělo podporovat náhodné zápisy, protože dávkové načítání dat do tohoto úložiště by mělo představovat nežádoucí zpoždění. Na druhou stranu úložiště dat pro dávkovou vrstvu nemusí podporovat náhodné zápisy, ale dávkové zápisy.

Pro všechny úlohy ukládání dat neexistuje jediná nejlepší volba správy dat. Různá řešení pro správu dat jsou optimalizovaná pro různé úlohy. Většina cloudových aplikací z reálného světa a procesů velkých objemů dat má různé požadavky na úložiště dat a často používá kombinaci řešení úložiště dat.

Jaké máte možnosti při výběru analytického úložiště dat?

V závislosti na vašich potřebách existuje několik možností pro data obsluhující úložiště v Azure:

Tyto možnosti poskytují různé databázové modely, které jsou optimalizované pro různé typy úloh:

Databáze klíč/hodnota obsahují jeden serializovaný objekt pro každou hodnotu klíče. Jsou vhodné pro ukládání velkých objemů dat na místo, kde chcete získat jednu položku pro danou hodnotu klíče a nemusíte se dotazovat na základě jiných vlastností položky.
Databáze dokumentů jsou databáze klíč/hodnota, ve kterých jsou hodnoty dokumenty. Dokument v tomto kontextu je kolekce pojmenovaných polí a hodnot. Databáze obvykle ukládá data ve formátu, jako je XML, YAML, JSON nebo binary JSON (BSON), ale může používat prostý text. Databáze dokumentů se můžou dotazovat na pole, která nejsou klíči, a definovat sekundární indexy, aby se dotazování zefektivnit. Díky tomu je databáze dokumentů vhodnější pro aplikace, které potřebují načítat data na základě složitějších kritérií než hodnota klíče dokumentu. Můžete se například dotazovat na pole, jako je ID produktu, ID zákazníka nebo jméno zákazníka.
Databáze úložiště sloupců jsou úložiště dat klíč/hodnota, která ukládají každý sloupec samostatně na disku. Široká databáze úložiště sloupců je typ databáze úložiště sloupců, která ukládá rodiny sloupců, nejen jednotlivé sloupce. Například databáze sčítání lidu může mít rodinu sloupců pro jméno osoby (první, prostřední, poslední), rodinu pro adresu osoby a rodinu pro profilové informace dané osoby (datum narození, pohlaví). Databáze může ukládat každou rodinu sloupců do samostatného oddílu a přitom uchovávat všechna data pro jednu osobu související se stejným klíčem. Aplikace může číst jednu rodinu sloupců bez čtení všech dat pro entitu.
Grafové databáze ukládají informace jako kolekci objektů a relací. Grafová databáze může efektivně provádět dotazy, které procházejí sítí objektů a vztahy mezi nimi. Objekty můžou být například zaměstnanci v databázi lidských zdrojů a můžete chtít usnadnit dotazy, například "najít všechny zaměstnance, kteří přímo nebo nepřímo pracují pro Scotta".
Telemetrie a databáze časových řad jsou jen pro doplňovací kolekci objektů. Databáze telemetrie efektivně indexují data v různých úložištích sloupců a strukturách v paměti, což je optimální volbou pro ukládání a analýzu obrovského množství telemetrických dat a dat časových řad.

Klíčová kritéria výběru

Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:

Potřebujete obsluhovat úložiště, které může sloužit jako horká cesta pro vaše data? Pokud ano, zužte možnosti na ty, které jsou optimalizované pro vrstvu rychlé obsluhy.
Potřebujete podporu mpP (Massively Parallel Processing), kde se dotazy automaticky distribuují napříč několika procesy nebo uzly? Pokud ano, vyberte možnost, která podporuje horizontální navýšení kapacity dotazu.
Dáváte přednost použití relačního úložiště dat? Pokud ano, zužte možnosti na ty, které mají model relační databáze. Všimněte si však, že některá nerelační úložiště podporují syntaxi SQL pro dotazování a nástroje, jako je PolyBase, se dají použít k dotazování nerelačních úložišť dat.
Shromažďujete data časových řad? Používáte data jen pro připojení?

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech.

Obecné možnosti

Schopnost	SQL Database	Fond Azure Synapse SQL	Fond Azure Synapse Spark	Průzkumník dat Azure	HBase/Phoenix ve službě HDInsight	Hive LLAP ve službě HDInsight	Azure Analysis Services	Azure Cosmos DB
Je spravovaná služba	Ano	Ano	Ano	Yes	Ano ¹	Ano ¹	Ano	Yes
Primární databázový model	Relační (formát úložiště sloupců při použití indexů columnstore)	Relační tabulky s úložištěm sloupců	Široké úložiště sloupců	Relační (úložiště sloupců), telemetrie a úložiště časových řad	Široké úložiště sloupců	Hive /In-Memory	Tabulkové sémantické modely	Úložiště dokumentů, graf, úložiště klíč-hodnota, široké úložiště sloupců
Podpora jazyka SQL	Ano	Ano	Ano	Yes	Ano (použití ovladače Phoenix JDBC)	Yes	Ne	Ano
Optimalizované pro rychlost obsluhující vrstvu	Ano ²	Ano ³	Ano	Ano	Ano	Ano	Ne	Ano

[1] S ruční konfigurací a škálováním.

[2] Použití tabulek optimalizovaných pro paměť a hodnot hash nebo neclusterovaných indexů.

[3] Podporuje se jako výstup Azure Stream Analytics.

Možnosti škálovatelnosti

Schopnost	SQL Database	Fond Azure Synapse SQL	Fond Azure Synapse Spark	Průzkumník dat Azure	HBase/Phoenix ve službě HDInsight	Hive LLAP ve službě HDInsight	Azure Analysis Services	Azure Cosmos DB
Redundantní regionální servery pro zajištění vysoké dostupnosti	Yes	No	No	Ano	Ano	Ne	Ano	Yes
Podporuje horizontální navýšení kapacity dotazů.	No	Ano	Ano	Ano	Ano	Ano	Ano	Yes
Dynamická škálovatelnost (vertikální navýšení kapacity)	Ano	Ano	Ano	Ano	No	No	Ano	Yes
Podporuje ukládání dat do mezipaměti v paměti.	Ano	Ano	Ano	Ano	Ne	Ano	Ano	No

Možnosti zabezpečení

Schopnost	SQL Database	Azure Synapse	Průzkumník dat Azure	HBase/Phoenix ve službě HDInsight	Hive LLAP ve službě HDInsight	Azure Analysis Services	Azure Cosmos DB
Ověřování	SQL / Microsoft Entra ID	SQL / Microsoft Entra ID	Microsoft Entra ID	local / Microsoft Entra ID ¹	local / Microsoft Entra ID ¹	Microsoft Entra ID	uživatelé databáze / Microsoft Entra ID prostřednictvím řízení přístupu (správa identit a přístupu (IAM))
Šifrování dat v klidovém stavu	Ano ²	Ano ²	Ano	Ano ¹	Ano ¹	Ano	Yes
Zabezpečení na úrovni řádků	Ano	Ano ³	Ano	Ano ¹	Ano ¹	Yes	No
Podporuje brány firewall.	Ano	Ano	Yes	Ano ⁴	Ano ⁴	Ano	Yes
Dynamické maskování dat	Ano	Ano	Yes	Ano ¹	Yes	No	Ne

[1] Vyžaduje použití clusteru HDInsight připojeného k doméně.

[2] Vyžaduje použití transparentního šifrování dat k šifrování a dešifrování neaktivních uložených dat.

[3] Filtruje pouze predikáty. Zobrazit zabezpečení na úrovni řádků

[4] Při použití ve virtuální síti Azure. Další informace najdete v tématu Rozšíření služby Azure HDInsight pomocí služby Azure Virtual Network.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Zoiner Tejada | Generální ředitel a architekt

Sdílet prostřednictvím

Volba analytického úložiště dat v Azure

Jaké máte možnosti při výběru analytického úložiště dat?

Klíčová kritéria výběru

Matice schopností

Obecné možnosti

Možnosti škálovatelnosti

Možnosti zabezpečení

Přispěvatelé

Další kroky

Váš názor

Další materiály

Sdílet prostřednictvím

Volba analytického úložiště dat v Azure

Jaké máte možnosti při výběru analytického úložiště dat?

Klíčová kritéria výběru

Matice schopností

Obecné možnosti

Možnosti škálovatelnosti

Možnosti zabezpečení

Přispěvatelé

Další kroky

Související prostředky

Váš názor

Další materiály