Volba technologie úložiště pro velké objemy dat v Azure

Článek
10/10/2023

Poznámka:

29. února 2024 se Azure Data Lake Storage Gen1 vyřadí z důchodu. Další informace najdete v oficiálním oznámení. Pokud používáte Azure Data Lake Storage Gen1, nezapomeňte před tímto datem migrovat do Azure Data Lake Storage Gen2. Postup najdete v tématu Migrace Azure Data Lake Storage z Gen1 na Gen2 pomocí webu Azure Portal.

Pokud ještě nemáte účet Azure Data Lake Storage Gen1, nemůžete vytvořit nové.

Toto téma porovnává možnosti úložiště dat pro řešení pro velké objemy dat – konkrétně úložiště dat pro hromadný příjem dat a dávkové zpracování, a nikoli úložiště analytických dat nebo příjem dat v reálném čase.

Jaké máte možnosti při výběru úložiště dat v Azure?

V závislosti na vašich potřebách existuje několik možností ingestování dat do Azure.

Úložiště souborů:

Databáze NoSQL:

Analytické databáze:

Azure Data Explorer

Objekty blob služby Azure Storage

Azure Storage je spravovaná služba úložiště, která je vysoce dostupná, zabezpečená, odolná, škálovatelná a redundantní. Microsoft se stará o údržbu a řeší za vás kritické problémy. Azure Storage je nejobvyklejším řešením úložiště, které Azure nabízí, protože s ním lze používat různé služby a nástroje.

K ukládání dat můžete použít různé služby Azure Storage. Nejflexibilnější možností pro ukládání objektů blob z mnoha zdrojů dat je úložiště objektů blob. Objekty blob jsou v podstatě soubory. Ukládají obrázky, dokumenty, soubory HTML, virtuální pevné disky (VHD), velké objemy dat, jako jsou protokoly, zálohy databází – prakticky cokoli. Objekty blob se ukládají v kontejnerech, které jsou obdobou složek. Kontejner poskytuje seskupení sady objektů blob. Účet úložiště může obsahovat neomezený počet kontejnerů a v každém kontejneru může být neomezený počet objektů blob.

Azure Storage je dobrou volbou pro řešení pro velké objemy dat a analýzy, protože je flexibilní, vysoká dostupnost a nízké náklady. Poskytuje horkou, studenou a archivní úroveň úložiště pro různé případy použití. Další informace najdete v tématu Azure Blob Storage: Horká, studená a archivní úroveň úložiště.

Ke službě Azure Blob Storage je možné přistupovat z Hadoopu (k dispozici prostřednictvím SLUŽBY HDInsight). HDInsight může jako výchozí systém souborů pro cluster používat kontejner objektů blob ve službě Azure Storage. Prostřednictvím rozhraní systému souborů HDFS (Hadoop Distributed File System) poskytovaného ovladačem WASB může úplná sada komponent v HDInsight pracovat přímo se strukturovanými nebo nestrukturovanými daty uloženými jako objekty blob. Ke službě Azure Blob Storage je také možné přistupovat přes Azure Synapse Analytics pomocí funkce PolyBase.

Mezi další funkce, díky kterým je Azure Storage dobrou volbou, patří:

Několik strategií souběžnosti
Možnosti zotavení po havárii a možnosti vysoké dostupnosti
Šifrování neaktivních uložených dat
Řízení přístupu na základě role v Azure (RBAC) k řízení přístupu pomocí uživatelů a skupin Microsoft Entra

Azure Data Lake Storage Gen1

Azure Data Lake Storage Gen1 je podnikové úložiště hyperškálování pro analytické úlohy pro velké objemy dat. Data Lake umožňuje zachytit data libovolné velikosti, typu a rychlosti příjmu dat v jednom zabezpečeném umístění pro provozní a průzkumnou analýzu.

Azure Data Lake Storage Gen1 neukládá žádná omezení velikostí účtů, velikostí souborů ani množství dat, která je možné uložit v datovém jezeře. Data jsou trvale uložena tak, že vytváří více kopií a doba, po kterou je možné data uložit do Data Lake, neexistuje žádný limit. Kromě vytváření více kopií souborů, které chrání před neočekávanými selháními, data lake rozloží části souboru na několik jednotlivých serverů úložiště. Tím se zvyšuje propustnost čtení při paralelním čtení souboru pro provádění analýz dat.

K Azure Data Lake Storage Gen1 je možné přistupovat z Hadoopu (dostupného prostřednictvím HDInsight) pomocí rozhraní REST API kompatibilních s WebHDFS. Tuto možnost můžete zvážit jako alternativu ke službě Azure Storage, pokud vaše jednotlivé nebo kombinované velikosti souborů překročí podporované službou Azure Storage. Při použití Azure Data Lake Storage Gen1 jako primárního úložiště pro cluster HDInsight byste ale měli postupovat podle pokynů pro ladění výkonu, a to s konkrétními pokyny pro Spark, Hive a MapReduce. Nezapomeňte také zkontrolovat regionální dostupnost Azure Data Lake Storage Gen1, protože není dostupná v tolik oblastech jako Azure Storage a musí být umístěná ve stejné oblasti jako cluster HDInsight.

V kombinaci s Azure Data Lake Analytics je Azure Data Lake Storage Gen1 navržená tak, aby umožňovala analýzu uložených dat a je vyladěná pro výkon pro scénáře analýzy dat. K Azure Data Lake Storage Gen1 je také možné přistupovat přes Azure Synapse pomocí funkce PolyBase.

Azure Cosmos DB

Azure Cosmos DB je globálně distribuovaná vícemodelová databáze Microsoftu. Azure Cosmos DB zaručuje latence v řádu milisekund s jednou číslicí na 99. percentilu kdekoli na světě, nabízí několik dobře definovaných modelů konzistence pro vyladění výkonu a zaručuje vysokou dostupnost pomocí funkcí vícenásobného navádění.

Azure Cosmos DB je nezávislá na schématu. Automaticky indexuje všechna data, aniž byste museli řešit správu schémat a indexů. Je to také vícemodelový, nativně podpůrný dokument, klíč-hodnota, graf a sloupcové datové modely.

Funkce služby Azure Cosmos DB:

Geografická replikace
Elastické škálování propustnosti a úložiště po celém světě
Pět jasně definovaných voleb konzistence

HBase v HDInsightu

Apache HBase je opensourcová databáze NoSQL založená na Hadoopu a modelovaná po Google BigTable. HBase poskytuje náhodný přístup a silnou konzistenci pro velké objemy nestrukturovaných a částečně strukturovaných dat v databázi bez schématu uspořádané podle rodin sloupců.

Data se ukládají na řádky tabulky a data v řádku jsou seskupena podle rodin sloupců. HBase je bez schématu v tom smyslu, že před použitím sloupců ani typů dat uložených v nich není nutné definovat. Kód open-source se škáluje lineárně pro manipulaci s petabajty dat na tisících uzlech. Může se spoléhat na redundanci dat, zpracování dávkou a další funkce, které jsou poskytovány pomocí distribuovaných aplikací v ekosystému Hadoop.

Implementace HDInsight využívá architekturu HBase se škálováním na více systémů k zajištění automatického horizontálního dělení tabulek, silné konzistence pro čtení a zápisy a automatické převzetí služeb při selhání. Výkon je zvýšen ukládáním do mezipaměti pro čtení a vysokou propustností datových proudů pro zápis. Ve většině případů budete chtít vytvořit cluster HBase uvnitř virtuální sítě , aby ostatní clustery a aplikace HDInsight mohly k tabulkám přistupovat přímo.

Průzkumník dat Azure

Azure Data Explorer je rychlá a vysoce škálovatelná služba pro zkoumání dat protokolů a telemetrie. Pomáhá zpracovávat množství datových proudů vygenerovaných moderním softwarem, abyste mohli shromažďovat, ukládat a analyzovat data. Azure Data Explorer je ideální pro analýzu velkých objemů různých dat z libovolného zdroje dat, jako jsou weby, aplikace, zařízení IoT a další. Tato data se používají pro diagnostiku, monitorování, vytváření sestav, strojové učení a další možnosti analýzy. Azure Data Explorer usnadňuje příjem těchto dat a umožňuje provádět složité ad hoc dotazy na data za několik sekund.

Azure Data Explorer je možné lineárně škálovat pro zvýšení propustnosti příjmu dat a zpracování dotazů. Cluster Azure Data Exploreru je možné nasadit do virtuální sítě pro povolení privátních sítí.

Klíčová kritéria výběru

Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:

Potřebujete spravované, vysokorychlostní cloudové úložiště pro libovolný typ textových nebo binárních dat? Pokud ano, vyberte jednu z možností úložiště souborů nebo analýz.
Potřebujete úložiště souborů optimalizované pro úlohy paralelní analýzy a vysokou propustnost nebo IOPS? Pokud ano, zvolte možnost, která je vyladěná na výkon analytických úloh.
Potřebujete do databáze bez schématu ukládat nestrukturovaná nebo částečně strukturovaná data? Pokud ano, vyberte jednu z nerelačních nebo analytických možností. Porovnání možností indexování a databázových modelů V závislosti na typu dat, která potřebujete uložit, můžou být primární databázové modely největším faktorem.
Můžete službu použít ve své oblasti? Zkontrolujte dostupnost jednotlivých služeb Azure v jednotlivých oblastech. Projděte si dostupné produkty v jednotlivých oblastech.

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech.

Možnosti úložiště souborů

Schopnost	Azure Data Lake Storage Gen1	Kontejnery Azure Blob Storage
Účel	Optimalizované úložiště pro úlohy analýzy velkých objemů dat	Úložiště objektů pro obecné účely pro širokou škálu scénářů úložiště
Případy použití	Dávkové, streamované analýzy a data strojového učení, jako jsou soubory protokolů, data IoT, kliknutí na streamy, velké datové sady	Jakýkoli typ textových nebo binárních dat, jako jsou back-end aplikace, zálohovaná data, úložiště médií pro streamování a data pro obecné účely
Struktura	Hierarchický systém souborů	Úložiště objektů s plochým oborem názvů
Ověřování	Na základě identit Microsoft Entra	Na základě sdílených tajných kódů Přístupové klíče účtu a klíčů sdíleného přístupového podpisu a řízení přístupu na základě role v Azure (Azure RBAC)
Ověřovací protokol	Open Authorization (OAuth) 2.0. Volání musí obsahovat platný webový token JWT (JSON) vydaný id Microsoft Entra.	Ověřovací kód zpráv založený na hodnotě hash (HMAC) Volání musí obsahovat hodnotu hash SHA-256 s kódováním Base64 nad částí požadavku HTTP.
Autorizace	Seznamy řízení přístupu (ACL) rozhraní POSIX (Portable Operating System Interface). Seznamy ACL založené na identitách Microsoft Entra lze nastavit na úrovni souborů a složek.	Pro autorizaci na úrovni účtu použijte přístupové klíče účtu. Pro účet, kontejner nebo autorizaci objektů blob použijte klíče sdíleného přístupového podpisu.
Auditování	K dispozici.	dostupný
Šifrování neaktivních uložených dat	Transparentní, serverová strana	Transparentní, serverová strana; Šifrování na straně klienta
Sady SDK pro vývojáře	.NET, Java, Python, Node.js	.NET, Java, Python, Node.js, C++, Ruby
Výkon analytických úloh	Optimalizovaný výkon pro úlohy paralelní analýzy, vysokou propustnost a IOPS	Neoptimalizuje se pro analytické úlohy
Omezení velikosti	Žádné limity velikostí účtů, velikostí souborů nebo počtu souborů	Konkrétní omezení zdokumentovaná tady
Geografická redundance	Místně redundantní (místně redundantní úložiště (LRS)), globálně redundantní (geograficky redundantní úložiště (GRS)), globálně redundantní přístup pro čtení (geograficky redundantní úložiště jen pro čtení (RA-GRS)), zónově redundantní (zónově redundantní úložiště (ZRS)).	Místně redundantní (LRS), globálně redundantní (GRS), globálně redundantní přístup pro čtení (RA-GRS), zónově redundantní (ZRS). Další informace najdete tady.

Možnosti databáze NoSQL

Schopnost	Azure Cosmos DB	HBase v HDInsightu
Primární databázový model	Úložiště dokumentů, graf, úložiště klíč-hodnota, široké úložiště sloupců	Široké úložiště sloupců
Sekundární indexy	Yes	No
Podpora jazyka SQL	Ano	Ano (použití ovladače Phoenix JDBC)
Konzistence	Silná, ohraničená zastaralost, relace, konzistentní předpona, případná	Silné
Nativní integrace Azure Functions	Ano	No
Automatická globální distribuce	Ano	Bezreplikace clusteru HBase je možné nakonfigurovat napříč oblastmi s konečnou konzistencí.
Cenový model	Elasticky škálovatelné jednotky žádostí (RU) účtované za sekundu podle potřeby, elasticky škálovatelné úložiště	Ceny za minutu pro cluster HDInsight (horizontální škálování uzlů), úložiště

Možnosti analytické databáze

Schopnost	Průzkumník dat Azure
Primární databázový model	Relační (úložiště sloupců), telemetrie a úložiště časových řad
Podpora jazyka SQL	Ano
Cenový model	Elasticky škálovatelné instance clusteru
Ověřování	Na základě identit Microsoft Entra
Šifrování neaktivních uložených dat	Podporované klíče spravované zákazníkem
Výkon analytických úloh	Optimalizovaný výkon pro úlohy paralelní analýzy
Omezení velikosti	Lineární škálovatelnost

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Zoiner Tejada | Generální ředitel a architekt

Sdílet prostřednictvím

Volba technologie úložiště pro velké objemy dat v Azure

Jaké máte možnosti při výběru úložiště dat v Azure?

Objekty blob služby Azure Storage

Azure Data Lake Storage Gen1

Azure Cosmos DB

HBase v HDInsightu

Průzkumník dat Azure

Klíčová kritéria výběru

Matice schopností

Možnosti úložiště souborů

Možnosti databáze NoSQL

Možnosti analytické databáze

Přispěvatelé

Další kroky

Váš názor

Váš názor

Další materiály

Sdílet prostřednictvím

Volba technologie úložiště pro velké objemy dat v Azure

Jaké máte možnosti při výběru úložiště dat v Azure?

Objekty blob služby Azure Storage

Azure Data Lake Storage Gen1

Azure Cosmos DB

HBase v HDInsightu

Průzkumník dat Azure

Klíčová kritéria výběru

Matice schopností

Možnosti úložiště souborů

Možnosti databáze NoSQL

Možnosti analytické databáze

Přispěvatelé

Další kroky

Související prostředky

Váš názor

Váš názor

Další materiály