Volba technologie úložiště pro velké objemy dat v Azure

Poznámka:

29. února 2024 se Azure Data Lake Storage Gen1 vyřadí z důchodu. Další informace najdete v oficiálním oznámení. Pokud používáte Azure Data Lake Storage Gen1, nezapomeňte před tímto datem migrovat do Azure Data Lake Storage Gen2. Postup najdete v tématu Migrace Azure Data Lake Storage z Gen1 na Gen2 pomocí webu Azure Portal.

Pokud ještě nemáte účet Azure Data Lake Storage Gen1, nemůžete vytvořit nové.

Toto téma porovnává možnosti úložiště dat pro řešení pro velké objemy dat – konkrétně úložiště dat pro hromadný příjem dat a dávkové zpracování, a nikoli úložiště analytických dat nebo příjem dat v reálném čase.

Jaké máte možnosti při výběru úložiště dat v Azure?

V závislosti na vašich potřebách existuje několik možností ingestování dat do Azure.

Úložiště souborů:

Databáze NoSQL:

Analytické databáze:

Azure Data Explorer

Objekty blob služby Azure Storage

Azure Storage je spravovaná služba úložiště, která je vysoce dostupná, zabezpečená, odolná, škálovatelná a redundantní. Microsoft se stará o údržbu a řeší za vás kritické problémy. Azure Storage je nejobvyklejším řešením úložiště, které Azure nabízí, protože s ním lze používat různé služby a nástroje.

K ukládání dat můžete použít různé služby Azure Storage. Nejflexibilnější možností pro ukládání objektů blob z mnoha zdrojů dat je úložiště objektů blob. Objekty blob jsou v podstatě soubory. Ukládají obrázky, dokumenty, soubory HTML, virtuální pevné disky (VHD), velké objemy dat, jako jsou protokoly, zálohy databází – prakticky cokoli. Objekty blob se ukládají v kontejnerech, které jsou obdobou složek. Kontejner poskytuje seskupení sady objektů blob. Účet úložiště může obsahovat neomezený počet kontejnerů a v každém kontejneru může být neomezený počet objektů blob.

Azure Storage je dobrou volbou pro řešení pro velké objemy dat a analýzy, protože je flexibilní, vysoká dostupnost a nízké náklady. Poskytuje horkou, studenou a archivní úroveň úložiště pro různé případy použití. Další informace najdete v tématu Azure Blob Storage: Horká, studená a archivní úroveň úložiště.

Ke službě Azure Blob Storage je možné přistupovat z Hadoopu (k dispozici prostřednictvím SLUŽBY HDInsight). HDInsight může jako výchozí systém souborů pro cluster používat kontejner objektů blob ve službě Azure Storage. Prostřednictvím rozhraní systému souborů HDFS (Hadoop Distributed File System) poskytovaného ovladačem WASB může úplná sada komponent v HDInsight pracovat přímo se strukturovanými nebo nestrukturovanými daty uloženými jako objekty blob. Ke službě Azure Blob Storage je také možné přistupovat přes Azure Synapse Analytics pomocí funkce PolyBase.

Mezi další funkce, díky kterým je Azure Storage dobrou volbou, patří:

Azure Data Lake Storage Gen1

Azure Data Lake Storage Gen1 je podnikové úložiště hyperškálování pro analytické úlohy pro velké objemy dat. Data Lake umožňuje zachytit data libovolné velikosti, typu a rychlosti příjmu dat v jednom zabezpečeném umístění pro provozní a průzkumnou analýzu.

Azure Data Lake Storage Gen1 neukládá žádná omezení velikostí účtů, velikostí souborů ani množství dat, která je možné uložit v datovém jezeře. Data jsou trvale uložena tak, že vytváří více kopií a doba, po kterou je možné data uložit do Data Lake, neexistuje žádný limit. Kromě vytváření více kopií souborů, které chrání před neočekávanými selháními, data lake rozloží části souboru na několik jednotlivých serverů úložiště. Tím se zvyšuje propustnost čtení při paralelním čtení souboru pro provádění analýz dat.

K Azure Data Lake Storage Gen1 je možné přistupovat z Hadoopu (dostupného prostřednictvím HDInsight) pomocí rozhraní REST API kompatibilních s WebHDFS. Tuto možnost můžete zvážit jako alternativu ke službě Azure Storage, pokud vaše jednotlivé nebo kombinované velikosti souborů překročí podporované službou Azure Storage. Při použití Azure Data Lake Storage Gen1 jako primárního úložiště pro cluster HDInsight byste ale měli postupovat podle pokynů pro ladění výkonu, a to s konkrétními pokyny pro Spark, Hive a MapReduce. Nezapomeňte také zkontrolovat regionální dostupnost Azure Data Lake Storage Gen1, protože není dostupná v tolik oblastech jako Azure Storage a musí být umístěná ve stejné oblasti jako cluster HDInsight.

V kombinaci s Azure Data Lake Analytics je Azure Data Lake Storage Gen1 navržená tak, aby umožňovala analýzu uložených dat a je vyladěná pro výkon pro scénáře analýzy dat. K Azure Data Lake Storage Gen1 je také možné přistupovat přes Azure Synapse pomocí funkce PolyBase.

Azure Cosmos DB

Azure Cosmos DB je globálně distribuovaná vícemodelová databáze Microsoftu. Azure Cosmos DB zaručuje latence v řádu milisekund s jednou číslicí na 99. percentilu kdekoli na světě, nabízí několik dobře definovaných modelů konzistence pro vyladění výkonu a zaručuje vysokou dostupnost pomocí funkcí vícenásobného navádění.

Azure Cosmos DB je nezávislá na schématu. Automaticky indexuje všechna data, aniž byste museli řešit správu schémat a indexů. Je to také vícemodelový, nativně podpůrný dokument, klíč-hodnota, graf a sloupcové datové modely.

Funkce služby Azure Cosmos DB:

HBase v HDInsightu

Apache HBase je opensourcová databáze NoSQL založená na Hadoopu a modelovaná po Google BigTable. HBase poskytuje náhodný přístup a silnou konzistenci pro velké objemy nestrukturovaných a částečně strukturovaných dat v databázi bez schématu uspořádané podle rodin sloupců.

Data se ukládají na řádky tabulky a data v řádku jsou seskupena podle rodin sloupců. HBase je bez schématu v tom smyslu, že před použitím sloupců ani typů dat uložených v nich není nutné definovat. Kód open-source se škáluje lineárně pro manipulaci s petabajty dat na tisících uzlech. Může se spoléhat na redundanci dat, zpracování dávkou a další funkce, které jsou poskytovány pomocí distribuovaných aplikací v ekosystému Hadoop.

Implementace HDInsight využívá architekturu HBase se škálováním na více systémů k zajištění automatického horizontálního dělení tabulek, silné konzistence pro čtení a zápisy a automatické převzetí služeb při selhání. Výkon je zvýšen ukládáním do mezipaměti pro čtení a vysokou propustností datových proudů pro zápis. Ve většině případů budete chtít vytvořit cluster HBase uvnitř virtuální sítě , aby ostatní clustery a aplikace HDInsight mohly k tabulkám přistupovat přímo.

Průzkumník dat Azure

Azure Data Explorer je rychlá a vysoce škálovatelná služba pro zkoumání dat protokolů a telemetrie. Pomáhá zpracovávat množství datových proudů vygenerovaných moderním softwarem, abyste mohli shromažďovat, ukládat a analyzovat data. Azure Data Explorer je ideální pro analýzu velkých objemů různých dat z libovolného zdroje dat, jako jsou weby, aplikace, zařízení IoT a další. Tato data se používají pro diagnostiku, monitorování, vytváření sestav, strojové učení a další možnosti analýzy. Azure Data Explorer usnadňuje příjem těchto dat a umožňuje provádět složité ad hoc dotazy na data za několik sekund.

Azure Data Explorer je možné lineárně škálovat pro zvýšení propustnosti příjmu dat a zpracování dotazů. Cluster Azure Data Exploreru je možné nasadit do virtuální sítě pro povolení privátních sítí.

Klíčová kritéria výběru

Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:

  • Potřebujete spravované, vysokorychlostní cloudové úložiště pro libovolný typ textových nebo binárních dat? Pokud ano, vyberte jednu z možností úložiště souborů nebo analýz.

  • Potřebujete úložiště souborů optimalizované pro úlohy paralelní analýzy a vysokou propustnost nebo IOPS? Pokud ano, zvolte možnost, která je vyladěná na výkon analytických úloh.

  • Potřebujete do databáze bez schématu ukládat nestrukturovaná nebo částečně strukturovaná data? Pokud ano, vyberte jednu z nerelačních nebo analytických možností. Porovnání možností indexování a databázových modelů V závislosti na typu dat, která potřebujete uložit, můžou být primární databázové modely největším faktorem.

  • Můžete službu použít ve své oblasti? Zkontrolujte dostupnost jednotlivých služeb Azure v jednotlivých oblastech. Projděte si dostupné produkty v jednotlivých oblastech.

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech.

Možnosti úložiště souborů

Schopnost Azure Data Lake Storage Gen1 Kontejnery Azure Blob Storage
Účel Optimalizované úložiště pro úlohy analýzy velkých objemů dat Úložiště objektů pro obecné účely pro širokou škálu scénářů úložiště
Případy použití Dávkové, streamované analýzy a data strojového učení, jako jsou soubory protokolů, data IoT, kliknutí na streamy, velké datové sady Jakýkoli typ textových nebo binárních dat, jako jsou back-end aplikace, zálohovaná data, úložiště médií pro streamování a data pro obecné účely
Struktura Hierarchický systém souborů Úložiště objektů s plochým oborem názvů
Ověřování Na základě identit Microsoft Entra Na základě sdílených tajných kódů Přístupové klíče účtu a klíčů sdíleného přístupového podpisu a řízení přístupu na základě role v Azure (Azure RBAC)
Ověřovací protokol OAuth 2.0. Volání musí obsahovat platný webový token JWT (JSON) vydaný id Microsoft Entra. Ověřovací kód zpráv založený na hodnotě hash (HMAC) Volání musí obsahovat hodnotu hash SHA-256 s kódováním Base64 nad částí požadavku HTTP.
Autorizace Seznamy řízení přístupu (ACL) POSIX Seznamy ACL založené na identitách Microsoft Entra lze nastavit na úrovni souborů a složek. Pro autorizaci na úrovni účtu použijte přístupové klíče účtu. Pro účet, kontejner nebo autorizaci objektů blob použijte klíče sdíleného přístupového podpisu.
Auditování K dispozici. dostupný
Šifrování neaktivních uložených dat Transparentní, serverová strana Transparentní, serverová strana; Šifrování na straně klienta
Sady SDK pro vývojáře .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Výkon analytických úloh Optimalizovaný výkon pro úlohy paralelní analýzy, vysokou propustnost a IOPS Neoptimalizuje se pro analytické úlohy
Omezení velikosti Žádné limity velikostí účtů, velikostí souborů nebo počtu souborů Konkrétní omezení zdokumentovaná tady
Geografická redundance Místně redundantní (LRS), globálně redundantní (GRS), globálně redundantní přístup pro čtení (RA-GRS), zónově redundantní (ZRS). Místně redundantní (LRS), globálně redundantní (GRS), globálně redundantní přístup pro čtení (RA-GRS), zónově redundantní (ZRS). Další informace najdete tady.

Možnosti databáze NoSQL

Schopnost Azure Cosmos DB HBase v HDInsightu
Primární databázový model Úložiště dokumentů, graf, úložiště klíč-hodnota, široké úložiště sloupců Široké úložiště sloupců
Sekundární indexy Yes No
Podpora jazyka SQL Ano Ano (použití ovladače Phoenix JDBC)
Konzistence Silná, ohraničená zastaralost, relace, konzistentní předpona, případná Silné
Nativní integrace Azure Functions Ano No
Automatická globální distribuce Ano Bezreplikace clusteru HBase je možné nakonfigurovat napříč oblastmi s konečnou konzistencí.
Cenový model Elasticky škálovatelné jednotky žádostí (RU) účtované za sekundu podle potřeby, elasticky škálovatelné úložiště Ceny za minutu pro cluster HDInsight (horizontální škálování uzlů), úložiště

Možnosti analytické databáze

Schopnost Průzkumník dat Azure
Primární databázový model Relační (úložiště sloupců), telemetrie a úložiště časových řad
Podpora jazyka SQL Ano
Cenový model Elasticky škálovatelné instance clusteru
Ověřování Na základě identit Microsoft Entra
Šifrování neaktivních uložených dat Podporované klíče spravované zákazníkem
Výkon analytických úloh Optimalizovaný výkon pro úlohy paralelní analýzy
Omezení velikosti Lineární škálovatelnost

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Další kroky