Volba technologie úložiště pro velké objemy dat v Azure
Poznámka:
29. února 2024 se Azure Data Lake Storage Gen1 vyřadí z důchodu. Další informace najdete v oficiálním oznámení. Pokud používáte Azure Data Lake Storage Gen1, nezapomeňte před tímto datem migrovat do Azure Data Lake Storage Gen2. Postup najdete v tématu Migrace Azure Data Lake Storage z Gen1 na Gen2 pomocí webu Azure Portal.
Pokud ještě nemáte účet Azure Data Lake Storage Gen1, nemůžete vytvořit nové.
Toto téma porovnává možnosti úložiště dat pro řešení pro velké objemy dat – konkrétně úložiště dat pro hromadný příjem dat a dávkové zpracování, a nikoli úložiště analytických dat nebo příjem dat v reálném čase.
Jaké máte možnosti při výběru úložiště dat v Azure?
V závislosti na vašich potřebách existuje několik možností ingestování dat do Azure.
Úložiště souborů:
Databáze NoSQL:
Analytické databáze:
Objekty blob služby Azure Storage
Azure Storage je spravovaná služba úložiště, která je vysoce dostupná, zabezpečená, odolná, škálovatelná a redundantní. Microsoft se stará o údržbu a řeší za vás kritické problémy. Azure Storage je nejobvyklejším řešením úložiště, které Azure nabízí, protože s ním lze používat různé služby a nástroje.
K ukládání dat můžete použít různé služby Azure Storage. Nejflexibilnější možností pro ukládání objektů blob z mnoha zdrojů dat je úložiště objektů blob. Objekty blob jsou v podstatě soubory. Ukládají obrázky, dokumenty, soubory HTML, virtuální pevné disky (VHD), velké objemy dat, jako jsou protokoly, zálohy databází – prakticky cokoli. Objekty blob se ukládají v kontejnerech, které jsou obdobou složek. Kontejner poskytuje seskupení sady objektů blob. Účet úložiště může obsahovat neomezený počet kontejnerů a v každém kontejneru může být neomezený počet objektů blob.
Azure Storage je dobrou volbou pro řešení pro velké objemy dat a analýzy, protože je flexibilní, vysoká dostupnost a nízké náklady. Poskytuje horkou, studenou a archivní úroveň úložiště pro různé případy použití. Další informace najdete v tématu Azure Blob Storage: Horká, studená a archivní úroveň úložiště.
Ke službě Azure Blob Storage je možné přistupovat z Hadoopu (k dispozici prostřednictvím SLUŽBY HDInsight). HDInsight může jako výchozí systém souborů pro cluster používat kontejner objektů blob ve službě Azure Storage. Prostřednictvím rozhraní systému souborů HDFS (Hadoop Distributed File System) poskytovaného ovladačem WASB může úplná sada komponent v HDInsight pracovat přímo se strukturovanými nebo nestrukturovanými daty uloženými jako objekty blob. Ke službě Azure Blob Storage je také možné přistupovat přes Azure Synapse Analytics pomocí funkce PolyBase.
Mezi další funkce, díky kterým je Azure Storage dobrou volbou, patří:
- Několik strategií souběžnosti
- Možnosti zotavení po havárii a možnosti vysoké dostupnosti
- Šifrování neaktivních uložených dat
- Řízení přístupu na základě role v Azure (RBAC) k řízení přístupu pomocí uživatelů a skupin Microsoft Entra
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen1 je podnikové úložiště hyperškálování pro analytické úlohy pro velké objemy dat. Data Lake umožňuje zachytit data libovolné velikosti, typu a rychlosti příjmu dat v jednom zabezpečeném umístění pro provozní a průzkumnou analýzu.
Azure Data Lake Storage Gen1 neukládá žádná omezení velikostí účtů, velikostí souborů ani množství dat, která je možné uložit v datovém jezeře. Data jsou trvale uložena tak, že vytváří více kopií a doba, po kterou je možné data uložit do Data Lake, neexistuje žádný limit. Kromě vytváření více kopií souborů, které chrání před neočekávanými selháními, data lake rozloží části souboru na několik jednotlivých serverů úložiště. Tím se zvyšuje propustnost čtení při paralelním čtení souboru pro provádění analýz dat.
K Azure Data Lake Storage Gen1 je možné přistupovat z Hadoopu (dostupného prostřednictvím HDInsight) pomocí rozhraní REST API kompatibilních s WebHDFS. Tuto možnost můžete zvážit jako alternativu ke službě Azure Storage, pokud vaše jednotlivé nebo kombinované velikosti souborů překročí podporované službou Azure Storage. Při použití Azure Data Lake Storage Gen1 jako primárního úložiště pro cluster HDInsight byste ale měli postupovat podle pokynů pro ladění výkonu, a to s konkrétními pokyny pro Spark, Hive a MapReduce. Nezapomeňte také zkontrolovat regionální dostupnost Azure Data Lake Storage Gen1, protože není dostupná v tolik oblastech jako Azure Storage a musí být umístěná ve stejné oblasti jako cluster HDInsight.
V kombinaci s Azure Data Lake Analytics je Azure Data Lake Storage Gen1 navržená tak, aby umožňovala analýzu uložených dat a je vyladěná pro výkon pro scénáře analýzy dat. K Azure Data Lake Storage Gen1 je také možné přistupovat přes Azure Synapse pomocí funkce PolyBase.
Azure Cosmos DB
Azure Cosmos DB je globálně distribuovaná vícemodelová databáze Microsoftu. Azure Cosmos DB zaručuje latence v řádu milisekund s jednou číslicí na 99. percentilu kdekoli na světě, nabízí několik dobře definovaných modelů konzistence pro vyladění výkonu a zaručuje vysokou dostupnost pomocí funkcí vícenásobného navádění.
Azure Cosmos DB je nezávislá na schématu. Automaticky indexuje všechna data, aniž byste museli řešit správu schémat a indexů. Je to také vícemodelový, nativně podpůrný dokument, klíč-hodnota, graf a sloupcové datové modely.
Funkce služby Azure Cosmos DB:
- Geografická replikace
- Elastické škálování propustnosti a úložiště po celém světě
- Pět jasně definovaných voleb konzistence
HBase v HDInsightu
Apache HBase je opensourcová databáze NoSQL založená na Hadoopu a modelovaná po Google BigTable. HBase poskytuje náhodný přístup a silnou konzistenci pro velké objemy nestrukturovaných a částečně strukturovaných dat v databázi bez schématu uspořádané podle rodin sloupců.
Data se ukládají na řádky tabulky a data v řádku jsou seskupena podle rodin sloupců. HBase je bez schématu v tom smyslu, že před použitím sloupců ani typů dat uložených v nich není nutné definovat. Kód open-source se škáluje lineárně pro manipulaci s petabajty dat na tisících uzlech. Může se spoléhat na redundanci dat, zpracování dávkou a další funkce, které jsou poskytovány pomocí distribuovaných aplikací v ekosystému Hadoop.
Implementace HDInsight využívá architekturu HBase se škálováním na více systémů k zajištění automatického horizontálního dělení tabulek, silné konzistence pro čtení a zápisy a automatické převzetí služeb při selhání. Výkon je zvýšen ukládáním do mezipaměti pro čtení a vysokou propustností datových proudů pro zápis. Ve většině případů budete chtít vytvořit cluster HBase uvnitř virtuální sítě , aby ostatní clustery a aplikace HDInsight mohly k tabulkám přistupovat přímo.
Průzkumník dat Azure
Azure Data Explorer je rychlá a vysoce škálovatelná služba pro zkoumání dat protokolů a telemetrie. Pomáhá zpracovávat množství datových proudů vygenerovaných moderním softwarem, abyste mohli shromažďovat, ukládat a analyzovat data. Azure Data Explorer je ideální pro analýzu velkých objemů různých dat z libovolného zdroje dat, jako jsou weby, aplikace, zařízení IoT a další. Tato data se používají pro diagnostiku, monitorování, vytváření sestav, strojové učení a další možnosti analýzy. Azure Data Explorer usnadňuje příjem těchto dat a umožňuje provádět složité ad hoc dotazy na data za několik sekund.
Azure Data Explorer je možné lineárně škálovat pro zvýšení propustnosti příjmu dat a zpracování dotazů. Cluster Azure Data Exploreru je možné nasadit do virtuální sítě pro povolení privátních sítí.
Klíčová kritéria výběru
Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:
Potřebujete spravované, vysokorychlostní cloudové úložiště pro libovolný typ textových nebo binárních dat? Pokud ano, vyberte jednu z možností úložiště souborů nebo analýz.
Potřebujete úložiště souborů optimalizované pro úlohy paralelní analýzy a vysokou propustnost nebo IOPS? Pokud ano, zvolte možnost, která je vyladěná na výkon analytických úloh.
Potřebujete do databáze bez schématu ukládat nestrukturovaná nebo částečně strukturovaná data? Pokud ano, vyberte jednu z nerelačních nebo analytických možností. Porovnání možností indexování a databázových modelů V závislosti na typu dat, která potřebujete uložit, můžou být primární databázové modely největším faktorem.
Můžete službu použít ve své oblasti? Zkontrolujte dostupnost jednotlivých služeb Azure v jednotlivých oblastech. Projděte si dostupné produkty v jednotlivých oblastech.
Matice schopností
Následující tabulky shrnují klíčové rozdíly v možnostech.
Možnosti úložiště souborů
Schopnost | Azure Data Lake Storage Gen1 | Kontejnery Azure Blob Storage |
---|---|---|
Účel | Optimalizované úložiště pro úlohy analýzy velkých objemů dat | Úložiště objektů pro obecné účely pro širokou škálu scénářů úložiště |
Případy použití | Dávkové, streamované analýzy a data strojového učení, jako jsou soubory protokolů, data IoT, kliknutí na streamy, velké datové sady | Jakýkoli typ textových nebo binárních dat, jako jsou back-end aplikace, zálohovaná data, úložiště médií pro streamování a data pro obecné účely |
Struktura | Hierarchický systém souborů | Úložiště objektů s plochým oborem názvů |
Ověřování | Na základě identit Microsoft Entra | Na základě sdílených tajných kódů Přístupové klíče účtu a klíčů sdíleného přístupového podpisu a řízení přístupu na základě role v Azure (Azure RBAC) |
Ověřovací protokol | Open Authorization (OAuth) 2.0. Volání musí obsahovat platný webový token JWT (JSON) vydaný id Microsoft Entra. | Ověřovací kód zpráv založený na hodnotě hash (HMAC) Volání musí obsahovat hodnotu hash SHA-256 s kódováním Base64 nad částí požadavku HTTP. |
Autorizace | Seznamy řízení přístupu (ACL) rozhraní POSIX (Portable Operating System Interface). Seznamy ACL založené na identitách Microsoft Entra lze nastavit na úrovni souborů a složek. | Pro autorizaci na úrovni účtu použijte přístupové klíče účtu. Pro účet, kontejner nebo autorizaci objektů blob použijte klíče sdíleného přístupového podpisu. |
Auditování | K dispozici. | dostupný |
Šifrování neaktivních uložených dat | Transparentní, serverová strana | Transparentní, serverová strana; Šifrování na straně klienta |
Sady SDK pro vývojáře | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
Výkon analytických úloh | Optimalizovaný výkon pro úlohy paralelní analýzy, vysokou propustnost a IOPS | Neoptimalizuje se pro analytické úlohy |
Omezení velikosti | Žádné limity velikostí účtů, velikostí souborů nebo počtu souborů | Konkrétní omezení zdokumentovaná tady |
Geografická redundance | Místně redundantní (místně redundantní úložiště (LRS)), globálně redundantní (geograficky redundantní úložiště (GRS)), globálně redundantní přístup pro čtení (geograficky redundantní úložiště jen pro čtení (RA-GRS)), zónově redundantní (zónově redundantní úložiště (ZRS)). | Místně redundantní (LRS), globálně redundantní (GRS), globálně redundantní přístup pro čtení (RA-GRS), zónově redundantní (ZRS). Další informace najdete tady. |
Možnosti databáze NoSQL
Schopnost | Azure Cosmos DB | HBase v HDInsightu |
---|---|---|
Primární databázový model | Úložiště dokumentů, graf, úložiště klíč-hodnota, široké úložiště sloupců | Široké úložiště sloupců |
Sekundární indexy | Yes | No |
Podpora jazyka SQL | Ano | Ano (použití ovladače Phoenix JDBC) |
Konzistence | Silná, ohraničená zastaralost, relace, konzistentní předpona, případná | Silné |
Nativní integrace Azure Functions | Ano | No |
Automatická globální distribuce | Ano | Bezreplikace clusteru HBase je možné nakonfigurovat napříč oblastmi s konečnou konzistencí. |
Cenový model | Elasticky škálovatelné jednotky žádostí (RU) účtované za sekundu podle potřeby, elasticky škálovatelné úložiště | Ceny za minutu pro cluster HDInsight (horizontální škálování uzlů), úložiště |
Možnosti analytické databáze
Schopnost | Průzkumník dat Azure |
---|---|
Primární databázový model | Relační (úložiště sloupců), telemetrie a úložiště časových řad |
Podpora jazyka SQL | Ano |
Cenový model | Elasticky škálovatelné instance clusteru |
Ověřování | Na základě identit Microsoft Entra |
Šifrování neaktivních uložených dat | Podporované klíče spravované zákazníkem |
Výkon analytických úloh | Optimalizovaný výkon pro úlohy paralelní analýzy |
Omezení velikosti | Lineární škálovatelnost |
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Zoiner Tejada | Generální ředitel a architekt
Další kroky
- Řešení a služby cloudového úložiště Azure
- Kontrola možností úložiště
- Seznámení se službou Azure Storage
- Úvod do Azure Data Exploreru
Související prostředky
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro