Úvod do Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 je sada funkcí vyhrazených pro analýzu velkých objemů dat, která je založená na Azure Blob Storage.

Data Lake Storage Gen2 konverguje možnosti Azure Data Lake Storage Gen1 s Azure Blob Storage. Například Data Lake Storage Gen2 poskytuje sémantiku systému souborů, zabezpečení na úrovni souborů a škálování. Vzhledem k tomu, že tyto funkce jsou založené na úložišti objektů blob, získáte také nízkonákladové vrstvené úložiště s možnostmi vysoké dostupnosti nebo zotavení po havárii.

Navržená pro analýzu velkých objemů dat pro velké objemy dat

Data Lake Storage Gen2 vytvoří Azure Storage základ pro vytváření podnikových datových jezer v Azure. Navržený od začátku do poskytování více petabajtů informací a současně udržuje stovky gigabitů propustnosti, Data Lake Storage Gen2 umožňuje snadno spravovat obrovské objemy dat.

Základní součástí Data Lake Storage Gen2 je přidání hierarchického oboru názvů do úložiště objektů blob. Hierarchický obor názvů uspořádá objekty/soubory do hierarchie adresářů pro efektivní přístup k datům. Běžná konvence pojmenování úložiště objektů používá lomítka v názvu k napodobení hierarchické adresářové struktury. Tato struktura se stane skutečnou s Data Lake Storage Gen2. Operace, jako je přejmenování nebo odstranění adresáře, se stanou operacemi s jedním atomárním metadatem v adresáři. Není nutné vytvořit výčet a zpracovat všechny objekty, které sdílejí předponu názvu adresáře.

Data Lake Storage Gen2 staví na úložišti objektů blob a zvyšuje výkon, správu a zabezpečení následujícími způsoby:

  • Výkon je optimalizovaný, protože nemusíte kopírovat ani transformovat data jako předpoklad pro analýzu. V porovnání s plochým oborem názvů v úložišti objektů blob se hierarchický obor názvů výrazně zlepšuje výkon operací správy adresářů, což zlepšuje celkový výkon úloh.

  • Správa je jednodušší, protože soubory můžete uspořádat a manipulovat s nimi prostřednictvím adresářů a podadresářů.

  • Zabezpečení je vynucovatelné, protože můžete definovat oprávnění POSIX pro adresáře nebo jednotlivé soubory.

Data Lake Storage Gen2 je také velmi nákladově efektivní, protože je postaven na nízkonákladových Azure Blob Storage. Další funkce dále snižují celkové náklady na vlastnictví pro spouštění analýz velkých objemů dat v Azure.

Klíčové funkce Data Lake Storage Gen2

  • Kompatibilní přístup hadoop: Data Lake Storage Gen2 umožňuje spravovat a přistupovat k datům stejně jako u systému souborů HDFS (Hadoop Distributed File System). Nový ovladač ABFS (používaný pro přístup k datům) je k dispozici ve všech prostředích Apache Hadoop. Mezi tato prostředí patří Azure HDInsight,Azure Databricks a Azure Synapse Analytics.

  • Nadmnožina oprávnění POSIX: Model zabezpečení pro Data Lake Gen2 podporuje oprávnění ACL a POSIX spolu s některými dalšími podrobnostmi specifickými pro Data Lake Storage Gen2. Nastavení je možné nakonfigurovat prostřednictvím Průzkumník služby Storage nebo prostřednictvím architektur, jako je Hive a Spark.

  • Nákladově efektivní: Data Lake Storage Gen2 nabízí nízkou kapacitu úložiště a transakce. Funkce, jako je Azure Blob Storage životní cyklus, optimalizují náklady, jako jsou přechody dat v průběhu životního cyklu.

  • Optimalizovaný ovladač: Ovladač ABFS je optimalizovaný speciálně pro analýzu velkých objemů dat. Odpovídající rozhraní REST API se zobrazují prostřednictvím koncového bodu dfs.core.windows.net.

Škálovatelnost

Služba Azure Storage je škálovatelná tak, že navrhnete přístup prostřednictvím Data Lake Storage Gen2 nebo rozhraní úložiště objektů blob. Dokáže ukládat a obsluhovat mnoho exabajtů dat. Toto množství úložiště je k dispozici s propustností měřenou v gigabitech za sekundu (Gb/s) na vysokých úrovních vstupních a výstupních operací za sekundu (IOPS). Zpracování se provádí s téměř konstantní latencí požadavků měřených na úrovni služby, účtu a souborů.

Efektivita nákladů

Vzhledem k tomu, že Data Lake Storage Gen2 je postaven na Azure Blob Storage, kapacita úložiště a transakční náklady jsou nižší. Na rozdíl od jiných cloudových služeb úložiště nemusíte data před analýzou přesouvat ani transformovat. Další informace o cenách najdete v tématu Ceny služby Azure Storage.

Kromě toho funkce, jako je hierarchický obor názvů , výrazně zlepšují celkový výkon mnoha analytických úloh. Toto zlepšení výkonu znamená, že ke zpracování stejného množství dat potřebujete menší výpočetní výkon, což vede k nižším celkovým nákladům na vlastnictví (TCO) pro kompletní analytickou úlohu.

Jedna služba, několik konceptů

Vzhledem k tomu, že Data Lake Storage Gen2 je postaven na Azure Blob Storage, může několik konceptů popsat stejné sdílené věci.

Následuje ekvivalentní entity, jak je popsáno různými koncepty. Pokud není uvedeno jinak, nejsou tyto entity přímo synonymem:

Koncepce Organizace nejvyšší úrovně Organizace nižší úrovně Kontejner dat
Objekty blob – úložiště objektů pro obecné účely Kontejner Virtuální adresář (jenom sada SDK – neposkytuje atomické manipulace) Objekt blob
Azure Data Lake Storage Gen2 – Analytické úložiště Kontejner Adresář Soubor

Podporované funkce služby Blob Storage

Pro váš účet jsou k dispozici funkce služby Blob Storage, jako jsou protokolování diagnostiky, úrovně přístupu a zásady správy životního cyklu služby Blob Storage . Většina funkcí služby Blob Storage je plně podporovaná, ale některé funkce se podporují jenom na úrovni Preview nebo ještě nejsou podporované.

Pokud chcete zjistit, jak je každá funkce Blob Storage podporovaná s Data Lake Storage Gen2, podívejte se na podporu funkcí služby Blob Storage v účtech Azure Storage.

Podporované integrace služeb Azure

Data Lake Storage gen2 podporuje několik služeb Azure. Můžete je použít k ingestování dat, provádění analýz a vytváření vizuálních reprezentací. Seznam podporovaných služeb Azure najdete v tématu Služby Azure, které podporují Azure Data Lake Storage Gen2.

Podporované opensourcové platformy

Několik open source platforem podporuje Data Lake Storage Gen2. Úplný seznam najdete v tématu Opensourcové platformy, které podporují Azure Data Lake Storage Gen2.

Viz také