Úvod do Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 je sada funkcí vyhrazených pro analýzu velkých objemů dat, která je postavená na Azure Blob Storage.

Data Lake Storage Gen2 konverguje možnosti Azure Data Lake Storage Gen1 s Azure Blob Storage. Například Data Lake Storage Gen2 poskytuje sémantiku systému souborů, zabezpečení na úrovni souborů a škálování. Vzhledem k tomu, že jsou tyto možnosti postavené na úložišti objektů blob, získáte také nízkonákladové vrstvené úložiště s možnostmi vysoké dostupnosti nebo zotavení po havárii.

Data Lake Storage Gen2 tvoří Azure Storage základ pro vytváření podnikových datových jezer v Azure. Navržený od počátku tak, aby obsluhovat několik petabajtů informací při zachování stovky gigabitů propustnosti, Data Lake Storage Gen2 umožňuje snadnou správu obrovských objemů dat.

Co je Data Lake?

Datové jezero je jediné centralizované úložiště, ve kterém můžete ukládat všechna data strukturovaná i nestrukturovaná. Datové jezero umožňuje vaší organizaci rychle a snadněji ukládat, přistupovat k široké škále dat a analyzovat je na jednom místě. V případě datového jezera nemusíte data přizpůsobovat stávající struktuře. Místo toho můžete data ukládat v nezpracovaných nebo nativních formátech, obvykle jako soubory nebo jako binární velké objekty (objekty blob).

Azure Data Lake Storage je cloudové podnikové řešení Data Lake. Je navržený tak, aby ukládal obrovské objemy dat v libovolném formátu a usnadnil analytické úlohy s velkými objemy dat. Používá se k zaznamenávání dat libovolného typu a rychlosti příjmu dat v jednom umístění pro snadný přístup a analýzu pomocí různých architektur.

Data Lake Storage Gen2

Azure Data Lake Storage Gen2 odkazuje na aktuální implementaci řešení Data Lake Storage Azure. Předchozí implementace Azure Data Lake Storage Gen1 bude vyřazena 29. února 2024.

Na rozdíl od Data Lake Storage Gen1 není Data Lake Storage Gen2 typu vyhrazené služby nebo účtu. Místo toho se implementuje jako sada funkcí, které používáte se službou Blob Storage vašeho účtu Azure Storage. Tyto možnosti můžete odemknout povolením nastavení hierarchického oboru názvů.

Data Lake Storage Gen2 zahrnuje následující funkce.

– Přístup kompatibilní se systémem Hadoop

– Hierarchická adresářová struktura

– Optimalizované náklady a výkon

– Jemně odstupňovaný model zabezpečení

– Masivní škálovatelnost

Přístup kompatibilní s Hadoopem

Azure Data Lake Storage Gen2 je primárně navržená tak, aby fungovala se systémem Hadoop a všemi architekturami, které jako vrstvu přístupu k datům používají hdfs (Apache Hadoop Distributed File System). Distribuce Hadoopu zahrnují ovladač AbFS (Azure Blob File System), který mnoha aplikacím a architekturám umožňuje přímý přístup k datům Azure Blob Storage. Ovladač ABFS je optimalizovaný speciálně pro analýzu velkých objemů dat. Odpovídající rozhraní REST API se zobrazují prostřednictvím koncového bodu dfs.core.windows.net.

Architektury pro analýzu dat, které jako vrstvu přístupu k datům používají HDFS, mají přímý přístup k datům Azure Data Lake Storage Gen2 prostřednictvím ABFS. Příkladem takových architektur jsou analytický modul Apache Spark a dotazovací modul Presto SQL.

Další informace o podporovaných službách a platformách najdete v tématu Služby Azure, které podporují Azure Data Lake Storage Gen2 a open source platformy, které podporují Azure Data Lake Storage Gen2.

Hierarchická adresářová struktura

Hierarchický obor názvů je klíčovou funkcí, která Azure Data Lake Storage Gen2 umožňuje poskytovat vysoce výkonný přístup k datům za cenu a škálování úložiště objektů. Pomocí této funkce můžete uspořádat všechny objekty a soubory v rámci účtu úložiště do hierarchie adresářů a vnořených podadresářů. Jinými slovy, vaše Azure Data Lake Storage Gen2 data jsou uspořádaná podobně jako soubory v počítači.

Operace, jako je přejmenování nebo odstranění adresáře, se stanou jedinými operacemi atomických metadat v adresáři. Není nutné vytvářet výčet a zpracovávat všechny objekty, které sdílejí předponu názvu adresáře.

Optimalizované náklady a výkon

Azure Data Lake Storage Gen2 se cena Azure Blob Storage úrovni. Staví na Azure Blob Storage funkcích, jako je automatizovaná správa zásad životního cyklu a vrstvení na úrovni objektů pro správu nákladů na úložiště velkých objemů dat.

Výkon je optimalizovaný, protože nemusíte kopírovat ani transformovat data jako předpoklad pro analýzu. Funkce hierarchického oboru názvů Azure Data Lake Storage umožňuje efektivní přístup a navigaci. Tato architektura znamená, že zpracování dat vyžaduje méně výpočetních prostředků, což snižuje rychlost i náklady na přístup k datům.

Model jemně odstupňovaného zabezpečení

Model řízení přístupu Azure Data Lake Storage Gen2 podporuje jak řízení přístupu na základě role v Azure (Azure RBAC), tak seznamy řízení přístupu (ACL) rozhraní POSIX (Portable Operating System Interface for UNIX). Existuje také několik dalších nastavení zabezpečení, která jsou specifická pro Azure Data Lake Storage Gen2. Oprávnění můžete nastavit buď na úrovni adresáře, nebo na úrovni souboru. Všechna uložená data se šifrují v klidovém stavu pomocí šifrovacích klíčů spravovaných Microsoftem nebo spravovaných zákazníkem.

Masivní škálovatelnost

Azure Data Lake Storage Gen2 nabízí obrovské úložiště a pro analýzu přijímá mnoho datových typů. Neukládá žádná omezení velikosti účtů, velikostí souborů ani objemu dat, která se dají uložit v datovém jezeře. Jednotlivé soubory můžou mít velikost od několika kilobajtů (kB) až po několik petabajtů (KB). Zpracování se provádí s téměř konstantní latencí jednotlivých požadavků, které se měří na úrovni služby, účtu a souboru.

Tento návrh znamená, že Azure Data Lake Storage Gen2 lze snadno a rychle škálovat tak, aby vyhovovaly nejnáročnějším úlohám. Může také snadno vertikálně snížit kapacitu při poklesu poptávky.

Postaveno na Azure Blob Storage

Data, která ingestujete, se uchovávají jako objekty blob v účtu úložiště. Služba, která spravuje objekty blob, je služba Azure Blob Storage. Data Lake Storage Gen2 popisuje možnosti nebo "vylepšení" této služby, která splňuje požadavky analytických úloh s velkými objemy dat.

Vzhledem k tomu, že tyto funkce jsou založené na službě Blob Storage, jsou pro váš účet dostupné funkce, jako je protokolování diagnostiky, úrovně přístupu a zásady správy životního cyklu. Většina funkcí blob storage je plně podporovaná, ale některé funkce můžou být podporované jenom na úrovni Preview a několik z nich ještě podporované není. Úplný seznam prohlášení o podpoře najdete v tématu Podpora funkcí Blob Storage v účtech Azure Storage. Stav jednotlivých uvedených funkcí se bude v průběhu času měnit s tím, jak se podpora bude dál rozšiřovat.

Dokumentace a terminologie

Obsah Azure Blob Storage obsahuje dvě části obsahu. Část Data Lake Storage Gen2 obsahu obsahuje osvědčené postupy a pokyny pro používání Data Lake Storage Gen2 funkcí. Část obsahu Blob Storage obsahuje pokyny pro funkce účtu, které nejsou specifické pro Data Lake Storage Gen2.

Při přecházení mezi oddíly si můžete všimnout drobných rozdílů v terminologii. Například obsah, který je součástí dokumentace ke službě Blob Storage, bude místo souboru používat termín blob. Technicky vzato se soubory, které ingestujete do účtu úložiště, stanou objekty blob ve vašem účtu. Proto je tento termín správný. Pokud jste ale na soubortermínů zvyklí, může to být matoucí. Zobrazí se také termín kontejner , který se používá k označení systému souborů. Považujte tyto termíny za synonymní.

Viz také