Azure Data Lake Storage Gen2 hierarchického oboru názvů

Klíčovým mechanismem, který Azure Data Lake Storage Gen2 umožňuje poskytovat výkon systému souborů při škálování úložiště objektů a cenách, je přidání hierarchického oboru názvů. To umožňuje uspořádat kolekci objektů nebo souborů v rámci účtu do hierarchie adresářů a vnořených podadresářů stejným způsobem, jakým je uspořádaný systém souborů v počítači. Když je povolený hierarchický obor názvů, může účet úložiště poskytovat škálovatelnost a nákladovou efektivitu úložiště objektů se sémantikou systému souborů, kterou znají analytické moduly a architektury.

Výhody hierarchického oboru názvů

Následující výhody jsou spojené se systémy souborů, které implementují hierarchický obor názvů nad daty objektů blob:

  • Manipulace s atomárními adresáři: Úložiště objektů aproximují hierarchii adresáře přijetím konvence vkládání lomítek (/) do názvu objektu k označení segmentů cest. I když tato konvence funguje pro uspořádání objektů, neposkytuje žádnou pomoc s akcemi, jako je přesunutí, přejmenování nebo odstranění adresářů. Bez skutečných adresářů musí aplikace zpracovávat potenciálně miliony jednotlivých objektů blob, aby bylo možné provádět úkoly na úrovni adresáře. Naproti tomu hierarchický obor názvů tyto úlohy zpracovává aktualizací jedné položky (nadřazeného adresáře).

    Tato dramatická optimalizace je obzvláště důležitá pro řadu architektur pro analýzu velkých objemů dat. Nástroje, jako je Hive, Spark atd. výstup se často zapisuje do dočasných umístění a na závěr úlohy umístění přejmenujte. Bez hierarchického oboru názvů může toto přejmenování často trvat déle než samotný proces analýzy. Nižší latence úlohy se rovná nižším celkovým nákladům na vlastnictví analytických úloh.

  • Známý styl rozhraní: Systémům souborů dobře rozumí vývojáři i uživatelé. Při přechodu do cloudu není potřeba se učit nové paradigma úložiště, protože rozhraní systému souborů vystavené Data Lake Storage Gen2 je stejné paradigma, které používají velké i malé počítače.

Jedním z důvodů, proč úložiště objektů historicky nepodporují hierarchický obor názvů, je, že hierarchický obor názvů omezuje škálování. Data Lake Storage Gen2 hierarchického oboru názvů se však škáluje lineárně a nesnižuje kapacitu dat ani výkon.

Rozhodnutí o povolení hierarchického oboru názvů

Po povolení hierarchického oboru názvů pro váš účet ho nemůžete vrátit zpět na plochý obor názvů. Proto zvažte, jestli má smysl povolit hierarchický obor názvů na základě povahy úloh úložiště objektů. Pokud chcete vyhodnotit dopad povolení hierarchického oboru názvů na úlohy, aplikace, náklady, integraci služeb, nástroje, funkce a dokumentaci, přečtěte si téma Upgrade Azure Blob Storage s Azure Data Lake Storage Gen2 funkcemi.

Povolením hierarchického oboru názvů nemusí některé úlohy získat žádnou výhodu. Mezi příklady patří zálohy, úložiště imagí a další aplikace, ve kterých je organizace objektů uložena odděleně od samotných objektů (například v samostatné databázi).

I když se podpora funkcí úložiště objektů blob a ekosystému služeb Azure stále rozšiřuje, stále existují některé funkce a služby Azure, které ještě nejsou podporované v účtech s hierarchickým oborem názvů. Viz Známé problémy.

Obecně doporučujeme zapnout hierarchický obor názvů pro úlohy úložiště, které jsou určené pro systémy souborů, které manipulují s adresáři. To zahrnuje všechny úlohy, které jsou primárně určené pro analytické zpracování. Datové sady, které vyžadují vysoký stupeň organizace, budou také těžit z povolení hierarchického oboru názvů.

Důvody pro povolení hierarchického oboru názvů jsou určeny analýzou celkových nákladů na vlastnictví. Obecně řečeno, zlepšení latence úloh díky zrychlení úložiště bude vyžadovat výpočetní prostředky po kratší dobu. Latenci u mnoha úloh je možné zlepšit díky manipulaci s atomickými adresáři, která je povolena hierarchickým oborem názvů. V mnoha úlohách představuje > výpočetní prostředek 85 % celkových nákladů, takže i mírné snížení latence úloh odpovídá významné úspoře celkových nákladů na vlastnictví. I v případech, kdy povolení hierarchického oboru názvů zvyšuje náklady na úložiště, jsou celkové náklady na vlastnictví stále nižší kvůli nižším nákladům na výpočetní prostředky.

Pokud chcete analyzovat rozdíly v cenách úložiště dat, transakčních cenách a cenách rezervací kapacity úložiště mezi účty, které mají plochý hierarchický obor názvů, a hierarchický obor názvů, přečtěte si informace o cenách Azure Data Lake Storage Gen2.

Další kroky