Dela via


Hierarkiskt namnområde för Azure Data Lake Storage

En viktig mekanism som gör det möjligt för Azure Data Lake Storage att tillhandahålla filsystemprestanda i objektlagringsskala och priser är tillägget av ett hierarkiskt namnområde. På så sätt kan samlingen av objekt/filer i ett konto ordnas i en hierarki med kataloger och kapslade underkataloger på samma sätt som filsystemet på datorn ordnas. Med ett hierarkiskt namnområde aktiverat kan ett lagringskonto tillhandahålla skalbarhet och kostnadseffektivitet för objektlagring, med filsystemssemantik som är bekanta med analysmotorer och ramverk.

Fördelarna med ett hierarkiskt namnområde

Följande fördelar är associerade med filsystem som implementerar ett hierarkiskt namnområde över blobdata:

  • Atomisk katalogmanipulering: Objektet lagrar ungefärlig en kataloghierarki genom att anta en konvention om inbäddning av snedstreck (/) i objektnamnet för att ange sökvägssegment. Den här konventionen fungerar för att organisera objekt, men konventionen ger ingen hjälp för åtgärder som att flytta, byta namn på eller ta bort kataloger. Utan verkliga kataloger måste program bearbeta potentiellt miljontals enskilda blobar för att uppnå uppgifter på katalognivå. Däremot bearbetar ett hierarkiskt namnområde dessa uppgifter genom att uppdatera en enda post (den överordnade katalogen).

    Den här dramatiska optimeringen är särskilt viktig för många ramverk för stordataanalys. Verktyg som Hive, Spark osv. skriver ofta utdata till tillfälliga platser och byter sedan namn på platsen när jobbet avslutas. Utan ett hierarkiskt namnområde kan det här namnet ofta ta längre tid än själva analysprocessen. Kortare svarstid för jobb är lika med lägre total ägandekostnad (TCO) för analysarbetsbelastningar.

  • Välbekant gränssnittsformat: Filsystem är väl förstådda av både utvecklare och användare. Du behöver inte lära dig ett nytt lagringsparadigm när du flyttar till molnet eftersom filsystemgränssnittet som exponeras av Data Lake Storage är samma paradigm som används av datorer, stora som små.

En av anledningarna till att objektlager inte tidigare har stöd för ett hierarkiskt namnområde är att en hierarkisk namnrymdsgräns skalas. Data Lake Storage-hierarkiska namnområdet skalas dock linjärt och försämrar inte datakapaciteten eller prestandan.

Bestämma om ett hierarkiskt namnområde ska aktiveras

När du har aktiverat ett hierarkiskt namnområde för ditt konto kan du inte återställa det till ett platt namnområde. Därför bör du överväga om det är lämpligt att aktivera ett hierarkiskt namnområde baserat på typen av objektlagringsarbetsbelastningar. Information om hur du aktiverar ett hierarkiskt namnområde för arbetsbelastningar, program, kostnader, tjänstintegreringar, verktyg, funktioner och dokumentation finns i Uppgradera Azure Blob Storage med Azure Data Lake Storage-funktioner.

Vissa arbetsbelastningar kanske inte får någon fördel genom att aktivera ett hierarkiskt namnområde. Exempel är säkerhetskopior, avbildningslagring och andra program där objektorganisationen lagras separat från själva objekten (till exempel i en separat databas).

Även om stödet för Blob Storage-funktioner och Azure-tjänstekosystemet fortsätter att växa, finns det fortfarande vissa funktioner och Azure-tjänster som ännu inte stöds i konton som har ett hierarkiskt namnområde. Se Kända problem.

I allmänhet rekommenderar vi att du aktiverar ett hierarkiskt namnområde för lagringsarbetsbelastningar som är utformade för filsystem som manipulerar kataloger. Detta omfattar alla arbetsbelastningar som främst är till för analysbearbetning. Datauppsättningar som kräver en hög grad av organisation kommer också att ha nytta av att aktivera ett hierarkiskt namnområde.

Orsakerna till att aktivera ett hierarkiskt namnområde bestäms av en TCO-analys. Generellt sett kräver förbättringar av arbetsbelastningens svarstid på grund av lagringsacceleration beräkningsresurser under kortare tid. Svarstiden för många arbetsbelastningar kan förbättras på grund av atomisk katalogmanipulering som aktiveras av ett hierarkiskt namnområde. I många arbetsbelastningar representerar > beräkningsresursen 85 % av den totala kostnaden, så även en blygsam minskning av arbetsbelastningsfördröjningen motsvarar en betydande mängd TCO-besparingar. Även om aktiveringen av ett hierarkiskt namnområde ökar lagringskostnaderna sänks TCO fortfarande på grund av minskade beräkningskostnader.

Information om hur du analyserar skillnader i datalagringspriser, transaktionspriser och prissättning för lagringskapacitetsreservationer mellan konton som har ett platt hierarkiskt namnområde jämfört med ett hierarkiskt namnområde finns i Priser för Azure Data Lake Storage.

Nästa steg