Introduktion till Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 är en uppsättning funktioner som är dedikerade till stordataanalys som bygger på Azure Blob Storage.

Data Lake Storage Gen2 konvergerar funktionerna i Azure Data Lake Storage Gen1 med Azure Blob Storage. Till exempel tillhandahåller Data Lake Storage Gen2 filsystemssemantik, säkerhet på filnivå och skalning. Eftersom dessa funktioner bygger på Blob Storage får du även låg kostnad, nivåindelad lagring, med hög tillgänglighet/haveriberedskapsfunktioner.

Data Lake Storage Gen2 gör Azure Storage till grunden för att skapa företagsdatasjöar i Azure. Utformad från början till tjänst flera petabyte med information samtidigt som hundratals gigabit dataflöde bibehålls, Data Lake Storage Gen2 gör att du enkelt kan hantera enorma mängder data.

Vad är en Data Lake?

En datasjö är en enda central lagringsplats där du kan lagra alla dina data, både strukturerade och ostrukturerade. Med en datasjö kan din organisation snabbt och enklare lagra, komma åt och analysera en mängd olika data på en enda plats. Med en datasjö behöver du inte anpassa dina data för att passa en befintlig struktur. I stället kan du lagra dina data i dess råa eller interna format, vanligtvis som filer eller som binära stora objekt (blobar).

Azure Data Lake Storage är en molnbaserad datasjölösning för företag. Den är utformad för att lagra enorma mängder data i alla format och för att underlätta analysarbetsbelastningar för stordata. Du använder den för att samla in data av alla typer och inmatningshastigheter på en enda plats för enkel åtkomst och analys med hjälp av olika ramverk.

Data Lake Storage Gen2

Azure Data Lake Storage Gen2 avser den aktuella implementeringen av Azures Data Lake Storage lösning. Den tidigare implementeringen, Azure Data Lake Storage Gen1, kommer att dras tillbaka den 29 februari 2024.

Till skillnad från Data Lake Storage Gen1 är Data Lake Storage Gen2 inte en dedikerad tjänst eller kontotyp. I stället implementeras den som en uppsättning funktioner som du använder med Blob Storage-tjänsten för ditt Azure Storage-konto. Du kan låsa upp dessa funktioner genom att aktivera den hierarkiska namnområdesinställningen.

Data Lake Storage Gen2 innehåller följande funktioner.

✓ Hadoop-kompatibel åtkomst

✓ Hierarkisk katalogstruktur

✓ Optimerad kostnad och prestanda

✓ Finare säkerhetsmodell för kornighet

✓ Massiv skalbarhet

Hadoop-kompatibel åtkomst

Azure Data Lake Storage Gen2 är främst utformat för att fungera med Hadoop och alla ramverk som använder Apache Hadoop Distributed File System (HDFS) som dataåtkomstlager. Hadoop-distributioner innehåller ABFS-drivrutinen (Azure Blob File System), som gör att många program och ramverk kan komma åt Azure Blob Storage data direkt. ABFS-drivrutinen är särskilt optimerad för stordataanalys. Motsvarande REST-API:er visas via slutpunkten dfs.core.windows.net.

Dataanalysramverk som använder HDFS som dataåtkomstlager kan direkt komma åt Azure Data Lake Storage Gen2 data via ABFS. Apache Spark-analysmotorn och Presto SQL-frågemotorn är exempel på sådana ramverk.

Mer information om tjänster och plattformar som stöds finns i Azure-tjänster som stöder Azure Data Lake Storage Gen2 och plattformar med öppen källkod som stöder Azure Data Lake Storage Gen2.

Hierarkisk katalogstruktur

Det hierarkiska namnområdet är en viktig funktion som gör det möjligt för Azure Data Lake Storage Gen2 att ge högpresterande dataåtkomst i objektlagringsskala och pris. Du kan använda den här funktionen för att ordna alla objekt och filer i ditt lagringskonto i en hierarki med kataloger och kapslade underkataloger. Med andra ord ordnas dina Azure Data Lake Storage Gen2 data på ungefär samma sätt som filer ordnas på datorn.

Åtgärder som att byta namn på eller ta bort en katalog blir enskilda atomdataåtgärder i katalogen. Du behöver inte räkna upp och bearbeta alla objekt som delar namnprefixet för katalogen.

Optimerad kostnad och prestanda

Azure Data Lake Storage Gen2 prissätts till Azure Blob Storage nivåer. Den bygger på Azure Blob Storage funktioner som automatiserad livscykelprinciphantering och nivåindelning på objektnivå för att hantera lagringskostnader för stordata.

Prestanda är optimerad eftersom du inte behöver kopiera eller transformera data som en förutsättning för analys. Den hierarkiska namnområdesfunktionen för Azure Data Lake Storage möjliggör effektiv åtkomst och navigering. Den här arkitekturen innebär att databearbetning kräver färre beräkningsresurser, vilket minskar både hastigheten och kostnaden för att komma åt data.

Finare säkerhetsmodell för kornighet

Azure Data Lake Storage Gen2-åtkomstkontrollmodellen stöder både azure-rollbaserad åtkomstkontroll (Azure RBAC) och åtkomstkontrollistor (PORTABLE Operating System Interface for UNIX) (POSIX). Det finns också några extra säkerhetsinställningar som är specifika för Azure Data Lake Storage Gen2. Du kan ange behörigheter antingen på katalognivå eller på filnivå. Alla lagrade data krypteras i vila med hjälp av antingen Microsoft-hanterade eller kundhanterade krypteringsnycklar.

Massiv skalbarhet

Azure Data Lake Storage Gen2 erbjuder massiv lagring och accepterar många datatyper för analys. Det medför inga begränsningar för kontostorlekar, filstorlekar eller mängden data som kan lagras i datasjön. Enskilda filer kan ha storlekar som sträcker sig från några kilobyte (KB) till några petabyte (PBs). Bearbetningen utförs på nästan konstanta svarstider per begäran som mäts på tjänst-, konto- och filnivå.

Den här designen innebär att Azure Data Lake Storage Gen2 enkelt och snabbt kan skalas upp för att uppfylla de mest krävande arbetsbelastningarna. Det kan också lika enkelt skalas ned när efterfrågan sjunker.

Byggd på Azure Blob Storage

De data som du matar in sparas som blobar i lagringskontot. Tjänsten som hanterar blobar är den Azure Blob Storage tjänsten. Data Lake Storage Gen2 beskriver funktionerna eller "förbättringarna" i den här tjänsten som tillgodoser kraven från stordataanalysarbetsbelastningar.

Eftersom dessa funktioner bygger på Blob Storage är funktioner som diagnostikloggning, åtkomstnivåer och principer för livscykelhantering tillgängliga för ditt konto. De flesta Blob Storage-funktioner stöds fullt ut, men vissa funktioner kan endast stödjas på förhandsgranskningsnivå och det finns en handfull av dem som ännu inte stöds. En fullständig lista över supportinstruktioner finns i Stöd för Blob Storage-funktioner i Azure Storage-konton. Statusen för varje listad funktion ändras med tiden när stödet fortsätter att expandera.

Dokumentation och terminologi

Den Azure Blob Storage innehållsförteckningen innehåller två innehållsavsnitt. Avsnittet Data Lake Storage Gen2 innehåll innehåller metodtips och vägledning för användning av Data Lake Storage Gen2 funktioner. Avsnittet Blob Storage i innehåll ger vägledning för kontofunktioner som inte är specifika för Data Lake Storage Gen2.

När du flyttar mellan avsnitt kan du märka några små terminologiskillnader. Till exempel använder innehåll som finns i Blob Storage-dokumentationen termen blob i stället för fil. Tekniskt sett blir de filer som du matar in till ditt lagringskonto blobar i ditt konto. Termen är därför korrekt. Termen blob kan dock orsaka förvirring om du är van vid termfilen. Du ser även termen container som används för att referera till ett filsystem. Betrakta dessa termer som synonyma.

Se även