Introduktion till Azure Data Lake Storage

2024-11-15

Azure Data Lake Storage är en uppsättning funktioner som är dedikerade till stordataanalys som bygger på Azure Blob Storage.

Azure Data Lake Storage konvergerar funktionerna i Azure Data Lake Storage Gen1 med Azure Blob Storage. Data Lake Storage tillhandahåller till exempel filsystemssemantik, säkerhet på filnivå och skalning. Eftersom dessa funktioner bygger på Blob Storage får du även låg kostnad, nivåindelad lagring med hög tillgänglighet/haveriberedskapsfunktioner.

Data Lake Storage gör Azure Storage till grunden för att skapa företagsdatasjöar i Azure. Data Lake Storage har utformats från början till att betjäna flera petabyte med information och samtidigt upprätthålla hundratals gigabit dataflöde, så att du enkelt kan hantera enorma mängder data.

Vad är en Data Lake?

En datasjö är en enda centraliserad lagringsplats där du kan lagra alla dina data, både strukturerade och ostrukturerade. Med en datasjö kan din organisation snabbt och enklare lagra, komma åt och analysera en mängd olika data på en enda plats. Med en datasjö behöver du inte anpassa dina data för att passa en befintlig struktur. I stället kan du lagra dina data i dess råa eller interna format, vanligtvis som filer eller som binära stora objekt (blobar).

Azure Data Lake Storage är en molnbaserad datasjölösning för företag. Den är utformad för att lagra enorma mängder data i valfritt format och för att underlätta analysarbetsbelastningar för stordata. Du använder den för att samla in data av alla typer och inmatningshastigheter på en enda plats för enkel åtkomst och analys med hjälp av olika ramverk.

Data Lake Storage

Azure Data Lake Storage är inte en dedikerad tjänst eller kontotyp. I stället implementeras den som en uppsättning funktioner som du använder med Blob Storage-tjänsten för ditt Azure Storage-konto. Du kan låsa upp dessa funktioner genom att aktivera den hierarkiska namnområdesinställningen.

Data Lake Storage innehåller följande funktioner.

√ Hadoop-kompatibel åtkomst

√ Hierarkisk katalogstruktur

√ Optimerad kostnad och prestanda

√ Finare säkerhetsmodell för korn

√ Massiv skalbarhet

Hadoop-kompatibel åtkomst

Azure Data Lake Storage är främst utformat för att fungera med Hadoop och alla ramverk som använder Apache Hadoop Distributed File System (HDFS) som dataåtkomstlager. Hadoop-distributioner innehåller drivrutinen för Azure Blob File System (ABFS), som gör att många program och ramverk kan komma åt Azure Blob Storage-data direkt. ABFS-drivrutinen är särskilt optimerad för stordataanalys. Motsvarande REST-API:er visas via slutpunkten dfs.core.windows.net.

Dataanalysramverk som använder HDFS som dataåtkomstlager kan direkt komma åt Azure Data Lake Storage-data via ABFS. Apache Spark-analysmotorn och Presto SQL-frågemotorn är exempel på sådana ramverk.

Mer information om tjänster och plattformar som stöds finns i Azure-tjänster som stöder Azure Data Lake Storage och plattformar med öppen källkod som stöder Azure Data Lake Storage.

Hierarkisk katalogstruktur

Det hierarkiska namnområdet är en viktig funktion som gör det möjligt för Azure Data Lake Storage att ge dataåtkomst med höga prestanda i objektlagringsskala och pris. Du kan använda den här funktionen för att ordna alla objekt och filer i ditt lagringskonto i en hierarki med kataloger och kapslade underkataloger. Med andra ord är dina Azure Data Lake Storage-data ordnade på ungefär samma sätt som filer ordnas på datorn.

Åtgärder som att byta namn på eller ta bort en katalog blir enstaka atomiska metadataåtgärder i katalogen. Du behöver inte räkna upp och bearbeta alla objekt som delar namnprefixet för katalogen.

Optimerad kostnad och prestanda

Azure Data Lake Storage prissätts på Azure Blob Storage-nivåer. Den bygger på Azure Blob Storage-funktioner som automatiserad livscykelprinciphantering och nivåindelning på objektnivå för att hantera lagringskostnader för stordata.

Prestanda är optimerad eftersom du inte behöver kopiera eller transformera data som en förutsättning för analys. Den hierarkiska namnrymdsfunktionen i Azure Data Lake Storage möjliggör effektiv åtkomst och navigering. Den här arkitekturen innebär att databehandling kräver färre beräkningsresurser, vilket minskar både hastigheten och kostnaden för att komma åt data.

Finare säkerhetsmodell för korn

Azure Data Lake Storage-åtkomstkontrollmodellen stöder både azure-rollbaserad åtkomstkontroll (Azure RBAC) och portabelt operativsystemgränssnitt för UNIX-åtkomstkontrollistor (POSIX). Det finns också några extra säkerhetsinställningar som är specifika för Azure Data Lake Storage. Du kan ange behörigheter antingen på katalognivå eller på filnivå. Alla lagrade data krypteras i vila med hjälp av antingen Microsoft-hanterade eller kundhanterade krypteringsnycklar.

Enorm skalbarhet

Azure Data Lake Storage erbjuder massiv lagring och accepterar många datatyper för analys. Det medför inga begränsningar för kontostorlekar, filstorlekar eller mängden data som kan lagras i datasjön. Enskilda filer kan ha storlekar som sträcker sig från några kilobyte (KBs) till några petabyte (PBs). Bearbetningen utförs med nästan konstanta svarstider per begäran som mäts på tjänst-, konto- och filnivå.

Den här designen innebär att Azure Data Lake Storage enkelt och snabbt kan skalas upp för att uppfylla de mest krävande arbetsbelastningarna. Det kan också lika enkelt skalas ned när efterfrågan minskar.

Byggt på Azure Blob Storage

De data som du matar in bevaras som blobar i lagringskontot. Tjänsten som hanterar blobar är Azure Blob Storage-tjänsten. Data Lake Storage beskriver funktionerna eller "förbättringarna" av den här tjänsten som tillgodoser kraven från analysarbetsbelastningar för stordata.

Eftersom dessa funktioner bygger på Blob Storage är funktioner som diagnostikloggning, åtkomstnivåer och livscykelhanteringsprinciper tillgängliga för ditt konto. De flesta Blob Storage-funktioner stöds fullt ut, men vissa funktioner kan endast stödjas på förhandsgranskningsnivå och det finns en handfull av dem som ännu inte stöds. En fullständig lista över supportinstruktioner finns i Stöd för Blob Storage-funktioner i Azure Storage-konton. Statusen för varje listad funktion ändras med tiden när supporten fortsätter att expandera.

Dokumentation och terminologi

Innehållsförteckningen i Azure Blob Storage innehåller två delar av innehållet. Avsnittet Data Lake Storage innehåller metodtips och vägledning för att använda Data Lake Storage-funktioner. Avsnittet Blob Storage i innehållet innehåller vägledning för kontofunktioner som inte är specifika för Data Lake Storage.

När du flyttar mellan avsnitt kan du märka några små terminologiskillnader. Innehåll som finns i Blob Storage-dokumentationen använder till exempel termen blob i stället för fil. Tekniskt sett blir de filer som du matar in till ditt lagringskonto blobar i ditt konto. Termen är därför korrekt. Termen blob kan dock orsaka förvirring om du är van vid termen fil. Du ser även termen container som används för att referera till ett filsystem. Betrakta dessa termer som synonyma.