Vad är Azure Data Lake Storage Gen1?

Anteckning

Azure Data Lake Storage Gen1 är nu tillbakadragen. Se pensionsmeddelandet här. Data Lake Storage Gen1 resurser är inte längre tillgängliga. Kontakta oss om du behöver särskild hjälp.

Azure Data Lake Storage Gen1 är en lagringsplats i företagsomfattande hyperskala för analysarbetsbelastningar för stordata. Med Azure Data Lake kan du samla in data av olika storlekar, former, typer och inmatningshastighet på en enda plats för drifts- och undersökande analyser.

Data Lake Storage Gen1 kan nås från Hadoop (tillgängligt med HDInsight-kluster) med hjälp av WebHDFS-kompatibla REST-API:er. Den är utformad för att möjliggöra analys av lagrade data och är anpassad för prestanda för dataanalysscenarier. Data Lake Storage Gen1 innehåller alla funktioner i företagsklass: säkerhet, hanterbarhet, skalbarhet, tillförlitlighet och tillgänglighet.

Azure Data Lake

De viktigaste funktionerna

Några av de viktigaste funktionerna i Data Lake Storage Gen1 är följande.

Byggt för Hadoop

Data Lake Storage Gen1 är ett Apache Hadoop-filsystem som är kompatibelt med Hadoop Distributed File System (HDFS) och fungerar med Hadoop-ekosystemet. Dina befintliga HDInsight-program eller -tjänster som använder WebHDFS-API:et kan enkelt integreras med Data Lake Storage Gen1. Data Lake Storage Gen1 exponerar även ett WebHDFS-kompatibelt REST-gränssnitt för program.

Du kan enkelt analysera data som lagras i Data Lake Storage Gen1 med hadoop-analysramverk som MapReduce eller Hive. Du kan etablera Azure HDInsight-kluster och konfigurera dem för direkt åtkomst till data som lagras i Data Lake Storage Gen1.

Obegränsad lagring, petabytefiler

Data Lake Storage Gen1 ger obegränsad lagring och kan lagra en mängd olika data för analys. Det medför inga begränsningar för kontostorlekar, filstorlekar eller mängden data som kan lagras i en datasjö. Enskilda filer kan variera från kilobyte till petabyte i storlek. Data lagras varaktigt genom att göra flera kopior. Det finns ingen gräns för hur länge data kan lagras i datasjön.

Prestandajusterad för analyser av stordata

Data Lake Storage Gen1 har skapats för att köra storskaliga analyssystem som kräver massivt dataflöde för att köra frågor mot och analysera stora mängder data. Datasjön sprider delar av en fil i ett antal enskilda lagringsservrar. Detta förbättrar läsgenomströmning vid läsning av filen parallellt för att utföra dataanalyser.

Företagsklar: Hög tillgänglighet och säker

Data Lake Storage Gen1 ger branschstandard tillgänglighet och tillförlitlighet. Dina datatillgångar lagras varaktigt genom att göra redundanta kopior som skyddar mot oväntade fel.

Data Lake Storage Gen1 ger också säkerhet i företagsklass för lagrade data. Mer information finns i Skydda data i Azure Data Lake Storage Gen1.

Alla data

Data Lake Storage Gen1 kan lagra data i sitt ursprungliga format, utan att det krävs några tidigare transformeringar. Data Lake Storage Gen1 kräver inte att ett schema definieras innan data läses in, vilket lämnar det upp till det enskilda analysramverket att tolka data och definiera ett schema vid tidpunkten för analysen. Möjligheten att lagra filer av godtycklig storlek och format gör det möjligt för Data Lake Storage Gen1 att hantera strukturerade, halvstrukturerade och ostrukturerade data.

Data Lake Storage Gen1 containrar för data är i princip mappar och filer. Du använder lagrade data med hjälp av SDK:er, Azure Portal och Azure PowerShell. Om du placerar dina data i arkivet med hjälp av dessa gränssnitt och använder lämpliga containrar kan du lagra alla typer av data. Data Lake Storage Gen1 utför ingen särskild hantering av data baserat på vilken typ av data som lagras.

Skydda data

Data Lake Storage Gen1 använder Microsoft Entra ID för autentisering och åtkomstkontrollistor (ACL: er) för att hantera åtkomst till dina data.

Funktion Beskrivning
Autentisering Data Lake Storage Gen1 integreras med Microsoft Entra ID för identitets- och åtkomsthantering för alla data som lagras i Data Lake Storage Gen1. På grund av integreringen drar Data Lake Storage Gen1 nytta av alla Microsoft Entra funktioner som multifaktorautentisering, villkorsstyrd åtkomst, rollbaserad åtkomstkontroll i Azure, övervakning av programanvändning, säkerhetsövervakning och aviseringar osv. Data Lake Storage Gen1 stöder OAuth 2.0-protokollet för autentisering i REST-gränssnittet. Se Data Lake Storage Gen1 autentisering.
Åtkomstkontroll Data Lake Storage Gen1 ger åtkomstkontroll genom att stödja POSIX-behörigheter som exponeras av WebHDFS-protokollet. Du kan aktivera ACL:er i rotmappen, i undermappar och på enskilda filer. Mer information om hur ACL:er fungerar i kontexten för Data Lake Storage Gen1 finns i Åtkomstkontroll i Data Lake Storage Gen1.
Kryptering Data Lake Storage Gen1 tillhandahåller också kryptering för data som lagras i kontot. Du anger krypteringsinställningarna när du skapar ett Data Lake Storage Gen1 konto. Du kan välja att kryptera dina data eller välja ingen kryptering. Mer information finns i Kryptering i Data Lake Storage Gen1. Anvisningar om hur du tillhandahåller krypteringsrelaterad konfiguration finns i Kom igång med Data Lake Storage Gen1 med hjälp av Azure Portal.

Anvisningar om hur du skyddar data i Data Lake Storage Gen1 finns i Skydda data i Azure Data Lake Storage Gen1.

Programkompatibilitet

Data Lake Storage Gen1 är kompatibelt med de flesta komponenter med öppen källkod i Hadoop-ekosystemet. Den integreras också bra med andra Azure-tjänster. Om du vill veta mer om hur du kan använda Data Lake Storage Gen1 med komponenter med öppen källkod och andra Azure-tjänster kan du använda följande länkar:

Data Lake Storage Gen1 filsystem

Data Lake Storage Gen1 kan nås via filsystemet AzureDataLakeFilesystem (adl://) i Hadoop-miljöer (tillgängligt med HDInsight-kluster). Program och tjänster som använder adl:// kan dra nytta av ytterligare prestandaoptimeringar som för närvarande inte är tillgängliga i WebHDFS. Därför ger Data Lake Storage Gen1 dig flexibiliteten att antingen använda bästa prestanda med det rekommenderade alternativet att använda adl:// eller underhålla befintlig kod genom att fortsätta att använda WebHDFS-API:et direkt. Azure HDInsight utnyttjar AzureDataLakeFilesystem fullt ut för att ge bästa prestanda på Data Lake Storage Gen1.

Du kan komma åt dina data i Data Lake Storage Gen1 med hjälp av adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Mer information om hur du kommer åt data i Data Lake Storage Gen1 finns i Visa egenskaper för lagrade data.

Nästa steg