Dela via


Översikt över Azure Data Lake Storage Gen1 i HDInsight

Azure Data Lake Storage Gen1 är en företagsomfattande hyperskalalagringsplats för analysarbetsbelastningar med stordata. Med Azure Data Lake kan du samla in data av valfri storlek, typ och inmatningshastighet. Och på ett ställe för drifts- och undersökande analys.

Få åtkomst till Data Lake Storage Gen1 från Hadoop (tillgängligt med ett HDInsight-kluster) med hjälp av WebHDFS-kompatibla REST-API:er. Data Lake Storage Gen1 är utformat för att möjliggöra analys av lagrade data och är justerat för prestanda i dataanalysscenarier. Gen1 innehåller de funktioner som är viktiga för verkliga företagsanvändningsfall. Dessa funktioner omfattar säkerhet, hanterbarhet, anpassningsbarhet, tillförlitlighet och tillgänglighet.

Mer information om Azure Data Lake Storage Gen1 finns i den detaljerade översikten över Azure Data Lake Storage Gen1.

De viktigaste funktionerna i Data Lake Storage Gen1 är följande.

Kompatibilitet med Hadoop

Data Lake Storage Gen1 är ett Apache Hadoop-filsystem som är kompatibelt med HDFS- och Hadoop-miljön. HDInsight-program eller -tjänster som använder WebHDFS-API:et kan enkelt integreras med Data Lake Storage Gen1. Data Lake Storage Gen1 exponerar också ett WebHDFS-kompatibelt REST-gränssnitt för program.

Data som lagras i Data Lake Storage Gen1 kan enkelt analyseras med hadoop-analysramverk. Ramverk som MapReduce eller Hive. Azure HDInsight-kluster kan etableras och konfigureras för direkt åtkomst till data som lagras i Data Lake Storage Gen1.

Obegränsad lagring, petabytefiler

Data Lake Storage Gen1 ger obegränsad lagring och är lämplig för lagring av olika typer av data för analys. Den begränsar inte kontostorlekar eller filstorlekar. Eller mängden data som kan lagras i en datasjö. Enskilda filer varierar i storlek från kilobyte till petabyte, vilket gör Data Lake Storage Gen1 till ett bra val för att lagra alla typer av data. Data lagras på ett lämpligt sätt genom att göra flera kopior. Och det finns inga gränser för hur länge data kan lagras i datasjön.

Prestandajustering för stordataanalys

Data Lake Storage Gen1 är utformat för analyssystem. System som kräver massivt dataflöde för att köra frågor mot och analysera stora mängder data. Datasjön sprider delar av en fil över flera enskilda lagringsservrar. När du analyserar data förbättrar den här konfigurationen läsdataflödet när filen läss parallellt.

Beredskap för företag: Hög tillgänglighet och säker

Data Lake Storage Gen1 ger branschstandardtillgänglighet och tillförlitlighet. Datatillgångar lagras på ett varaktigt sätt: redundanta kopior skyddar mot oväntade fel. Företag kan använda Data Lake Storage Gen1 i sina lösningar som en viktig del av sin befintliga dataplattform.

Data Lake Storage Gen1 ger också säkerhet i företagsklass för lagrade data. Mer information finns i Skydda data i Azure Data Lake Storage Gen1.

Flexibla datastrukturer

Data Lake Storage Gen1 kan lagra alla data i sitt interna format, som det är, utan att kräva tidigare transformeringar. Data Lake Storage Gen1 kräver inte att ett schema definieras innan data läses in. Det enskilda analysramverket tolkar data och definierar ett schema vid tidpunkten för analysen. Data Lake Storage Gen1 kan hantera strukturerade data. Och halvstrukturerade och ostrukturerade data.

Data Lake Storage Gen1-containrar för data är i huvudsak mappar och filer. Du använder lagrade data med hjälp av SDK:er, Azure-portalen och Azure PowerShell. Data som placeras i lagret med dessa gränssnitt och containrar kan lagra alla datatyper. Data Lake Storage Gen1 utför ingen särskild hantering av data baserat på typen av data.

Datasäkerhet i Data Lake Storage Gen1

Data Lake Storage Gen1 använder Microsoft Entra-ID för autentisering och använder åtkomstkontrollistor (ACL) för att hantera åtkomst till dina data.

Funktion Beskrivning
Autentisering Data Lake Storage Gen1 integreras med Microsoft Entra ID för identitets- och åtkomsthantering för alla data som lagras i Data Lake Storage Gen1. På grund av integreringen drar Data Lake Storage Gen1 nytta av alla Microsoft Entra-funktioner. Dessa funktioner omfattar: multifaktorautentisering, villkorsstyrd åtkomst och rollbaserad åtkomstkontroll i Azure. Dessutom övervakning av programanvändning, säkerhetsövervakning och aviseringar och så vidare. Data Lake Storage Gen1 stöder OAuth 2.0-protokollet för autentisering i REST-gränssnittet. Se Autentisering i Azure Data Lake Storage Gen1 med Microsoft Entra-ID
Åtkomstkontroll Data Lake Storage Gen1 ger åtkomstkontroll genom att stödja POSIX-behörigheter som exponeras av WebHDFS-protokollet. Du kan aktivera ACL:er i rotmappen, i undermappar och i enskilda filer. Mer information om hur ACL:er fungerar i kontexten för Data Lake Storage Gen1 finns i Åtkomstkontroll i Data Lake Storage Gen1.
Kryptering Data Lake Storage Gen1 tillhandahåller även kryptering för data som lagras i kontot. Du anger krypteringsinställningarna när du skapar ett Data Lake Storage Gen1-konto. Du kan välja att kryptera dina data eller välja ingen kryptering. Mer information finns i Kryptering i Data Lake Storage Gen1. Anvisningar om hur du tillhandahåller en krypteringsrelaterad konfiguration finns i Komma igång med Azure Data Lake Storage Gen1 med hjälp av Azure-portalen.

Mer information om hur du skyddar data i Data Lake Storage Gen1 finns i Skydda data som lagras i Azure Data Lake Storage Gen1.

Program som är kompatibla med Data Lake Storage Gen1

Data Lake Storage Gen1 är kompatibelt med de flesta komponenter med öppen källkod i Hadoop-miljön. Det är även snyggt integrerat med andra Azure-tjänster. Följ länkarna nedan om du vill veta mer om hur Data Lake Storage Gen1 kan användas både med komponenter med öppen källkod och andra Azure-tjänster.

Data Lake Storage Gen1-filsystem (adl://)

I Hadoop-miljöer kan du komma åt Data Lake Storage Gen1 via det nya filsystemet AzureDataLakeFilesystem (adl://). Prestanda för program och tjänster som använder adl:// kan optimeras på sätt som för närvarande inte är tillgängliga i WebHDFS. Därför får du flexibiliteten att antingen utnyttja bästa prestanda med hjälp av den rekommenderade adl://. Eller underhålla befintlig kod genom att fortsätta att använda WebHDFS-API:et direkt. Azure HDInsight drar full nytta av AzureDataLakeFilesystem för att ge bästa prestanda på Data Lake Storage Gen1.

Få åtkomst till dina data i Data Lake Storage Gen1 med hjälp av följande URI:

adl://<data_lake_storage_gen1_name>.azuredatalakestore.net

Mer information om hur du kommer åt data i Data Lake Storage Gen1 finns i Åtgärder som är tillgängliga för lagrade data.

Nästa steg