Inleiding in Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 is een set mogelijkheden voor big data-analyse, gebaseerd op Azure Blob Storage.

Data Lake Storage Gen2 convergeert de mogelijkheden van Azure Data Lake Storage Gen1 met Azure Blob Storage. Data Lake Storage Gen2 biedt bijvoorbeeld semantiek van bestandssystemen, beveiliging op bestandsniveau en schaal. Omdat deze mogelijkheden zijn gebaseerd op Blob Storage, krijgt u ook goedkope, gelaagde opslag, met hoge beschikbaarheid/mogelijkheden voor herstel na noodgevallen.

Data Lake Storage Gen2 maakt van Azure Storage de basis voor het bouwen van zakelijke data lakes op Azure. Data Lake Storage Gen2 is vanaf het begin ontworpen om meerdere petabytes aan gegevens te kunnen bieden met honderden gigabits aan doorvoer en stelt u in staat om eenvoudig enorme hoeveelheden gegevens te beheren.

Wat is een Data Lake?

Een data lake is één centrale opslagplaats waar u al uw gegevens kunt opslaan, zowel gestructureerd als ongestructureerd. Met een data lake kan uw organisatie snel en eenvoudiger een grote verscheidenheid aan gegevens opslaan, openen en analyseren op één locatie. Met een data lake hoeft u uw gegevens niet te conformeren aan een bestaande structuur. In plaats daarvan kunt u uw gegevens opslaan in de onbewerkte of systeemeigen indeling, meestal als bestanden of als binaire grote objecten (blobs).

Azure Data Lake Storage is een data lake-oplossing in de cloud. Het is ontworpen om enorme hoeveelheden gegevens op te slaan in elke indeling en om analytische workloads voor big data mogelijk te maken. U gebruikt het om gegevens van elk type en opnamesnelheid vast te leggen op één locatie voor eenvoudige toegang en analyse met behulp van verschillende frameworks.

Data Lake Storage Gen2

Azure Data Lake Storage Gen2 verwijst naar de huidige implementatie van de Data Lake Storage-oplossing van Azure. De vorige implementatie, Azure Data Lake Storage Gen1, wordt op 29 februari 2024 buiten gebruik gesteld.

In tegenstelling tot Data Lake Storage Gen1 is Data Lake Storage Gen2 geen toegewezen service- of accounttype. In plaats daarvan wordt het geïmplementeerd als een set mogelijkheden die u gebruikt met de Blob Storage-service van uw Azure Storage-account. U kunt deze mogelijkheden ontgrendelen door de instelling voor de hiërarchische naamruimte in te schakelen.

Data Lake Storage Gen2 bevat de volgende mogelijkheden.

✓ Hadoop-compatibele toegang

✓ Hiërarchische mapstructuur

✓ Geoptimaliseerde kosten en prestaties

✓ Fijner korrelbeveiligingsmodel

✓ Enorme schaalbaarheid

Hadoop-compatibele toegang

Azure Data Lake Storage Gen2 is voornamelijk ontworpen om te werken met Hadoop en alle frameworks die het Apache Hadoop Distributed File System (HDFS) gebruiken als gegevenstoegangslaag. Hadoop-distributies bevatten het ABFS-stuurprogramma (Azure Blob File System), waarmee veel toepassingen en frameworks rechtstreeks toegang hebben tot Azure Blob Storage gegevens. Het ABFS-stuurprogramma is speciaal geoptimaliseerd voor big data-analyse. De bijbehorende REST API's worden aan het oppervlak gebracht via het eindpunt dfs.core.windows.net.

Frameworks voor gegevensanalyse die HDFS gebruiken als hun gegevenstoegangslaag, hebben rechtstreeks toegang tot Azure Data Lake Storage Gen2 gegevens via ABFS. De Apache Spark Analytics-engine en de Presto SQL-query-engine zijn voorbeelden van dergelijke frameworks.

Zie Azure-services die ondersteuning bieden voor Azure Data Lake Storage Gen2 en Opensource-platforms die ondersteuning bieden voor Azure Data Lake Storage Gen2 voor meer informatie over ondersteunde services en platforms.

Hiërarchische mapstructuur

De hiërarchische naamruimte is een belangrijke functie waarmee Azure Data Lake Storage Gen2 gegevenstoegang met hoge prestaties kan bieden op de schaal en prijs van de objectopslag. U kunt deze functie gebruiken om alle objecten en bestanden in uw opslagaccount te ordenen in een hiërarchie van mappen en geneste submappen. Met andere woorden, uw Azure Data Lake Storage Gen2 gegevens zijn georganiseerd op ongeveer dezelfde manier als bestanden zijn georganiseerd op uw computer.

Bewerkingen (zoals het wijzigen van een naam of het verwijderen van een map) worden één atomische bewerking van metagegevens in de map. Het is niet nodig om alle objecten te inventariseren en te verwerken die het naamvoorvoegsel van de map delen.

Geoptimaliseerde kosten en prestaties

Azure Data Lake Storage Gen2 is geprijsd op Azure Blob Storage niveau. Het bouwt voort op Azure Blob Storage mogelijkheden, zoals geautomatiseerd levenscyclusbeleidsbeheer en lagen op objectniveau om de opslagkosten voor big data te beheren.

De prestaties zijn geoptimaliseerd omdat u gegevens niet hoeft te kopiëren of transformeren als een vereiste voor analyse. De hiërarchische naamruimte van Azure Data Lake Storage zorgt voor efficiënte toegang en navigatie. Deze architectuur betekent dat voor gegevensverwerking minder rekenresources nodig zijn, waardoor zowel de snelheid als de kosten voor toegang tot gegevens worden verminderd.

Fijner beveiligingsmodel

Het Azure Data Lake Storage Gen2-toegangsbeheermodel ondersteunt zowel op rollen gebaseerd toegangsbeheer (Azure RBAC) als POSIX-toegangsbeheerlijsten (Portable Operating System Interface for UNIX). Er zijn ook enkele extra beveiligingsinstellingen die specifiek zijn voor Azure Data Lake Storage Gen2. U kunt machtigingen instellen op mapniveau of op bestandsniveau. Alle opgeslagen gegevens worden in rust versleuteld met behulp van door Microsoft beheerde of door de klant beheerde versleutelingssleutels.

Enorme schaalbaarheid

Azure Data Lake Storage Gen2 biedt enorme opslag en accepteert talloze gegevenstypen voor analyse. Er worden geen limieten opgelegd voor accountgrootten, bestandsgrootten of de hoeveelheid gegevens die kan worden opgeslagen in de data lake. Afzonderlijke bestanden kunnen grootten hebben die variëren van een paar kilobytes (KB's) tot enkele petabytes (PBs). De verwerking wordt uitgevoerd op bijna constante latenties per aanvraag, die worden gemeten op service-, account- en bestandsniveaus.

Dit ontwerp betekent dat Azure Data Lake Storage Gen2 eenvoudig en snel omhoog kunt schalen om te voldoen aan de meest veeleisende workloads. Het kan ook net zo gemakkelijk weer omlaag worden geschaald wanneer de vraag afneemt.

Gebouwd op Azure Blob Storage

De gegevens die u opneemt, blijven behouden als blobs in het opslagaccount. De service die blobs beheert, is de Azure Blob Storage service. Data Lake Storage Gen2 beschrijft de mogelijkheden of 'verbeteringen' van deze service die tegemoetkomen aan de vereisten van analyseworkloads voor big data.

Omdat deze mogelijkheden zijn gebaseerd op Blob Storage, zijn functies zoals diagnostische logboekregistratie, toegangslagen en beleid voor levenscyclusbeheer beschikbaar voor uw account. De meeste Blob Storage-functies worden volledig ondersteund, maar sommige functies worden mogelijk alleen ondersteund op preview-niveau en er zijn er een aantal die nog niet worden ondersteund. Zie Ondersteuning van Blob Storage-functies in Azure Storage-accounts voor een volledige lijst met ondersteuningsverklaringen. De status van elke vermelde functie verandert in de loop van de tijd naarmate de ondersteuning wordt uitgebreid.

Documentatie en terminologie

De Azure Blob Storage inhoudsopgave bevat twee secties met inhoud. De sectie Data Lake Storage Gen2 met inhoud bevat best practices en richtlijnen voor het gebruik van Data Lake Storage Gen2 mogelijkheden. De sectie Blob Storage van inhoud bevat richtlijnen voor accountfuncties die niet specifiek zijn voor Data Lake Storage Gen2.

Wanneer u tussen secties navigeert, ziet u mogelijk enkele kleine terminologieverschillen. Inhoud die wordt aanbevolen in de Blob Storage-documentatie, gebruikt bijvoorbeeld de term blob in plaats van bestand. Technisch gezien worden de bestanden die u opneemt in uw opslagaccount blobs in uw account. Daarom is de term juist. De term blob kan echter verwarring veroorzaken als u gewend bent aan het termbestand. U ziet ook de term container die wordt gebruikt om te verwijzen naar een bestandssysteem. Beschouw deze termen als synoniem.

Zie ook