Inleiding tot Azure Data Lake Storage
Azure Data Lake Storage is een set mogelijkheden die is toegewezen aan big data-analyses, gebouwd op Azure Blob Storage.
Azure Data Lake Storage convergeert de mogelijkheden van Azure Data Lake Storage Gen1 met Azure Blob Storage. Data Lake Storage biedt bijvoorbeeld semantiek van het bestandssysteem, beveiliging op bestandsniveau en schaal. Omdat deze mogelijkheden zijn gebouwd op Blob Storage, krijgt u ook goedkope, gelaagde opslag met mogelijkheden voor hoge beschikbaarheid/herstel na noodgevallen.
Data Lake Storage maakt Azure Storage de basis voor het bouwen van zakelijke data lakes in Azure. Data Lake Storage is ontworpen om meerdere petabytes aan informatie te verwerken terwijl honderden gigabits aan doorvoer worden ondersteund. Met Data Lake Storage kunt u eenvoudig enorme hoeveelheden gegevens beheren.
Wat is een Data Lake?
Een data lake is één centrale opslagplaats waar u al uw gegevens kunt opslaan, zowel gestructureerd als ongestructureerd. Met een data lake kan uw organisatie snel en eenvoudiger een grote verscheidenheid aan gegevens opslaan, openen en analyseren op één locatie. Met een data lake hoeft u uw gegevens niet te conformeren aan een bestaande structuur. In plaats daarvan kunt u uw gegevens opslaan in de onbewerkte of systeemeigen indeling, meestal als bestanden of als binaire grote objecten (blobs).
Azure Data Lake Storage is een data lake-oplossing in de cloud. Het is ontworpen om enorme hoeveelheden gegevens op te slaan in elke indeling en om analytische workloads voor big data te vergemakkelijken. U gebruikt het om gegevens van elk type en opnamesnelheid op één locatie vast te leggen voor eenvoudige toegang en analyse met behulp van verschillende frameworks.
Data Lake Storage
Azure Data Lake Storage is geen toegewezen service of accounttype. In plaats daarvan wordt het geïmplementeerd als een set mogelijkheden die u gebruikt met de Blob Storage-service van uw Azure Storage-account. U kunt deze mogelijkheden ontgrendelen door de instelling van de hiërarchische naamruimte in te schakelen.
Data Lake Storage bevat de volgende mogelijkheden.
✓ Hadoop-compatibele toegang
✓ Hiërarchische mapstructuur
✓ Geoptimaliseerde kosten en prestaties
✓ Fijner beveiligingsmodel
✓ Enorme schaalbaarheid
Hadoop-compatibele toegang
Azure Data Lake Storage is voornamelijk ontworpen om te werken met Hadoop en alle frameworks die gebruikmaken van het Apache Hadoop Distributed File System (HDFS) als hun gegevenstoegangslaag. Hadoop-distributies bevatten het ABFS-stuurprogramma (Azure Blob File System), waarmee veel toepassingen en frameworks rechtstreeks toegang hebben tot Azure Blob Storage-gegevens. Het ABFS-stuurprogramma is specifiek geoptimaliseerd voor big data-analyse. De bijbehorende REST API's worden aan het oppervlak gebracht via het eindpunt dfs.core.windows.net
.
Frameworks voor gegevensanalyse die HDFS gebruiken als hun gegevenstoegangslaag, hebben rechtstreeks toegang tot Azure Data Lake Storage-gegevens via ABFS. De Apache Spark-analyse-engine en de Presto SQL-query-engine zijn voorbeelden van dergelijke frameworks.
Zie Azure-services die ondersteuning bieden voor Azure Data Lake Storage en Open source-platforms die Ondersteuning bieden voor Azure Data Lake Storage voor meer informatie over ondersteunde services en platforms.
Hiërarchische mapstructuur
De hiërarchische naamruimte is een belangrijke functie waarmee Azure Data Lake Storage krachtige gegevenstoegang kan bieden op de schaal en prijs van objectopslag. U kunt deze functie gebruiken om alle objecten en bestanden in uw opslagaccount in te delen in een hiërarchie van mappen en geneste submappen. Met andere woorden, uw Azure Data Lake Storage-gegevens zijn op ongeveer dezelfde manier georganiseerd als bestanden op uw computer.
Bewerkingen (zoals het wijzigen van een naam of het verwijderen van een map) worden één atomische bewerking van metagegevens in de map. Het is niet nodig om alle objecten te inventariseren en te verwerken die het naamvoorvoegsel van de map delen.
Geoptimaliseerde kosten en prestaties
Azure Data Lake Storage is geprijsd op Azure Blob Storage-niveaus. Het bouwt voort op de mogelijkheden van Azure Blob Storage, zoals geautomatiseerd levenscyclusbeleidsbeheer en lagen op objectniveau om de kosten voor big data-opslag te beheren.
De prestaties zijn geoptimaliseerd omdat u geen gegevens hoeft te kopiëren of transformeren als een vereiste voor analyse. De hiërarchische naamruimtemogelijkheid van Azure Data Lake Storage biedt efficiënte toegang en navigatie. Deze architectuur betekent dat gegevensverwerking minder rekenresources vereist, waardoor zowel de snelheid als de kosten voor toegang tot gegevens worden verminderd.
Fijner beveiligingsmodel
Het Azure Data Lake Storage-toegangsbeheermodel ondersteunt zowel op rollen gebaseerd toegangsbeheer van Azure (Azure RBAC) als Portable Operating System Interface for UNIX (POSIX) toegangsbeheerlijsten (ACL's). Er zijn ook enkele extra beveiligingsinstellingen die specifiek zijn voor Azure Data Lake Storage. U kunt machtigingen instellen op mapniveau of op bestandsniveau. Alle opgeslagen gegevens worden in rust versleuteld met behulp van door Microsoft beheerde of door de klant beheerde versleutelingssleutels.
Enorme schaalbaarheid
Azure Data Lake Storage biedt enorme opslag en accepteert talloze gegevenstypen voor analyse. Er worden geen limieten opgelegd voor accountgrootten, bestandsgrootten of de hoeveelheid gegevens die kunnen worden opgeslagen in de data lake. Afzonderlijke bestanden kunnen grootten hebben van een paar kilobytes (KB's) tot een paar petabytes (GB's). De verwerking wordt uitgevoerd op bijna constante latenties per aanvraag, die worden gemeten op service-, account- en bestandsniveaus.
Dit ontwerp betekent dat Azure Data Lake Storage eenvoudig en snel omhoog kan schalen om te voldoen aan de meest veeleisende workloads. Het kan ook net zo eenvoudig terugschalen wanneer de vraag afneemt.
Gebouwd op Azure Blob Storage
De gegevens die u opneemt, blijven behouden als blobs in het opslagaccount. De service die blobs beheert, is de Azure Blob Storage-service. Data Lake Storage beschrijft de mogelijkheden of 'verbeteringen' van deze service die voldoet aan de eisen van analyseworkloads voor big data.
Omdat deze mogelijkheden zijn gebaseerd op Blob Storage, zijn functies zoals diagnostische logboekregistratie, toegangslagen en beleid voor levenscyclusbeheer beschikbaar voor uw account. De meeste Blob Storage-functies worden volledig ondersteund, maar sommige functies worden mogelijk alleen ondersteund op preview-niveau en er zijn een aantal functies die nog niet worden ondersteund. Zie voor een volledige lijst met ondersteuningsinstructies ondersteuning voor Blob Storage-functies in Azure Storage-accounts. De status van elke vermelde functie wordt na verloop van tijd gewijzigd naarmate de ondersteuning blijft uitbreiden.
Documentatie en terminologie
De Inhoudsopgave van Azure Blob Storage bevat twee secties met inhoud. De sectie Data Lake Storage van inhoud bevat aanbevolen procedures en richtlijnen voor het gebruik van Data Lake Storage-mogelijkheden. De sectie Blob Storage van inhoud bevat richtlijnen voor accountfuncties die niet specifiek zijn voor Data Lake Storage.
Wanneer u tussen secties navigeert, ziet u mogelijk enkele kleine terminologieverschillen. Inhoud die wordt aanbevolen in de Blob Storage-documentatie, gebruikt bijvoorbeeld de term blob in plaats van het bestand. Technisch gezien worden de bestanden die u opneemt naar uw opslagaccount blobs in uw account. Daarom is de term juist. De term-blob kan echter verwarring veroorzaken als u gewend bent aan het termbestand. U ziet ook de term container die wordt gebruikt om naar een bestandssysteem te verwijzen. Beschouw deze termen als synoniem.