Share via


Wat is Azure Data Lake Storage Gen1

Notitie

Azure Data Lake Storage Gen1 is nu buiten gebruik gesteld. Bekijk hier de aankondiging van de buitengebruikstelling. Data Lake Storage Gen1-resources zijn niet meer toegankelijk.

Azure Data Lake Storage Gen1 is een ondernemingsbrede opslagplaats op hyperschaal voor analytische workloads van big data. Met Azure Data Lake kunt u gegevens van elke grootte, type en opnamesnelheid vastleggen op één enkele locatie voor operationele en experimentele analyses.

Data Lake Storage Gen1 kan worden geopend via Hadoop (beschikbaar met HDInsight-cluster) met behulp van de met WebHDFS compatibele REST-API's. Het is ontworpen om de opgeslagen gegevens te kunnen analyseren en het is afgestemd op prestaties voor scenario's met gegevensanalyses. Data Lake Storage Gen1 bevat alle mogelijkheden op bedrijfsniveau: beveiliging, beheerbaarheid, schaalbaarheid, betrouwbaarheid en beschikbaarheid.

Azure Data Lake

Belangrijke mogelijkheden

De belangrijkste mogelijkheden van Data Lake Storage Gen1 zijn onder andere de volgende.

Gebouwd voor Hadoop

Data Lake Storage Gen1 is een Apache Hadoop-bestandssysteem dat compatibel is met Hadoop Distributed File System (HDFS) en samenwerkt met het Hadoop-ecosysteem. Uw bestaande toepassingen of services van HDInsight die gebruikmaken van de API WebHDFS kunnen eenvoudig worden geïntegreerd met Data Lake Storage Gen1. Data Lake Storage Gen1 bevat ook een met WebHDFS compatibele REST-interface voor toepassingen.

Gegevens die zijn opgeslagen in Data Lake Storage Gen1 kunt u eenvoudig analyseren met analytische frameworks van Hadoop zoals MapReduce of Hive. U kunt Azure HDInsight-clusters inrichten en configureren voor directe toegang tot gegevens die zijn opgeslagen in Data Lake Storage Gen1.

Onbeperkte opslag, bestanden ter grootte van petabytes

Data Lake Storage Gen1 biedt onbeperkte opslag en is geschikt voor het opslaan van een verscheidenheid aan gegevens voor analyses. Het legt geen limieten op voor de grootte van accounts of bestanden, of de hoeveelheid gegevens die kunnen worden opgeslagen in een data lake. Afzonderlijke bestanden kunnen in grootte variëren van kilobytes tot petabytes. Gegevens worden blijvend opgeslagen door er meerdere kopieën van te maken. Er is geen limiet voor de tijdsduur waarin de gegevens kunnen worden opgeslagen in de data lake.

Prestaties zijn afgestemd op big data-analyses

Data Lake Storage Gen1 is gebouwd voor het uitvoeren van grootschalige analytische systemen waarvoor grote doorvoer is vereist om query's op grote hoeveelheden gegevens uit te voeren en deze te analyseren. De Data Lake verspreidt delen van een bestand over een aantal afzonderlijke opslagservers. Hiermee verbetert u de doorvoer wanneer het bestand in parallel wordt gelezen voor het uitvoeren van gegevensanalyse.

Bedrijfsklaar: maximaal beschikbaar en veilig

Data Lake Storage Gen1 biedt beschikbaarheid en betrouwbaarheid conform industriestandaarden. Uw gegevensassets worden blijvend opgeslagen door het maken van redundante exemplaren ter bescherming tegen onverwachte fouten.

Data Lake Storage Gen1 biedt ook beveiliging op bedrijfsniveau voor de opgeslagen gegevens. Zie voor meer informatie Gegevens beveiligen in Azure Data Lake Storage Gen1.

Alle gegevens

In Data Lake Storage Gen1 kunnen alle gegevens worden opgeslagen in de systeemeigen indeling in de huidige vorm, en het is niet nodig om de gegevens eerst om te zetten. In Data Lake Storage Gen1 hoeft geen schema te worden gedefinieerd voordat de gegevens worden geladen. Daardoor kan het afzonderlijke analytische framework de gegevens interpreteren en een schema definiëren op het moment van de analyse. Doordat bestanden van verschillende groottes en indelingen kunnen worden opgeslagen, kan Data Lake Storage Gen1 gestructureerde, semi-gestructureerde en ongestructureerde gegevens verwerken.

Containers voor gegevens van Data Lake Storage Gen1 zijn eigenlijk mappen en bestanden. U werkt met de opgeslagen gegevens met behulp van SDK's, Azure Portal en Azure PowerShell. Als u uw gegevens in het archief plaats via deze interfaces en de juiste containers gebruikt, kunt u allerlei soorten gegevens opslaan. Data Lake Storage Gen1 voert geen speciale verwerking van gegevens uit op basis van het type gegevens dat wordt opgeslagen.

Gegevens beveiligen

Data Lake Storage Gen1 gebruikt Microsoft Entra-id voor verificatie en toegangsbeheerlijsten (ACL's) om de toegang tot uw gegevens te beheren.

Functie Beschrijving
Verificatie Data Lake Storage Gen1 kan worden geïntegreerd met Microsoft Entra ID voor identiteits- en toegangsbeheer voor alle gegevens die zijn opgeslagen in Data Lake Storage Gen1. Vanwege de integratie profiteert Data Lake Storage Gen1 van alle Microsoft Entra-functies, zoals meervoudige verificatie, voorwaardelijke toegang, op rollen gebaseerd toegangsbeheer van Azure, bewaking van toepassingsgebruik, beveiligingsbewaking en waarschuwingen, enzovoort. Data Lake Storage Gen1 ondersteunt het OAuth 2.0-protocol voor verificatie in de REST-interface. Zie Data Lake Storage Gen1-verificatie.
Toegangsbeheer Data Lake Storage Gen1 biedt toegangsbeheer door ondersteuning te bieden voor POSIX-machtigingen die beschikbaar worden gemaakt door het protocol WebHDFS. U kunt ACL's inschakelen voor de hoofdmap, submappen en afzonderlijke bestanden. Zie voor meer informatie over de werking van ACL's in de context van Data Lake Storage Gen1 Toegangsbeheer in Data Lake Storage Gen1.
Versleuteling Data Lake Storage Gen1 biedt ook versleuteling voor gegevens die zijn opgeslagen in het account. U geeft de versleutelingsinstellingen op tijdens het maken van een Data Lake Storage Gen1-account. U kunt ervoor kiezen de gegevens te versleutelen of niet te versleutelen. Zie Versleuteling in Data Lake Storage Gen1 voor meer informatie. Voor instructies voor het bieden van versleuteling-gerelateerde configuratie raadpleegt u Aan de slag met Data Lake Storage Gen1 via Azure Portal.

Zie Gegevens beveiligen in Data Lake Storage Gen1 voor instructies over het beveiligen van gegevens in Data Lake Storage Gen1.

Compatibiliteit van toepassingen

Data Lake Storage Gen1 is compatibel met de meeste open source-onderdelen van het Hadoop-ecosysteem. Het kan ook goed worden geïntegreerd in andere Azure-services. Gebruik de volgende koppelingen voor meer informatie over hoe u Data Lake Storage Gen1 kunt gebruiken met open source-onderdelen en andere Azure-Services:

Data Lake Storage Gen1-bestandssysteem

Data Lake Storage Gen1 is toegankelijk via het nieuwe bestandssysteem AzureDataLakeFilesystem (adl://) in Hadoop-omgevingen (beschikbaar met HDInsight-cluster). Toepassingen en services die gebruikmaken van adl:// kunnen profiteren van verdere optimalisatie van prestaties die op dit moment niet beschikbaar zijn in WebHDFS. Als gevolg hiervan geeft Data Lake Storage Gen1 u de flexibiliteit om de beste prestaties te behalen met de aanbevolen optie adl:// of bestaande code te beheren door de API van WebHDFS rechtstreeks te blijven gebruiken. Azure HDInsight maakt volledig gebruik van AzureDataLakeFilesystem om de beste prestaties te leveren op Data Lake Storage Gen1.

U kunt toegang krijgen tot uw gegevens in Data Lake Storage Gen1 met behulp van adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Zie Eigenschappen van de opgeslagen gegevens weergeven voor meer informatie over toegang krijgen tot de gegevens in Data Lake Storage Gen1.

Volgende stappen