Overzicht van Azure Data Lake Storage voor analyses op cloudschaal

Artikel
10/10/2023

Azure Data Lake is een zeer schaalbare en veilige gegevensopslag voor high-performance analyseworkloads. U kunt opslagaccounts binnen één resourcegroep maken voor analyses op cloudschaal. U wordt aangeraden drie Azure Data Lake Storage Gen2-accounts in te richten binnen één resourcegroep die vergelijkbaar is met de storage-rg resourcegroep die wordt beschreven in het artikel Overzicht van de gegevenslandingslandingszone in de cloudschaal.

Elk opslagaccount in uw gegevenslandingszone slaat gegevens op in een van de drie fasen:

Onbewerkte gegevens
Verrijkte en gecureerde gegevens
Ontwikkelingsdata lakes

Een gegevenstoepassing kan verrijkte en gecureerde gegevens gebruiken uit een opslagaccount dat is opgenomen in een geautomatiseerde gegevensagnostische opnameservice. U kunt een op de bron afgestemde gegevenstoepassing maken als u geen engine voor gegevensagnostiek implementeert of complexe verbindingen faciliteert voor het opnemen van gegevens uit operationele bronnen. Deze gegevenstoepassing volgt dezelfde stroom als een gegevensagnostiekengine bij het opnemen van gegevens uit externe gegevensbronnen.

Data Lake Storage Gen2 ondersteunt verfijnde toegangsbeheerlijsten (ACL's) die gegevens op bestand- en mapniveau beveiligen. Toegangsbeheerlijsten kunnen uw organisatie helpen bij het implementeren van strikte beveiligingsmaatregelen voor verificatie en autorisatie voor gegevensproducten in:

Gegevens veilig opslaan via versleuteling-at-rest.
Besturingselementen voor Microsoft Entra-gebruikers en beveiligingsgroepen via Microsoft Entra-integratie.

Data Lake-planning

Wanneer u een Data Lake plant, moet u altijd rekening houden met de structuur, governance en beveiliging. Meerdere factoren zijn van invloed op de structuur en organisatie van elke data lake:

Het type gegevens dat is opgeslagen
Hoe de gegevens worden getransformeerd
Wie toegang heeft tot de gegevens
Wat zijn typische toegangspatronen?

Consumenten en producenten groeperen op basis van hun gegevenstoegangsbehoeften. Het is een goed idee om implementatie en toegangsbeheer voor uw data lake te plannen.

Als uw Data Lake enkele gegevensassets en geautomatiseerde processen bevat, zoals etL-offloading (extract, transform, load), is uw planning waarschijnlijk redelijk eenvoudig. Als uw Data Lake honderden gegevensassets bevat en geautomatiseerde en handmatige interactie omvat, verwacht u een langere tijd te plannen, omdat u veel meer samenwerking nodig hebt van gegevenseigenaren.

Data moeras analogie

Een gegevensmoeland is een niet-beheerd data lake dat bijna niet toegankelijk is voor gebruikers. Gegevensmoerassen treden op wanneer u geen maatregelen voor gegevenskwaliteit en gegevensbeheer implementeert. Soms ziet u een gegevensmoeland in een datawarehouse met bestaande hybride modellen.

Goede governance en organisatie verhinderen gegevensmoerassen. Wanneer u een solide basis voor uw data lake bouwt, vergroot dit de kans op duurzaam succes en bedrijfswaarde van Data Lake.

Naarmate de grootte, complexiteit, het aantal gegevensassets en het aantal gebruikers of afdelingen van uw data lake groeit, is het steeds belangrijker dat u een robuust data catalogsysteem hebt. Uw gegevenscatalogussysteem zorgt ervoor dat uw gebruikers gegevens kunnen vinden, taggen en classificeren terwijl ze uw Data Lake verwerken, gebruiken en beheren.

Zie het overzicht van gegevensbeheer voor meer informatie.

Opslagaccounts in een logische Data Lake

Overweeg of uw organisatie een of meer opslagaccounts nodig heeft en overweeg welke bestandssystemen u nodig hebt om uw logische Data Lake te bouwen. Eén opslagtechnologie biedt meerdere methoden voor gegevenstoegang en helpt u bij het standaardiseren van uw organisatie.

Data Lake Storage Gen2 is een volledig beheerd platform als een service (PaaS). Voor meerdere opslagaccounts of bestandssystemen kunnen geen financiële kosten in rekening worden gebracht totdat gegevens worden geopend of opgeslagen. Houd er rekening mee dat elke Azure-resource administratieve en operationele overhead heeft gekoppeld tijdens het inrichten, beveiligen en beheren, waaronder back-ups en herstel na noodgevallen.

Notitie

In elke datalandingszone worden drie data lakes geïllustreerd. Afhankelijk van uw vereisten kunt u echter mogelijk de onbewerkte, verrijkte en gecureerde lagen samenvoegen in één opslagaccount. U kunt een ander opslagaccount maken met de naam 'ontwikkeling' waar gegevensgebruikers andere nuttige gegevensproducten kunnen meenemen.

Houd rekening met de volgende factoren bij het kiezen tussen een benadering van een geconsolideerd of drie opslagaccounts:

Isolatie van gegevensomgevingen en voorspelbaarheid
- U kunt activiteiten isoleren die worden uitgevoerd in de onbewerkte en ontwikkelingszones om potentiële gevolgen voor de gecureerde zone te voorkomen. Deze bevat gegevens met een grote bedrijfswaarde die nodig is voor kritieke besluitvorming
Functies en functionaliteit op opslagaccountniveau
- U kunt kiezen of opties voor levenscyclusbeheer of firewallregels moeten worden toegepast op gegevenslandingszone of data lake-niveau.
- Maak meerdere opslagaccounts, maar geen ongewenste silo's.
- Vermijd dubbele gegevensprojecten vanwege gebrek aan zichtbaarheid of kennisdeling in uw organisatie.
- Zorg ervoor dat u goede gegevensbeheer, hulpprogramma's voor projecttracking en een gegevenscatalogus hebt.
Interactie van hulpprogramma's en technologieën voor gegevensverwerking met gegevens in meerdere meren op basis van de geconfigureerde machtigingen
Regionale versus wereldwijde meren
- Wereldwijd gedistribueerde consumenten of processen op het meer zijn gevoelig voor latentie die wordt veroorzaakt door geografische afstanden.
- Het lokaal opslaan van gegevens is een goede gewoonte.
- Wettelijke beperkingen en gegevenssoevereine kunnen vereisen dat gegevens in een bepaalde regio blijven.
- Zie implementaties voor meerdere regio's voor meer informatie.

Implementaties voor meerdere regio's

Wanneer u wordt bepaald door regels voor gegevenslocatie of een vereiste die u nodig hebt om gegevens dicht bij een gebruikersbestand te houden, moet u mogelijk Azure Data Lake-accounts maken in meerdere Azure-regio's. Hiervoor maakt u een gegevenslandingszone in één regio en repliceert u vervolgens globale gegevens met behulp van AzCopy, Azure Data Factory of producten van derden. Lokale gegevens bevinden zich in een regio, terwijl globale gegevens worden gerepliceerd in meerdere regio's.

Volgende stappen

Data Lake-zones en -containers