Wat is een data lake?
Een data lake is een opslagopslagplaats met een grote hoeveelheid gegevens in de oorspronkelijke, onbewerkte indeling. Data Lake Stores zijn geoptimaliseerd voor schalen naar terabytes en petabytes aan gegevens. De gegevens zijn doorgaans afkomstig van meerdere heterogene bronnen en kunnen gestructureerd, semi-gestructureerd of ongestructureerd zijn. Het idee met een data lake is om alles in de oorspronkelijke, niet-vertaalde staat op te slaan. Deze benadering verschilt van een traditioneel datawarehouse, dat de gegevens op het moment van opname transformeert en verwerkt.
Hier volgen belangrijke data lake-use cases:
- Cloud- en IoT-gegevensverplaatsing
- Verwerking van big data
- Analyses
- Rapportage
- On-premises gegevensverplaatsing
Voordelen van een data lake:
- Gegevens worden nooit weggegooid, omdat de gegevens worden opgeslagen in de onbewerkte indeling. Dit is vooral handig in een big data-omgeving, wanneer u mogelijk niet van tevoren weet welke inzichten beschikbaar zijn op basis van de gegevens.
- Gebruikers kunnen de gegevens verkennen en hun eigen query's maken.
- Kan sneller zijn dan traditionele ETL-hulpprogramma's.
- Flexibeler dan een datawarehouse, omdat er ongestructureerde en semi-gestructureerde gegevens kunnen worden opgeslagen.
Een volledige Data Lake-oplossing bestaat uit zowel opslag als verwerking. Data Lake Storage is ontworpen voor fouttolerantie, oneindige schaalbaarheid en gegevensopname met hoge doorvoer met verschillende vormen en grootten. Data lake-verwerking omvat een of meer verwerkingsengines die zijn gebouwd met deze doelen in gedachten en kunnen op schaal worden gebruikt op basis van gegevens die zijn opgeslagen in een data lake.
Wanneer gebruikt u een data lake?
Typische toepassingen voor een data lake zijn gegevensverkenning, gegevensanalyse en machine learning.
Een data lake kan ook fungeren als de gegevensbron voor een datawarehouse. Met deze benadering worden de onbewerkte gegevens opgenomen in de data lake en vervolgens omgezet in een gestructureerde opvraagbare indeling. Deze transformatie maakt doorgaans gebruik van een ELT-pijplijn (extract-load-transform), waarbij de gegevens worden opgenomen en getransformeerd. Brongegevens die al relationeel zijn, kunnen rechtstreeks naar het datawarehouse gaan, met behulp van een ETL-proces, waardoor de data lake wordt overgeslagen.
Data Lake-archieven worden vaak gebruikt in gebeurtenisstreaming- of IoT-scenario's, omdat ze grote hoeveelheden relationele en niet-relationele gegevens kunnen behouden zonder transformatie of schemadefinitie. Ze zijn gebouwd voor het verwerken van grote hoeveelheden kleine schrijfbewerkingen met lage latentie en zijn geoptimaliseerd voor enorme doorvoer.
In de volgende tabel worden data lakes en datawarehouses vergeleken:
Uitdagingen
- Het ontbreken van een schema of beschrijvende metagegevens kan ervoor zorgen dat de gegevens moeilijk te gebruiken of te doorzoeken zijn.
- Gebrek aan semantische consistentie in de gegevens kan het lastig maken om analyses uit te voeren op de gegevens, tenzij gebruikers zeer ervaren zijn in gegevensanalyse.
- Het kan lastig zijn om de kwaliteit van de gegevens in de data lake te garanderen.
- Zonder de juiste governance kunnen problemen zijn met toegangsbeheer en privacyproblemen. Welke informatie gaat er naar de Data Lake, wie heeft toegang tot die gegevens en voor wat gebruikt?
- Een data lake is mogelijk niet de beste manier om gegevens te integreren die al relationeel zijn.
- Op zichzelf biedt een data lake geen geïntegreerde of holistische weergaven in de hele organisatie.
- Een data lake kan een dumpgrond worden voor gegevens die nooit daadwerkelijk worden geanalyseerd of gemined voor inzichten.
Technologieopties
Bouw data lake-oplossingen met behulp van de volgende services die worden aangeboden door Azure:
- Azure HD Insight is een beheerde opensource-analyseservice in de cloud voor ondernemingen.
- Azure Data Lake Store is een hyperscale, met Hadoop compatibele opslagplaats.
- Azure Data Lake Analytics is een service voor analyse op aanvraag om big data-analyses te vereenvoudigen.
Bijdragers
Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.
Hoofdauteur:
- Avijit Prasad | Cloudconsultant
Volgende stappen
- Wat is Azure HDInsight?
- Inleiding tot Azure Data Lake Storage
- Documentatie voor Azure Data Lake Analytics
- Inleiding tot Azure Data Lake Storage (trainingsmodule)
- Wat is een Data Lake?
Verwante resources
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor