Wat is een data lake?

Een data lake is een opslagopslagplaats met een grote hoeveelheid gegevens in de oorspronkelijke, onbewerkte indeling. Data Lake Stores zijn geoptimaliseerd voor schalen naar terabytes en petabytes aan gegevens. De gegevens zijn doorgaans afkomstig van meerdere heterogene bronnen en kunnen gestructureerd, semi-gestructureerd of ongestructureerd zijn. Het idee met een data lake is om alles in de oorspronkelijke, niet-vertaalde staat op te slaan. Deze benadering verschilt van een traditioneel datawarehouse, dat de gegevens op het moment van opname transformeert en verwerkt.

A diagram that shows the different data lake use cases.

Hier volgen belangrijke data lake-use cases:

  • Cloud- en IoT-gegevensverplaatsing
  • Verwerking van big data
  • Analyses
  • Rapportage
  • On-premises gegevensverplaatsing

Voordelen van een data lake:

  • Gegevens worden nooit weggegooid, omdat de gegevens worden opgeslagen in de onbewerkte indeling. Dit is vooral handig in een big data-omgeving, wanneer u mogelijk niet van tevoren weet welke inzichten beschikbaar zijn op basis van de gegevens.
  • Gebruikers kunnen de gegevens verkennen en hun eigen query's maken.
  • Kan sneller zijn dan traditionele ETL-hulpprogramma's.
  • Flexibeler dan een datawarehouse, omdat er ongestructureerde en semi-gestructureerde gegevens kunnen worden opgeslagen.

Een volledige Data Lake-oplossing bestaat uit zowel opslag als verwerking. Data Lake Storage is ontworpen voor fouttolerantie, oneindige schaalbaarheid en gegevensopname met hoge doorvoer met verschillende vormen en grootten. Data lake-verwerking omvat een of meer verwerkingsengines die zijn gebouwd met deze doelen in gedachten en kunnen op schaal worden gebruikt op basis van gegevens die zijn opgeslagen in een data lake.

Wanneer gebruikt u een data lake?

Typische toepassingen voor een data lake zijn gegevensverkenning, gegevensanalyse en machine learning.

Een data lake kan ook fungeren als de gegevensbron voor een datawarehouse. Met deze benadering worden de onbewerkte gegevens opgenomen in de data lake en vervolgens omgezet in een gestructureerde opvraagbare indeling. Deze transformatie maakt doorgaans gebruik van een ELT-pijplijn (extract-load-transform), waarbij de gegevens worden opgenomen en getransformeerd. Brongegevens die al relationeel zijn, kunnen rechtstreeks naar het datawarehouse gaan, met behulp van een ETL-proces, waardoor de data lake wordt overgeslagen.

Data Lake-archieven worden vaak gebruikt in gebeurtenisstreaming- of IoT-scenario's, omdat ze grote hoeveelheden relationele en niet-relationele gegevens kunnen behouden zonder transformatie of schemadefinitie. Ze zijn gebouwd voor het verwerken van grote hoeveelheden kleine schrijfbewerkingen met lage latentie en zijn geoptimaliseerd voor enorme doorvoer.

In de volgende tabel worden data lakes en datawarehouses vergeleken:

A table that compares data lake features with data warehouse features.

Uitdagingen

  • Het ontbreken van een schema of beschrijvende metagegevens kan ervoor zorgen dat de gegevens moeilijk te gebruiken of te doorzoeken zijn.
  • Gebrek aan semantische consistentie in de gegevens kan het lastig maken om analyses uit te voeren op de gegevens, tenzij gebruikers zeer ervaren zijn in gegevensanalyse.
  • Het kan lastig zijn om de kwaliteit van de gegevens in de data lake te garanderen.
  • Zonder de juiste governance kunnen problemen zijn met toegangsbeheer en privacyproblemen. Welke informatie gaat er naar de Data Lake, wie heeft toegang tot die gegevens en voor wat gebruikt?
  • Een data lake is mogelijk niet de beste manier om gegevens te integreren die al relationeel zijn.
  • Op zichzelf biedt een data lake geen geïntegreerde of holistische weergaven in de hele organisatie.
  • Een data lake kan een dumpgrond worden voor gegevens die nooit daadwerkelijk worden geanalyseerd of gemined voor inzichten.

Technologieopties

Bouw data lake-oplossingen met behulp van de volgende services die worden aangeboden door Azure:

A diagram that shows the key data lake services.

Bijdragers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Volgende stappen