Vad är en datasjö?

En datasjö är en lagringsplats som innehåller en stor mängd data i sitt ursprungliga rådataformat. Datasjölager är optimerade för skalning till terabyte och petabyte med data. Data kommer vanligtvis från flera heterogena källor och kan vara strukturerade, halvstrukturerade eller ostrukturerade. Tanken med en datasjö är att lagra allt i sitt ursprungliga, otransformerade tillstånd. Den här metoden skiljer sig från ett traditionellt informationslager som transformerar och bearbetar data vid tidpunkten för inmatningen.

A diagram that shows the different data lake use cases.

Följande är viktiga användningsfall för Data Lake:

  • Moln- och IoT-dataflytt
  • Bearbetning av stordata
  • Analys
  • Rapportering
  • Lokal dataflytt

Fördelar med en datasjö:

  • Data kastas aldrig bort eftersom data lagras i dess rådataformat. Detta är särskilt användbart i en stordatamiljö, när du kanske inte i förväg vet vilka insikter som är tillgängliga från data.
  • Användare kan utforska data och skapa egna frågor.
  • Kan vara snabbare än traditionella ETL-verktyg.
  • Mer flexibelt än ett informationslager eftersom det kan lagra ostrukturerade och halvstrukturerade data.

En komplett datasjölösning består av både lagring och bearbetning. Data lake storage är utformat för feltolerans, oändlig skalbarhet och datainmatning med högt dataflöde med varierande former och storlekar. Data lake-bearbetning omfattar en eller flera bearbetningsmotorer som skapats med dessa mål i åtanke och kan användas på data som lagras i en datasjö i stor skala.

När du ska använda en datasjö

Vanliga användningsområden för en datasjö är datautforskning, dataanalys och maskininlärning.

En datasjö kan också fungera som datakälla för ett informationslager. Med den här metoden matas rådata in i datasjön och omvandlas sedan till ett strukturerat frågeformat. Vanligtvis använder den här omvandlingen en ELT-pipeline (extract-load-transform), där data matas in och transformeras på plats. Källdata som redan är relationsbaserade kan gå direkt till informationslagret med hjälp av en ETL-process och hoppa över datasjön.

Datasjölager används ofta i händelseströmnings- eller IoT-scenarier, eftersom de kan bevara stora mängder relations- och icke-relationsdata utan transformering eller schemadefinition. De är byggda för att hantera stora mängder små skrivningar med låg svarstid och är optimerade för massivt dataflöde.

I följande tabell jämförs datasjöar och informationslager:

A table that compares data lake features with data warehouse features.

Utmaningar

  • Brist på schema eller beskrivande metadata kan göra data svåra att använda eller fråga.
  • Brist på semantisk konsekvens i data kan göra det svårt att utföra analys på data, såvida inte användarna är mycket skickliga på dataanalys.
  • Det kan vara svårt att garantera kvaliteten på data som hamnar i datasjön.
  • Utan rätt styrning kan åtkomstkontroll och sekretessproblem vara problem. Vilken information hamnar i datasjön, vem kan komma åt dessa data och för vad som används?
  • En datasjö kanske inte är det bästa sättet att integrera data som redan är relationella.
  • En datasjö tillhandahåller i sig inte integrerade eller holistiska vyer i hela organisationen.
  • En datasjö kan bli en dumpningsplats för data som aldrig analyseras eller bryts för insikter.

Teknikval

Skapa datasjölösningar med hjälp av följande tjänster som erbjuds av Azure:

A diagram that shows the key data lake services.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Nästa steg