Co je datové jezero?

Data Lake je úložiště, které obsahuje velké množství dat v nativním nezpracovaném formátu. Úložiště Data Lake jsou optimalizovaná pro škálování na terabajty a petabajty dat. Data obvykle pocházejí z více heterogenních zdrojů a mohou být strukturovaná, částečně strukturovaná nebo nestrukturovaná. Myšlenka s datovým jezerem spočívá v ukládání všeho v původním, nepřehledném stavu. Tento přístup se liší od tradičního datového skladu, který transformuje a zpracovává data v době příjmu dat.

A diagram that shows the different data lake use cases.

Toto jsou klíčové případy použití data lake:

  • Přesun dat v cloudu a IoT
  • Zpracování velkých objemů dat
  • Analýza
  • Sestavy
  • Přesun místních dat

Výhody datového jezera:

  • Data se nikdy nevyhodí, protože data jsou uložená v nezpracované podobě. To je zvlášť užitečné v prostředí pro velké objemy dat, když nemusíte předem vědět, jaké přehledy jsou z dat k dispozici.
  • Uživatelé můžou zkoumat data a vytvářet vlastní dotazy.
  • Může být rychlejší než tradiční nástroje ETL.
  • Flexibilnější než datový sklad, protože může ukládat nestrukturovaná a částečně strukturovaná data.

Kompletní řešení Data Lake se skládá z úložiště i zpracování. Data Lake Storage je navržené pro odolnost proti chybám, neomezenou škálovatelnost a příjem dat s vysokou propustností s různými tvary a velikostmi. Zpracování datového jezera zahrnuje jeden nebo více procesorů vytvořených s těmito cíli a může pracovat s daty uloženými v datovém jezeře ve velkém měřítku.

Kdy použít data lake

Mezi typické použití datového jezera patří zkoumání dat, analýza dat a strojové učení.

Datové jezero může také fungovat jako zdroj dat pro datový sklad. Při tomto přístupu se nezpracovaná data ingestují do datového jezera a pak se transformují do strukturovaného dotazovatelného formátu. Tato transformace obvykle používá kanál ELT (extract-load-transform), kde se data ingestují a transformují. Zdrojová data, která už jsou relační, můžou přejít přímo do datového skladu pomocí procesu ETL a přeskočí datové jezero.

Úložiště Data Lake se často používají ve scénářích streamování událostí nebo IoT, protože můžou uchovávat velké objemy relačních a nerelačních dat bez transformace nebo definice schématu. Jsou vytvořené tak, aby zpracovávaly velké objemy malých zápisů s nízkou latencí a jsou optimalizované pro masivní propustnost.

Následující tabulka porovnává datová jezera a datové sklady:

A table that compares data lake features with data warehouse features.

Problémy

  • Nedostatek schématu nebo popisných metadat může ztěžovat využití nebo dotazování dat.
  • Nedostatek sémantické konzistence napříč daty může ztížit provádění analýzy dat, pokud uživatelé nejsou při analýze dat vysoce kvalifikovaní.
  • Může být obtížné zaručit kvalitu dat procházející do datového jezera.
  • Bez správného řízení může být problémy s řízením přístupu a ochranou osobních údajů. Jaké informace se dají do datového jezera, kdo má k datům přístup a k čemu slouží?
  • Datové jezero nemusí být nejlepším způsobem, jak integrovat data, která už jsou relační.
  • Samotné datové jezero neposkytuje integrované ani holistické zobrazení v celé organizaci.
  • Datové jezero se může stát dumpingovým bodem pro data, která se nikdy ve skutečnosti neanalyzuje nebo nezamíní na přehledy.

Technologické volby

Sestavte řešení Data Lake s využitím následujících služeb, které nabízí Azure:

A diagram that shows the key data lake services.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Další kroky