Co je datové jezero?
Data Lake je úložiště, které obsahuje velké množství dat v nativním nezpracovaném formátu. Úložiště Data Lake jsou optimalizovaná pro škálování na terabajty a petabajty dat. Data obvykle pocházejí z více heterogenních zdrojů a mohou být strukturovaná, částečně strukturovaná nebo nestrukturovaná. Myšlenka s datovým jezerem spočívá v ukládání všeho v původním, nepřehledném stavu. Tento přístup se liší od tradičního datového skladu, který transformuje a zpracovává data v době příjmu dat.
Toto jsou klíčové případy použití data lake:
- Přesun dat v cloudu a IoT
- Zpracování velkých objemů dat
- Analýza
- Sestavy
- Přesun místních dat
Výhody datového jezera:
- Data se nikdy nevyhodí, protože data jsou uložená v nezpracované podobě. To je zvlášť užitečné v prostředí pro velké objemy dat, když nemusíte předem vědět, jaké přehledy jsou z dat k dispozici.
- Uživatelé můžou zkoumat data a vytvářet vlastní dotazy.
- Může být rychlejší než tradiční nástroje ETL.
- Flexibilnější než datový sklad, protože může ukládat nestrukturovaná a částečně strukturovaná data.
Kompletní řešení Data Lake se skládá z úložiště i zpracování. Data Lake Storage je navržené pro odolnost proti chybám, neomezenou škálovatelnost a příjem dat s vysokou propustností s různými tvary a velikostmi. Zpracování datového jezera zahrnuje jeden nebo více procesorů vytvořených s těmito cíli a může pracovat s daty uloženými v datovém jezeře ve velkém měřítku.
Kdy použít data lake
Mezi typické použití datového jezera patří zkoumání dat, analýza dat a strojové učení.
Datové jezero může také fungovat jako zdroj dat pro datový sklad. Při tomto přístupu se nezpracovaná data ingestují do datového jezera a pak se transformují do strukturovaného dotazovatelného formátu. Tato transformace obvykle používá kanál ELT (extract-load-transform), kde se data ingestují a transformují. Zdrojová data, která už jsou relační, můžou přejít přímo do datového skladu pomocí procesu ETL a přeskočí datové jezero.
Úložiště Data Lake se často používají ve scénářích streamování událostí nebo IoT, protože můžou uchovávat velké objemy relačních a nerelačních dat bez transformace nebo definice schématu. Jsou vytvořené tak, aby zpracovávaly velké objemy malých zápisů s nízkou latencí a jsou optimalizované pro masivní propustnost.
Následující tabulka porovnává datová jezera a datové sklady:
Problémy
- Nedostatek schématu nebo popisných metadat může ztěžovat využití nebo dotazování dat.
- Nedostatek sémantické konzistence napříč daty může ztížit provádění analýzy dat, pokud uživatelé nejsou při analýze dat vysoce kvalifikovaní.
- Může být obtížné zaručit kvalitu dat procházející do datového jezera.
- Bez správného řízení může být problémy s řízením přístupu a ochranou osobních údajů. Jaké informace se dají do datového jezera, kdo má k datům přístup a k čemu slouží?
- Datové jezero nemusí být nejlepším způsobem, jak integrovat data, která už jsou relační.
- Samotné datové jezero neposkytuje integrované ani holistické zobrazení v celé organizaci.
- Datové jezero se může stát dumpingovým bodem pro data, která se nikdy ve skutečnosti neanalyzuje nebo nezamíní na přehledy.
Technologické volby
Sestavte řešení Data Lake s využitím následujících služeb, které nabízí Azure:
- Azure HD Insight je spravovaná opensourcová analytická služba v cloudu pro podniky.
- Azure Data Lake Store je hyperškálování úložiště kompatibilní s Hadoopem.
- Azure Data Lake Analytics je služba analytických úloh na vyžádání, která zjednodušuje analýzu velkých objemů dat.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Avijit Prasad | Cloud Consultant
Další kroky
- Co je Azure HDInsight?
- Seznámení se službou Azure Data Lake Storage
- Dokumentace ke službě Azure Data Lake Analytics
- Úvod do Služby Azure Data Lake Storage (trénovací modul)
- Co je Data Lake?
Související prostředky
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro