Principy Azure Data Lake Storage Gen2

Dokončeno

Data Lake je úložiště dat, která jsou uložena v přirozeném formátu, obvykle jako objekty blob nebo soubory. Azure Data Lake Storage je komplexní, široce škálovatelné, zabezpečené a nákladově efektivní řešení Data Lake pro vysoce výkonné analýzy integrované v Azure.

Diagram representing files in Azure data Lake Storage Gen2 being accessed by big data technologies.

Azure Data Lake Storage spojuje systém souborů s platformou úložiště a umožňuje rychle získat přehled o datech. Data Lake Storage staví na možnostech úložiště objektů blob v Azure, aby je optimalizovala speciálně pro analytické úlohy. Tato integrace přináší vysoký výkon při analýzách, možnosti vrstvení a správy životního cyklu dat úložiště objektů blob a nabízí funkce služby Azure Storage pro vysokou dostupnost, zabezpečení a odolnost.

Zaměstnanecké výhody

Data Lake Storage je navržená tak, aby se s touto rozmanitostí a objemem dat zabývala škálováním exabajtů a bezpečně zpracovávala stovky gigabajtů propustnosti. Data Lake Storage Gen2 proto můžete použít jako základ řešení pracujících v reálném čase i jako základ dávkových řešení.

Přístup kompatibilní s Hadoopem

Výhodou služby Data Lake Storage je, že data můžete považovat za uložená v systému souborů HDFS (Hadoop Distributed File System). Tato funkce vám umožňuje ukládat data na jednom místě a přistupovat k nim prostřednictvím různých výpočetních technologií, včetně Azure Databricks, Azure HDInsight a Azure Synapse Analytics, bez přesunů dat mezi prostředími. Datový inženýr má také možnost používat mechanismy úložiště, jako je formát parquet, který je vysoce komprimovaný a funguje dobře napříč několika platformami pomocí interního sloupcového úložiště.

Zabezpečení

Data Lake Storage podporuje seznamy řízení přístupu (ACL) a oprávnění POSIX (Portable Operating System Interface), která nedědí oprávnění nadřazeného adresáře. Ve skutečnosti můžete nastavit oprávnění na úrovni adresáře nebo na úrovni souboru pro data uložená v datovém jezeře, což poskytuje mnohem bezpečnější systém úložiště. Toto zabezpečení je konfigurovatelné prostřednictvím technologií, jako jsou Hive a Spark nebo nástroje, jako jsou Průzkumník služby Azure Storage, které běží ve Windows, macOS a Linuxu. Všechna uložená data, která se aktivně nevyužívají, jsou šifrovaná klíči Microsoftu nebo klíči spravovanými zákazníkem.

Výkon

V Azure Data Lake Storage jsou uložená data kvůli snadnější navigaci uspořádaná do hierarchie adresářů a podadresářů podobně jako u systému souborů. Zpracování dat tak ve výsledku vyžaduje méně výpočetních prostředků, což snižuje čas i náklady.

Redundance dat

Data Lake Storage využívá modely replikace objektů blob Azure, které poskytují redundanci dat v jednom datacentru s místně redundantním úložištěm (LRS) nebo do sekundární oblasti pomocí možnosti Geograficky redundantní úložiště (GRS). Díky této funkci jsou data trvale dostupná a chráněná pro případ katastrofy.

Tip

Kdykoli plánujete datové jezero, měl by datový inženýr zvážit strukturu, zásady správného řízení dat a zabezpečení. To by mělo zahrnovat faktory, které můžou ovlivnit strukturu jezera a organizaci, například:

  • Typy dat, která se mají uložit
  • Způsob transformace dat
  • Kdo by měla přistupovat k datům
  • Jaké jsou typické vzory přístupu

Tento přístup vám pomůže určit, jak naplánovat zásady správného řízení přístupu v celém jezeře. Datoví inženýři by měli být proaktivní při zajišťování toho, aby se jezero nestalo příslovečným datovým bažinem, které se stává nepřístupným a neužitečným uživatelům kvůli nedostatku zásad správného řízení dat a opatření pro kvalitu dat. Vytvoření standardních hodnot a následujících osvědčených postupů pro Azure Data Lake pomůže zajistit správnou a robustní implementaci, která organizaci umožní růst a získat přehled o tom, jak toho dosáhnout.