Přehled služby Azure Data Lake Storage pro analýzy v cloudovém měřítku

Azure Data Lake je široce škálovatelné a zabezpečené úložiště dat pro vysoce výkonné analytické úlohy. Účty úložiště můžete vytvořit v rámci jedné skupiny prostředků pro analýzy v cloudovém měřítku. Doporučujeme zřídit tři účty Azure Data Lake Storage Gen2 v rámci jedné skupiny prostředků podobné storage-rg skupině prostředků popsané v článku s přehledem cílové zóny dat v architektuře cloudových analýz.

Každý účet úložiště v cílové zóně dat ukládá data v jedné ze tří fází:

  • Nezpracovaná data
  • Rozšířená a kurátorovaná data
  • Vývojová datová jezera

Datová aplikace může využívat rozšířená a kurátorovaná data z účtu úložiště, který se ingestoval službou automatizovaného příjmu dat. Zdrojovou aplikaci zarovnanou datovou aplikaci můžete vytvořit, pokud neimplementujete modul nezávislé na datech nebo usnadňujete složitá připojení pro ingestování dat z provozních zdrojů. Tato datová aplikace se řídí stejným tokem jako modul nezávislý na datech při ingestování dat z externích zdrojů dat.

Data Lake Storage Gen2 podporuje jemně odstupňované seznamy řízení přístupu (ACL), které chrání data na úrovni souborů a složek. Seznamy řízení přístupu můžou vaší organizaci pomoct implementovat úzká bezpečnostní opatření pro ověřování a autorizaci datových produktů tak, aby:

  • Bezpečně ukládejte data prostřednictvím šifrování neaktivních uložených dat.
  • Řízení přístupu pro uživatele a skupiny zabezpečení Microsoft Entra prostřednictvím integrace Microsoft Entra.

Plánování Data Lake

Při plánování datového jezera vždy zvažte vhodné aspekty struktury, zásad správného řízení a zabezpečení. Struktura a organizace datového jezera ovlivňují více faktorů:

  • Typ uložených dat
  • Způsob transformace dat
  • Kdo přistupuje k datům
  • Jaké jsou typické vzory přístupu

Seskupte spotřebitele a producenty na základě potřeb jejich přístupu k datům. Je vhodné naplánovat implementaci a řízení přístupu v datovém jezeře.

Pokud vaše datové jezero obsahuje několik datových prostředků a automatizovaných procesů, jako je extrakce, transformace, snižování zátěže (ETL), je pravděpodobné, že plánování bude poměrně snadné. Pokud vaše datové jezero obsahuje stovky datových prostředků a zahrnuje automatizovanou a ruční interakci, počítejte s tím, že strávíte plánováním delšího času, protože od vlastníků dat budete potřebovat mnohem větší spolupráci.

Analogie s bažinami dat

Datové bažiny jsou nespravované datové jezero, které je téměř nepřístupné uživatelům. K datovým bažinám dochází v případě, že neimplementujete míry kvality dat a zásad správného řízení dat. V datovém skladu s existujícími hybridními modely se někdy může zobrazit datový bažina.

Správné zásady správného řízení a organizace brání přeplavům dat. Když vytvoříte solidní základ pro vaše datové jezero, zvýší se šance na trvalou úspěšnost data lake a obchodní hodnotu.

S rostoucí velikostí, složitostí, počtem datových prostředků a počtem uživatelů nebo oddělení vašeho datového jezera je stále důležitější mít robustní systém katalogu dat. Systém katalogu dat zajišťuje, aby uživatelé mohli najít, označit a klasifikovat data během zpracování, využívání a řízení datového jezera.

Další informace najdete v přehledu zásad správného řízení dat.

Účty úložiště v logickém datovém jezeře

Zvažte, jestli vaše organizace potřebuje jeden nebo více účtů úložiště, a zvažte, jaké systémy souborů potřebujete k vytvoření logického datového jezera. Jedna technologie úložiště poskytuje více metod přístupu k datům a pomáhá standardizovat napříč vaší organizací.

Data Lake Storage Gen2 je plně spravovaná platforma jako služba (PaaS). U několika účtů úložiště nebo systémů souborů se neúčtují peněžní náklady, dokud se k datům nepřistupuje nebo neuloží. Všimněte si, že každý prostředek Azure má během zřizování, zabezpečení a zásad správného řízení přidruženou administrativní a provozní režii, včetně záloh a zotavení po havárii.

Poznámka

V každé cílové zóně dat jsou znázorněna tři datová jezera. V závislosti na vašich požadavcích ale můžete sloučit nezpracované, rozšířené a kurátorované vrstvy do jednoho účtu úložiště. Můžete vytvořit další účet úložiště s názvem "vývoj", kde spotřebitelé dat mohou přinést další užitečné datové produkty.

Při rozhodování mezi konsolidovanou nebo třem přístupem účtu úložiště zvažte následující faktory:

  • Izolace datových prostředí a předvídatelnost
    • Aktivity, které běží v nezpracovaných a vývojových zónách, můžete izolovat, abyste se vyhnuli potenciálnímu vlivu na kurátorované zóny, která obsahuje data s velkou obchodní hodnotou, která je potřebná pro důležité rozhodování.
  • Funkce a funkce na úrovni účtu úložiště
    • Můžete zvolit, jestli se musí použít možnosti správy životního cyklu nebo pravidla brány firewall na úrovni cílové zóny dat nebo datového jezera.
    • Vytvořte více účtů úložiště, ale ne nežádoucí sila.
    • Vyhněte se duplicitním datovým projektům z důvodu nedostatku viditelnosti nebo sdílení znalostí ve vaší organizaci.
    • Ujistěte se, že máte správné zásady správného řízení dat, nástroje pro sledování projektů a katalog dat.
  • Interakce nástrojů a technologií pro zpracování dat s daty napříč několika jezery na základě nakonfigurovaných oprávnění
  • Regionální versus globální jezera
    • Globálně distribuované uživatele nebo procesy v jezeře jsou citlivé na latenci způsobené geografickými vzdálenostmi.
    • Místní ukládání dat je dobrým postupem.
    • Regulační omezení a suverenita dat mohou vyžadovat, aby data zůstala v určité oblasti.
    • Další informace najdete v tématu nasazení ve více oblastech.

Nasazení ve více oblastech

Při diktování pravidly rezidence dat nebo požadavkem na zachování dat v blízkosti uživatelské základny možná budete muset vytvořit účty Azure Data Lake ve více oblastech Azure. Uděláte to tak, že vytvoříte cílovou zónu dat v jedné oblasti a pak replikujte globální data pomocí AzCopy, Azure Data Factory nebo produktů třetích stran. Místní data se nacházejí v oblasti, zatímco globální data se replikují do více oblastí.

Další kroky

Zóny a kontejnery Data Lake