Přehled služby Azure Data Lake Storage pro analýzy v cloudovém měřítku

2024-10-19

Azure Data Lake je široce škálovatelné a zabezpečené úložiště dat pro vysoce výkonné analytické úlohy. Účty úložiště můžete vytvořit v rámci jedné skupiny prostředků pro analýzy v cloudovém měřítku. Doporučujeme zřídit tři účty Azure Data Lake Storage Gen2 v rámci jedné skupiny prostředků podobné storage-rg skupině prostředků popsané v článku s přehledem cílové zóny dat v architektuře cloudových analýz.

Každý účet úložiště v cílové zóně dat ukládá data v jedné ze tří fází, které odpovídají architektuře medailonu:

Nezpracovaná data (bronzová)
Obohacená (stříbrná) a kurátorovaná data (zlato)
Vývojová datová jezera

Datová aplikace může využívat rozšířená a kurátorovaná data z účtu úložiště, který se ingestoval službou automatizovaného příjmu dat. Zdrojovou aplikaci zarovnanou datovou aplikaci můžete vytvořit, pokud neimplementujete modul nezávislé na datech nebo usnadňujete složitá připojení pro ingestování dat z provozních zdrojů. Tato datová aplikace se řídí stejným tokem jako modul nezávislý na datech při ingestování dat z externích zdrojů dat.

Data Lake Storage Gen2 podporuje jemně odstupňované seznamy řízení přístupu (ACL), které chrání data na úrovni souborů a složek. Seznamy řízení přístupu můžou vaší organizaci pomoct implementovat úzká bezpečnostní opatření pro ověřování a autorizaci datových produktů tak, aby:

Bezpečně ukládejte data prostřednictvím šifrování neaktivních uložených dat.
Řízení přístupu pro uživatele a skupiny zabezpečení Microsoft Entra prostřednictvím integrace Microsoft Entra.

Plánování Data Lake

Při plánování datového jezera vždy zvažte vhodné aspekty struktury, zásad správného řízení a zabezpečení. Struktura a organizace datového jezera ovlivňují více faktorů:

Typ uložených dat
Způsob transformace dat
Kdo přistupuje k datům
Jaké jsou typické vzory přístupu

Seskupte spotřebitele a producenty na základě potřeb jejich přístupu k datům. Je vhodné naplánovat implementaci a řízení přístupu v datovém jezeře.

Pokud vaše datové jezero obsahuje několik datových prostředků a automatizovaných procesů, jako je extrakce, transformace, snižování zátěže (ETL), je pravděpodobné, že plánování bude poměrně snadné. Pokud vaše datové jezero obsahuje stovky datových prostředků a zahrnuje automatizovanou a ruční interakci, počítejte s tím, že strávíte delší dobu plánováním, protože od vlastníků dat potřebujete mnohem větší spolupráci.

Analogie s bažinami dat

Datové bažiny jsou nespravované datové jezero, které je téměř nepřístupné uživatelům. K datovým bažinám dochází v případě, že neimplementujete míry kvality dat a zásad správného řízení dat. V datovém skladu s existujícími hybridními modely se někdy může zobrazit datový bažina.

Správné zásady správného řízení a organizace brání přeplavům dat. Když vytvoříte solidní základ pro vaše datové jezero, zvýší se šance na trvalou úspěšnost data lake a obchodní hodnotu.

S rostoucí velikostí, složitostí, počtem datových prostředků a počtem uživatelů nebo oddělení vašeho datového jezera je stále důležitější mít robustní systém katalogu dat. Systém katalogu dat zajišťuje, aby uživatelé mohli najít, označit a klasifikovat data během zpracování, využívání a řízení datového jezera.

Další informace najdete v přehledu zásad správného řízení dat.

Účty úložiště v logickém datovém jezeře

Zvažte, jestli vaše organizace potřebuje jeden nebo více účtů úložiště, a zvažte, jaké systémy souborů potřebujete k vytvoření logického datového jezera. Jedna technologie úložiště poskytuje více metod přístupu k datům a pomáhá standardizovat napříč vaší organizací.

Data Lake Storage Gen2 je plně spravovaná platforma jako služba (PaaS). U několika účtů úložiště nebo systémů souborů se neúčtují peněžní náklady, dokud se k datům nepřistupuje nebo neuloží. Každý prostředek Azure má administrativní a provozní režii při zřizování, zabezpečení a zásadách správného řízení, včetně zálohování a zotavení po havárii.

Poznámka:

V každé cílové zóně dat jsou znázorněna tři datová jezera. V závislosti na vašich požadavcích ale můžete být schopni konsolidovat nezpracované, rozšířené a kurátorované vrstvy do jednoho účtu úložiště. Můžete vytvořit další účet úložiště s názvem "vývoj", kde spotřebitelé dat mohou přinést další užitečné datové produkty.

Při rozhodování mezi konsolidovanou nebo třem přístupem účtu úložiště zvažte následující faktory:

Izolace datových prostředí a předvídatelnost
- Aktivity, které běží v nezpracovaných a vývojových zónách, můžete izolovat, abyste se vyhnuli potenciálnímu vlivu na kurátorované zóny, která obsahuje data s velkou obchodní hodnotou potřebnou pro důležité rozhodování.
Funkce a funkce na úrovni účtu úložiště
- Můžete zvolit, jestli se musí použít možnosti správy životního cyklu nebo pravidla brány firewall na úrovni cílové zóny dat nebo datového jezera.
- Vytvořte více účtů úložiště, ale ne nežádoucí sila.
- Vyhněte se duplicitním datovým projektům z důvodu nedostatku viditelnosti nebo sdílení znalostí ve vaší organizaci.
- Ujistěte se, že máte správné zásady správného řízení dat, nástroje pro sledování projektů a katalog dat.
Interakce nástrojů a technologií pro zpracování dat s daty napříč několika jezery na základě nakonfigurovaných oprávnění
Regionální versus globální jezera
- Globálně distribuované uživatele nebo procesy v jezeře jsou citlivé na latenci způsobené geografickými vzdálenostmi.
- Místní ukládání dat je dobrým postupem.
- Regulační omezení a suverenita dat mohou vyžadovat, aby data zůstala v určité oblasti.
- Další informace najdete v tématu nasazení ve více oblastech.

Nasazení do více oblastí

Při diktování pravidly rezidence dat nebo požadavkem na zachování dat v blízkosti uživatelské základny možná budete muset vytvořit účty Azure Data Lake ve více oblastech Azure. Potřebujete vytvořit cílovou zónu dat v jedné oblasti a pak replikovat globální data pomocí AzCopy, Azure Data Factory nebo partnerských produktů. Místní data se nacházejí v oblasti, zatímco globální data se replikují do více oblastí.

Další kroky

Zóny a kontejnery Data Lake