Škálování analýz v cloudu v Azure

Škálovatelná datová platforma je důležitá pro umožnění rychlého růstu dat. Velké objemy dat se generují každou sekundu po celém světě. Očekává se, že množství dostupných dat bude v příštích několika letech exponenciálně růst. S rostoucí rychlostí generování dat se také zvyšuje rychlost přesunu dat.

Bez ohledu na to, kolik dat máte, vyžadují uživatelé rychlé odpovědi na dotazy. Očekávají, že budou čekat minuty, ne hodiny a výsledky. Tento článek vysvětluje, jak můžete škálovat řešení analýzy cloudového škálování Azure a pokračovat v plnění požadavků uživatelů na rychlost.

Úvod

Mnoho podniků má monolitické datové platformy. Tyto monolitické typy jsou postavené na jednom účtu Azure Data Lake Gen2 a někdy v jednom kontejneru úložiště. Jedno předplatné Azure se často používá pro všechny úlohy související s datovou platformou. Škálování na úrovni předplatného chybí ve většině architekturních platforem, což může bránit průběžnému přechodu na Azure, pokud uživatelé narazí na některé z omezení předplatného Nebo na úrovni služeb Azure. I když některá omezení představují měkké limity, může jejich dosažení mít na datovou platformu významný negativní vliv.

Při strukturování datové platformy zvažte strukturu vaší organizace. Poznamenejte si vlastnictví dat a funkční zodpovědnosti vašich týmů. Pokud vaše organizace dává týmům velký stupeň samostatnosti a distribuovaného vlastnictví, je nejlepší volbou architektura datové sítě.

Vyhněte se situacím, které mají různé týmy zodpovědné za různé úkoly řešení – úkoly, jako je příjem dat, čištění, agregace a obsluha. V závislosti na několika týmech může dojít k výrazné ztrátě rychlosti. Pokud například spotřebitelé dat v obslužné vrstvě potřebují připojit nové datové prostředky nebo implementovat funkční změny pro konkrétní datový prostředek, musí projít vícekrokovým procesem. V tomto příkladu jsou tyto kroky:

  1. Příjemce dat odešle lístek všem týmům zodpovědným za fázi datového kanálu.
  2. Týmy musí spolupracovat na synchronizaci, protože vrstvy jsou vzájemně propojené. Nové služby vyžadují změny vrstvy čištění dat, což vede ke změnám ve vrstvě agregace dat, což vede ke změnám v obslužné vrstvě. Změny můžou mít vliv na každou fázi kanálu.
  3. Je obtížné, aby týmy viděly potenciální účinky zpracování změn, protože nemají přehled o celém kompletním životním cyklu. Musí spolupracovat na návrhu dobře definovaného plánu verze, který minimalizuje dopady na stávající uživatele a kanály. Tato správa závislostí zvyšuje režijní náklady na správu.
  4. Týmy zpravidla nejsou odborníky na datový prostředek, který spotřebitel dat požaduje. Aby bylo možné porozumět novým funkcím datové sady nebo hodnotám parametrů, musí se obrátit na odborníka.
  5. Po implementaci všech změn se příjemci dat oznámí, že nový datový prostředek je připravený k použití.

Každá velká organizace má tisíce příjemců dat. Složitý proces, jako je ten, který jsme popsali, výrazně snižuje rychlost ve velkých architekturách, protože centralizované týmy se stávají kritickým bodem obchodních jednotek. Výsledkem je méně inovací a omezená efektivita. Obchodní jednotky se můžou rozhodnout, že službu opustí a místo toho vytvoří vlastní datovou platformu.

Metody škálování

Diagram of data management landing zone and multiple data landing zones.

Analýzy v cloudovém měřítku řeší problémy se škálováním pomocí dvou základních konceptů:

  • Použití cílových zón dat pro škálování
  • Použití datových produktů nebo integrací dat ke škálování, aby bylo možné distribuované a decentralizované vlastnictví dat

Můžete nasadit jednu cílovou zónu dat nebo několik zón. Cílové zóny dat umožňují zjistit a spravovat data připojením k cílové zóně správy dat. Každá cílová zóna správy dat je v rámci jednoho předplatného Azure.

Předplatná jsou jednotky správy, fakturace a škálování Azure. Hrají důležitou roli ve vašem rozsáhlém plánu přechodu na Azure.

Škálování s využitím cílových zón dat

Centrální koncepty analýzy v cloudovém měřítku jsou cílová zóna správy dat a cílová zóna dat. Každý z nich byste měli umístit do vlastního předplatného Azure. Oddělení vám umožní jasně oddělit povinnosti, dodržovat princip nejnižších oprávnění a částečně řešit problémy se škálováním předplatného, které jsme zmínili dříve. Minimální nastavení analýzy v cloudu zahrnuje jednu cílovou zónu dat a jednu cílovou zónu správy dat.

Minimální nastavení ale nestačí pro nasazení rozsáhlých datových platforem. Společnosti vytvářejí rozsáhlé platformy a investují do konzistentního a efektivního škálování svých dat a analýz v průběhu času. K překonání omezení na úrovni předplatného používá analýza na úrovni cloudu předplatná jako jednotku škálování, jak je popsáno v cílových zónách Azure. Tato technika umožňuje zvýšit nároky na datovou platformu přidáním dalších cílových zón dat do architektury. Přijetí této techniky řeší také problém jednoho Azure Data Lake Gen2, který se používá pro celou organizaci, protože každá cílová zóna dat zahrnuje tři datová jezera. Projekty a aktivity z více domén je možné distribuovat napříč více než jedním předplatným Azure, a tím zajistit větší škálovatelnost.

Než implementujete architekturu analýzy na úrovni cloudu, rozhodněte se, kolik cílových zón dat vaše organizace vyžaduje. Správné rozhodnutí stanoví základ efektivní a efektivní datové platformy.

Požadovaný počet cílových zón dat závisí na mnoha faktorech, zejména:

  • Organizační sladění, například kolik obchodních jednotek potřebuje vlastní cílovou zónu dat
  • Provozní aspekty, například způsob, jakým vaše organizace zarovná provozní prostředky a prostředky specifické pro obchodní jednotku.

Použití správného modelu cílové zóny dat minimalizuje budoucí úsilí o přesun datových produktů a datových prostředků z jedné cílové zóny do jiné. V budoucnu vám také pomůže efektivně a konzistentně škálovat velké objemy dat a analýzy.

Při rozhodování o počtu cílových zón dat, které se mají nasadit, zvažte následující faktory.

Faktor Popis
Organizační struktura a vlastnictví dat Zvažte, jak je vaše organizace strukturovaná a jak jsou ve vaší organizaci vlastněná data.
Oblast a umístění Pokud nasadíte ve více oblastech, rozhodněte se, která oblast nebo oblasti mají být hostitelem datových zón. Nezapomeňte dodržovat všechny požadavky na rezidenci dat.
Kvóty Kvóty předplatného nejsou záruky kapacity a použijí se na základě jednotlivých oblastí.
Suverenita dat Kvůli zákonům o suverenitě dat musí být data uložená v konkrétní oblasti a dodržovat zásady specifické pro jednotlivé oblasti.
Zásady Azure Cílové zóny dat musí dodržovat požadavky různých zásad Azure.
Hranice správy Předplatná poskytují hranici správy pro zásady správného řízení a izolaci, která jasně odděluje obavy.
Sítě Každá cílová zóna má virtuální síť. Vzhledem k tomu, že virtuální síť se nachází v jedné oblasti, každá nová oblast vyžaduje novou cílovou zónu. Virtuální sítě musí být partnerskými virtuálními sítěmi, aby bylo možné komunikaci mezi doménou povolit.
Limity Předplatné má omezení. Když máte několik předplatných, můžete zmírnit nebezpečí dosažení těchto limitů.
Přidělení nákladů Zvažte, jestli sdílené služby, jako jsou účty úložiště placené centrálně, by měly být rozdělené podle obchodní jednotky nebo domény. Použití samostatného předplatného vytvoří hranici pro alokaci nákladů. Stejné funkce můžete dosáhnout pomocí značek.
Klasifikace dat a vysoce důvěrná data Mechanismy zabezpečení můžou ovlivnit vývoj datových produktů a použitelnost datové platformy. Zvažte klasifikace dat a rozhodněte se, jestli vysoce důvěrné datové sady vyžadují zvláštní zacházení, jako je přístup za běhu, klíče spravované zákazníkem (CMK), jemně odstupňované řízení sítě nebo více šifrování.
Jiné právní nebo bezpečnostní důsledky Zvažte, jestli existují nějaké další právní nebo bezpečnostní požadavky, které vyžadují logické nebo fyzické oddělení dat.

Pokud implementujete architekturu datových sítí, zvažte při rozhodování, jak distribuovat cílové zóny dat a datové domény následující faktory.

Faktor Popis
Datové domény Zvažte datové domény, které vaše organizace používá, a rozhodněte se, které budou na vaší datové platformě. Zvažte velikost jednotlivých datových domén. Další informace najdete v tématu Co jsou datové domény?
Latence Domény, které spolupracují na velkých objemech dat, můžou přenášet velké množství dat napříč cílovými zónami. Zvažte přidělení domén ve stejné cílové zóně nebo oblasti. Oddělením se zvyšuje latence a můžou se zvýšit náklady v doménách napříč oblastmi.
Zabezpečení Některá nasazení nebo konfigurace služby vyžadují v předplatném zvýšená oprávnění. Udělení těchto oprávnění uživateli v jedné doméně implicitně dává uživateli stejná oprávnění v jiných doménách ve stejném předplatném.

Další aspekty najdete v pokynech pro architekturu přechodu na cloud pro předplatná.

Mnoho organizací chce efektivní škálování podnikové datové platformy. Obchodní jednotky by měly být schopné vytvářet vlastní datová řešení a aplikace, aby splňovaly jedinečné požadavky. Poskytnutí této schopnosti může být výzvou, protože mnoho stávajících datových platforem není postavené na konceptech škálovatelnosti a decentralizovaného vlastnictví. Tento nedostatek je jasně vidět v architektuře, týmové struktuře a provozním modelu těchto datových platforem.

Cílové zóny dat nevytvoří v rámci vaší organizace datové sila. Doporučené nastavení sítě pro analýzy v cloudovém měřítku umožňuje zabezpečené a místní sdílení dat napříč cílovými zónami, které zase umožňuje inovace napříč datovými doménami a obchodními jednotkami. Další informace najdete v tématu Aspekty síťové architektury.

Totéž platí pro vrstvu identity. Pokud používáte jednoho tenanta Microsoft Entra, můžete identitám udělit přístup k datovým prostředkům v několika cílových zónách dat. Další informace o procesu autorizace uživatele a identity najdete v tématu Správa přístupu k datům.

Poznámka

Pokud máte více cílových zón dat, můžou se každá zóna připojit k datům hostovaným v jiných zónách. To umožňuje skupinám spolupracovat v rámci vaší firmy.

Analýzy v cloudovém měřítku používají společnou architekturu pro zajištění konzistentních zásad správného řízení. Vaše architektura definuje základní možnosti a zásady. Všechny cílové zóny dat dodržují stejné auditování a ovládací prvky. Týmy můžou vytvářet datové kanály, ingestovat zdroje a vytvářet datové produkty, jako jsou sestavy a řídicí panely. Týmy také můžou podle potřeby provádět analýzu Sparku nebo SQL. Možnosti cílové zóny dat můžete rozšířit přidáním služeb do funkce v zásadách. Tým může například přidat grafový modul třetí strany pro řešení obchodních požadavků.

Analýza v cloudovém měřítku klade důraz na centrální kataloging a klasifikaci, aby chránila data a umožnila různým skupinám zjišťovat datové produkty.

Upozornění

Doporučujeme dotazovat se na data napříč oblastmi. Místo toho se ujistěte, že se data blíží výpočetním prostředkům, které je používají, a současně respektujte regionální hranice.

Architektura analýzy na úrovni cloudu a koncept cílových zón dat umožňují vaší organizaci snadno zvýšit velikost datové platformy v průběhu času. Do fázovaného přístupu můžete přidat další cílové zóny dat. Vaši zákazníci nemusí mít nejprve více cílových zón. Když tuto architekturu přijmete, upřednostníte několik cílových zón dat a datových produktů, které obsahují. Správné stanovení priorit pomáhá zajistit úspěch nasazení analýz na úrovni cloudu.

Škálování s využitím datových produktů nebo integrací dat

V rámci každé cílové zóny může vaše organizace škálovat pomocí datových aplikací. Datové aplikace jsou jednotky nebo komponenty architektury dat, které zapouzdřují funkce, které poskytují datové produkty optimalizované pro čtení pro spotřebu jinými datovými aplikacemi. Datové aplikace v Azure jsou prostředí ve formě skupin prostředků, které umožňují křížovým týmům implementovat datová řešení a úlohy. Přidružený tým se stará o kompletní životní cyklus datového řešení, včetně příjmu dat, čištění, agregace a obsluhy úkolů.

Analýzy na úrovni cloudu řeší problémy s integrací dat a zodpovědností, které jsme probírali dříve. Místo monolitických funkčních zodpovědností za ingestování tabulek a integraci zdrojového systému poskytuje referenční návrh distribuovanou architekturu řízenou datovými doménami. Mezifunkční týmy přebírají kompletní funkční odpovědnost a vlastnictví oboru dat.

Místo centralizovaného technického zásobníku a týmu, který zodpovídá za všechny úkoly pracovního postupu zpracování dat, můžete distribuovat kompletní odpovědnost napříč několika autonomními týmy pro integraci dat napříč různými funkcemi. Každý tým vlastní funkci domény nebo subdomény a doporučuje se, aby sloužil datovým sadám podle požadavků příjemců dat.

Tyto architektonické rozdíly vedou ke zvýšení rychlosti datové platformy. Vaši spotřebitelé dat už nemusí spoléhat na sadu centralizovaných týmů nebo bojovat za to, aby jejich požadované změny měly přednost. Vzhledem k tomu, že menší týmy přebírají vlastnictví kompletního pracovního postupu integrace, smyčka zpětné vazby mezi zprostředkovatelem dat a příjemcem dat je mnohem kratší. Výsledkem tohoto přístupu je rychlejší stanovení priorit, rychlejší vývojové cykly a agilnější proces vývoje. Vaše týmy už nemusí synchronizovat procesy a plány vydávání verzí mezi sebou, protože tým pro integraci dat napříč funkcemi má plné povědomí o kompletním technickém zásobníku a dopadech změn. Pomocí postupů softwarového inženýrství může spouštět testy jednotek a integrace, aby se minimalizoval celkový dopad na uživatele.

V ideálním případě vlastní tým, který vlastní systémy pro integraci dat, vlastní také zdrojové systémy. Tento tým by se měl skládat z datových inženýrů, kteří pracují na zdrojových systémech, odborníků na danou problematiku (SM) pro datové sady, cloudové inženýry a vlastníky datových produktů. Vytvoření tohoto typu křížového týmu snižuje množství komunikace potřebné s externími týmy a je nezbytné při vývoji kompletního zásobníku z infrastruktury do skutečných datových kanálů.

Základem datové platformy jsou datové sady integrované ze zdrojových systémů. Tyto datové sady umožňují týmům datových produktů inovovat tabulky obchodních faktů a zlepšit rozhodování a obchodní procesy. Týmy integrace dat a týmy datových produktů by měly zákazníkům nabízet smlouvy SLA a zajistit, aby byly splněny všechny smlouvy. Nabízené smlouvy SLA můžou souviset s kvalitou dat, včasností, chybovostmi, dostupností a dalšími úlohami.

Shrnutí

Díky mechanismům škálování architektury analýzy v cloudovém měřítku vaše organizace v průběhu času roste vaše datová aktiva v Azure a zároveň se vyhýbá známým technickým omezením. Obě metody škálování popsané v tomto článku vám pomůžou překonat různé technické složitosti a lze je použít jednoduchým a efektivním způsobem.

Další kroky