Datové produkty analýzy v cloudovém měřítku v Azure

Článek
07/11/2023

Datové produkty jsou data sloužící jako produkt a počítaná, uložená a obsluhovaná službami polyglot persistence, které mohou být vyžadovány v určitých případech použití. Proces vytváření a poskytování datových produktů může vyžadovat služby a technologie, které nejsou zahrnuté do základních služeb cílové zóny dat . Příkladem může být vykazování s nikem požadavků, jako je dodržování předpisů a daňové hlášení.

Na co dát pozor při navrhování

Datovou cílovou zónu je možné obsluhovat několika datovými produkty vytvořenými ingestováním dat ze stejné cílové zóny dat nebo z více cílových zón dat. To je vidět v následujícím diagramu.

Diagram využití cílové zóny mezi daty

Výše uvedený příklad ukazuje:

Spotřeba dat uvnitř pásma:
- Datový produkt B využívá data z datového produktu A a dalších dat nebo datových produktů existujících v datovém jezeře v rámci vlastní cílové zóny.
- Datové produkty C a D využívají data pouze z vlastních cílových datových zón.
Spotřeba dat mezi zónami:
- Datový produkt B také využívá data z datového produktu C a z dat z datového jezera cílové zóny 3.

Důležité

V případě mezizónové spotřeby dat, protože datový produkt B je vytvořen čtením z cílové zóny dat 3, vyžaduje tento přístup pro čtení schválení týmy operací cílové zóny dat a operací integrace v datové cílové zóně 3.

Důležité

Datový produkt B využívá data z datových produktů A a C. Než k tomu dojde, musí datový produkt B zaregistrovat svou spotřebu datových produktů prostřednictvím smluv o sdílení dat. Tato smlouva o sdílení dat by měla aktualizovat rodokmen dat z datového produktu A na datový produkt B a z datového produktu C na datový produkt B.

Skupina prostředků datového produktu zahrnuje všechny služby potřebné k jeho vytvoření a údržbě. Tuto skupinu prostředků můžeme volat datovou aplikaci. Mezi služby, které můžou být součástí datové aplikace, patří Azure Functions, Azure App Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Machine Learning, Azure SQL Database Azure Database for MySQLa Azure Cosmos DB. Další informace najdete v ukázkách datových aplikací.

Datové produkty obsahují data ze zdrojů dat READ , u kterých se použily některé transformace dat. Příkladem může být nově kurátorovaná datová sada nebo sestava BI.

Doporučení k návrhu

Vytvářejte datové produkty v rámci cílové zóny dat dodržováním principů návrhu, které umožňují škálování pomocí zásad správného řízení dat. Následující části obsahují doporučení návrhu, která vám pomůžou při plánování ekosystému datových aplikací.

Nasazení více skupin prostředků

Každá datová aplikace je skupina prostředků. Vzhledem k tomu, že datové aplikace jsou výpočetní služby, služby polyglotní trvalosti nebo obojí, mohou být vyžadovány pouze v závislosti na určitých případech použití. Proto se považují za volitelnou komponentu cílové zóny dat. V případě, že potřebujete datové aplikace, vytvořte několik skupin prostředků podle datové aplikace, jak je znázorněno na následujícím diagramu.

Diagram skupin prostředků datových aplikací

Nastavit mantinely

Azure Policy řídí výchozí konfiguraci služeb v rámci cílové zóny dat. Provozní analýzy si můžete představit jako několik skupin prostředků, které si váš datový produktový tým může vyžádat ze standardního katalogu služeb. Pomocí Azure Policy můžete nakonfigurovat hranici zabezpečení a požadovanou sadu funkcí.

Důležité

Pokud chcete zajistit konzistenci, nakonfigurujte jednu Azure Policy pro každou datovou aplikaci.

Využívání dat z více míst

Datové aplikace spravují, uspořádají a vycítají smysl dat z více datových prostředků a prezentují všechny získané poznatky. Datový produkt je výsledkem dat z jedné nebo více datových aplikací v rámci cílových zón dat. V případě potřeby povolte datovým aplikacím přístup k datům z různých zdrojů.

Škálování podle potřeby

Služby, které tvoří datové aplikace, jsou přírůstková nasazení do cílové zóny dat. Škálujte datové aplikace podle potřeby.

Povolení zjišťování dat

Automaticky zaregistrujte datové produkty v katalogu dat, jako je Azure Purview , abyste umožnili kontrolu dat.

Identifikace datových produktů

Při plánování cílové zóny dat identifikujte podle potřeby tolik datových produktů (a datových aplikací, které je vysílají a udržují), které vám pomůžou řídit architekturu datových produktů. Největší roli ve vašich rozhodnutích by měla hrát shoda s implementovanými zásadami správného řízení platformy.

Zaměřte se na to, jak jsou vaše datové aplikace producenty a příjemci dat pro ostatní. Předpokládejme například, že jste identifikovali sadu datových produktů (A, B, C a D), které se vytvářejí a využívají data. Vyžadujete datové produkty A a D jako zdroje dat v datové aplikaci B pro datový produkt B. Datový produkt B se vytvoří z dat, která datová aplikace B využívá z datových produktů A a D. Datová aplikace B funguje jako samotný producent dat a také vytváří data pro datový produkt C.

Diagram producenta a příjemců dat

Řízení prostředí datových aplikací pomocí infrastruktury jako kódu

Zásady správného řízení a infrastruktura jako kód by měly řídit prostředí datových aplikací v ekosystému datových produktů, jak je znázorněno v předchozím diagramu.

Publikování datových modelů

Týmy vašich datových produktů by měly své datové modely publikovat v úložišti modelování.

Nastavení očekávání pro uživatele datových produktů

Aktualizujte své smlouvy o sdílení dat pomocí smluv o úrovni služeb a certifikací pro vaše datové produkty, abyste potenciálním uživatelům datového produktu mohli sdělit přesná očekávání.

Rodokmen záznamu

Pokud je datový produkt B vytvořen z dat pocházejících z datových produktů A a D, musí být zaznamenán rodokmen dat z A a D do B. Pro datový produkt C by měl být zaznamenán také další rodokmen, protože se vytváří pomocí dat z datového produktu B. Aktualizovaný rodokmen dat by měl být zachycen v aplikaci rodokmenu dat před každým vydáním datového produktu.

Poznámka

Azure Pipelines umožňuje vytvářet schvalovací brány a vyvolávat funkce, které zajistí registraci metadat, rodokmenu a smluv SLA ve správné službě zásad správného řízení.

Definování architektury datových aplikací

Pro každý datový produkt musíte vytvořit podrobnou architekturu, která plně definuje jeho vztah k jiným datovým produktům, jejich závislostem a požadavkům na přístup.

Ukázkový scénář návrhu

Pokud chcete porozumět procesu definice architektury, prozkoumejte následující příklad finanční instituce a jejího produktu pro monitorování úvěru.

Podrobný diagram architektury define-data-product

Produkt dat monitorování úvěru zobrazený v tomto diagramu využívá data z úložiště dat pro čtení , které bylo ingestováno týmem operací integrace. Vytváří datové produkty, které také využívají dva další datové produkty.

Poznámka

Přečtený zdroj dat nebo úložiště se označuje také jako zlatý zdroj záznamů. Tyto zdroje dat byly vyčištěny, ale nebyly u nich použity žádné transformace.

Produktový tým pro monitorování úvěrového kreditu požaduje přístup pro čtení úložišť dat, která potřebují k vytvoření datového produktu. Jejich žádosti se směrují vlastníkům dat ke schválení. Jakmile produktový tým obdrží schválení, může začít vytvářet datovou aplikaci.

Data ze přečteného zdroje dat se transformují do produktů s daty monitorování úvěru. Všechny nové datové produkty se ukládají do kurátorované vrstvy data lake. Tyto nové datové produkty a nový rodokmen dat by se měly zaregistrovat jako součást procesu nasazení DevOps. Funkce může zkontrolovat registrovaná metadata s fyzickou strukturou datového assetu. Měla by registrovat závislost na datových prostředcích a datových produktech pro čtení zdrojů dat.

Produktový tým pro data schvalování půjček je závislý na některých produktech s daty monitorování úvěru. Tým pro schvalování půjček může požádat o přístup pro čtení k datovým produktům monitorování úvěru, které vyžadují pro své datové produkty. Jakmile uvolní datový produkt schválení půjčky a jeho datovou aplikaci, měly by být všechny datové prostředky, rodokmen a modely datových produktů registrovány v příslušných službách zásad správného řízení.

Ukázkové datové aplikace

Následující části obsahují ukázkové datové aplikace, které podrobněji ilustrují scénáře datových aplikací.

Datová aplikace pro analýzu dat a datové vědy

Aplikace pro analýzu dat a datové vědy může obsahovat služby uvedené v ukázkové datové aplikaci product-analytics-rg.

Poznámka

Výše uvedená datová aplikace je k dispozici jako šablona, která nasadí sadu služeb, které můžete použít pro analýzu dat a datové vědy. Stejně jako všechny naše šablony je i tato šablona datového produktu podrobným plánem, který můžete použít k rychlému vytvoření prostředí pro týmy s různými funkcemi. Všechny služby, které nepotřebujete, musí být explicitně zakázané.

Šablona Analýzy datového produktu obsahuje všechny šablony pro nasazení datového produktu pro účely analýz a datových věd v cílové zóně dat ve scénáři analýzy na úrovni cloudu.

Artefakty nasazení a kódu zahrnují následující služby:

Machine Learning
Key Vault
Application Insights
Storage
Container Registry
Cognitive Services (volitelné)
Data Factory (vyberte mezi službami Data Factory a Synapse)
Pracovní prostor Synapse (vyberte mezi službou Data Factory a Synapse)
Azure Search (volitelné)
Fond SQL (volitelné)
Fond BigData (volitelné)

Aplikace Batch Data

Šablona aplikace Batch Data obsahuje všechny šablony pro nasazení datového produktu pro dávkové zpracování dat v cílové zóně dat scénáře analýzy škálování cloudu.

Artefakty nasazení a kódu zahrnují následující služby:

Key Vault
Data Factory (vyberte mezi službami Data Factory a Synapse)
Azure Cosmos DB (volitelné)
Pracovní prostor Synapse (vyberte mezi službou Data Factory a Synapse)
Databáze MySQL (volitelné)
Azure SQL Databáze (volitelné)
Databáze PostgreSQL (volitelné)
Databáze MariaDB (volitelné)
Fond SQL (volitelné)
SQL Server (volitelné)
Elastický fond SQL (volitelné)
Fond BigData

Aplikace streamování dat

Šablona Aplikace streamovaných dat obsahuje všechny šablony pro nasazení datového produktu pro zpracování dat v reálném čase v cílové zóně dat ve scénáři cloudové analýzy.

Artefakty nasazení a kódu zahrnují následující služby:

Key Vault
Event Hubs
IoT Hub
Stream Analytics (volitelné)
Azure Cosmos DB (volitelné)
Pracovní prostor Synapse
Azure SQL Databáze (volitelné)
Fond SQL (volitelné)
SQL Server (volitelné)
Elastický fond SQL (volitelné)
Fond BigData
Data Explorer (volitelné)

Pokud chcete najít úložiště obsahující výše uvedené šablony nasazení, projděte si šablony nasazení pro analýzy škálování cloudu.

Další kroky

Datové aplikace (zarovnané se zdroji)

Datové produkty analýzy v cloudovém měřítku v Azure

Na co dát pozor při navrhování

Doporučení k návrhu

Nasazení více skupin prostředků

Nastavit mantinely

Využívání dat z více míst

Škálování podle potřeby

Povolení zjišťování dat

Identifikace datových produktů

Řízení prostředí datových aplikací pomocí infrastruktury jako kódu

Publikování datových modelů

Nastavení očekávání pro uživatele datových produktů

Rodokmen záznamu

Definování architektury datových aplikací

Ukázkový scénář návrhu

Ukázkové datové aplikace

Datová aplikace pro analýzu dat a datové vědy

Aplikace Batch Data

Aplikace streamování dat

Další kroky

Další materiály