Proces ingestování s využitím analýz v cloudovém měřítku v Azure

Článek
07/11/2023

Azure poskytuje několik služeb pro ingestování a vydávání dat pro nativní platformy a platformy třetích stran. V závislosti na objemu, rychlosti, rozmanitosti a směru je možné použít různé služby. Mezi tyto služby patří:

Azure Data Factory je služba vytvořená pro všechny potřeby a úrovně dovedností datových aplikací (odpovídajících zdrojům). Vytvořte vlastní kód nebo vytvořte, extrahujte, načítejte a transformujte procesy v intuitivním vizuálním prostředí a bez kódu. S více než 90 nativními konektory bez údržby můžete vizuálně integrovat zdroje dat bez dalších nákladů. Technici můžou používat privátní koncové body a propojit služby a bezpečně se připojovat k prostředkům Azure PaaS (platforma jako služba) bez použití veřejných koncových bodů prostředku PaaS. Technici můžou pomocí prostředí Integration Runtime rozšířit kanály do prostředí třetích stran, jako jsou místní zdroje dat a další cloudy.

Některé z těchto konektorů podporují použití jako zdroj (čtení) nebo jako jímka (zápis). Jako zdroj nebo jímku je možné použít nativní služby Azure, Oracle, SAP a další, ale ne všechny konektory to podporují. V těchto případech můžete použít obecné konektory, jako jsou rozhraní ODBC (Open Database Connectivity), systém souborů nebo konektory SSH File Transfer Protocol (SFTP).

Azure Databricks je rychlá, snadná analytická služba založená na Apache Sparku a spolupráce. V případě kanálu pro velké objemy dat můžete data (nezpracovaná nebo strukturovaná) ingestovat do Azure prostřednictvím služby Data Factory v dávkách nebo streamovat téměř v reálném čase pomocí platformy Apache Kafka, Azure Event Hubs nebo IoT Hub. Tato data se přisadí do datového jezera pro dlouhodobé trvalé úložiště v Azure Data Lake Storage. Azure Databricks může v rámci pracovního postupu číst data z více zdrojů dat.
Microsoft Power Platform poskytuje konektory pro stovky služeb , které můžou být řízené událostmi, plánem nebo nabízenými oznámeními. Microsoft Power Automate může reagovat na události a aktivovat pracovní postupy optimalizované pro jednotlivé záznamy nebo malé objemy dat.

Proprietární nativní nástroje a nástroje třetích stran poskytují možnosti pro integraci se specializovanými systémy a replikaci téměř v reálném čase.

Azure Data Share podporuje bezpečné sdílení dat s několika externími zákazníky a partnery v organizacích. Jakmile vytvoříte účet sdílené datové složky a přidáte datové produkty, můžou být zákazníci a partneři pozvaní do sdílené datové složky. Poskytovatelé dat mají vždy kontrolu nad daty, která sdílí. Azure Data Share usnadňuje správu a monitorování, která data se sdílí, kdy byla sdílena a kdo je sdílel.

Důležité

Každá cílová zóna dat má skupinu prostředků pro příjem metadat , která existuje pro firmy s modulem pro příjem dat nezávislou na datech. Pokud tento modul architektury nemáte, jediným doporučeným prostředkem je nasazení pracovního prostoru azure Databricks Analytics, který by integrace dat používaly ke spuštění složitého příjmu dat. Potenciální vzory automatizace najdete v modulu pro příjem dat, který je nezávislá na datech.

Důležité informace o příjmu Azure Data Factory

Pokud máte modul pro příjem dat nezávislou na datech, měli byste pro každou cílovou zónu dat ve skupině prostředků ingestování a zpracování nasadit jednu službu Data Factory. Pracovní prostor služby Data Factory by měl být uzamčený pro uživatele a k nasazení budou mít přístup jenom spravované identity a instanční objekty. Operace cílové zóny dat by měly mít oprávnění ke čtení, aby bylo možné kanály ladit.

Datová aplikace může mít vlastní službu Data Factory pro přesun dat. Služba Data Factory v každé skupině prostředků datové aplikace podporuje kompletní prostředí kontinuální integrace (CI) a průběžného nasazování (CD), protože umožňuje nasazování kanálů pouze z Azure DevOps nebo GitHubu.

Všechny pracovní prostory služby Data Factory budou pro cílovou zónu dat v rámci cílové zóny správy dat používat funkci spravované virtuální sítě (VNet) ve službě Data Factory nebo místní prostředí Integration Runtime . Technikům se doporučuje, aby k zabezpečenému připojení k prostředku Azure PaaS používali funkci spravované virtuální sítě.

Je však možné vytvořit další prostředí Integration Runtime pro příjem z místních cloudů, cloudů třetích stran a zdrojů dat typu software jako služba (SaaS) třetích stran.

Aspekty ingestování pro Azure Databricks

V těchto pokynech jsou rozpracovány informace v následujících částech:

Zabezpečení přístupu k Azure Data Lake Storage Gen2 z Azure Databricks
Osvědčené postupy pro Azure Databricks
Použití Azure Databricks v rámci analýz v cloudovém měřítku v Azure
Při vývoji by integrační operace měly mít vlastní prostředí Azure Databricks před vrácením kódu, který se má nasadit do jednoho pracovního prostoru Azure Databricks během testování a produkčního prostředí.
Služba Data Factory ve skupině prostředků datové aplikace (se zdroji) by měla poskytovat architekturu pro volání úloh Azure Databricks.
Instanční objekty můžou pomoct s připojením datových jezer k tomuto pracovnímu prostoru. Další informace najdete v tématu Vzor 1 – přístup přes instanční objekt .
Týmy datových aplikací můžou v Azure Databricks nasazovat krátké automatizované úlohy a očekávat, že se jejich clustery rychle spustí, spustí úlohu a ukončí se. Doporučujeme nastavit fondy Azure Databricks, abyste zkrátili dobu potřebnou ke spuštění clusterů pro úlohy.
K implementaci architektury nasazení pro nové kanály doporučujeme organizacím používat Azure DevOps. Tato architektura se použije k vytvoření složek datové sady, přiřazení seznamů řízení přístupu a vytvoření tabulky s nebo bez vynucování řízení přístupu k tabulce Databricks.

Příjem dat datového proudu

Organizace můžou potřebovat podporu ve scénářích, kdy vydavatelé generují vysokorychlostní streamy událostí. Pro tento model se pro příjem těchto datových proudů doporučuje fronta zpráv, například Event Hubs nebo IoT Hub.

Event Hubs a IoT Hub jsou škálovatelné služby zpracování událostí, které mohou ingestovat a zpracovávat velké objemy událostí a data s nízkou latencí a vysokou spolehlivostí. Služba Event Hubs je navržená jako služba streamování velkých objemů dat a ingestování událostí. IoT Hub je spravovaná služba, která slouží jako centrum zpráv pro obousměrnou komunikaci mezi aplikací IoT a zařízeními, která spravuje. Odtud je možné data exportovat do datového jezera v pravidelných intervalech (dávkově) a zpracovávat pomocí Azure Databricks téměř v reálném čase prostřednictvím apache spark streamingu, Azure Data Explorer, Stream Analytics nebo Time Series Insights.

Poslední cílová zóna Služby Event Hubs nebo Apache Kafka v konkrétní cílové zóně případu použití by měla odesílat agregovaná data do nezpracované vrstvy datového jezera v jedné z cílových zón dat a do služby Event Hubs související se skupinou prostředků datové aplikace (se zdroji) v cílové zóně dat.

Monitorování příjmu dat

K monitorování a řešení potíží s výjimkami z kanálů Služby Data Factory je možné použít předefinované monitorování Azure Data Factory kanálu. Snižuje úsilí při vývoji vlastního řešení monitorování a generování sestav.

Integrované monitorování je jedním z hlavních důvodů, proč používat Azure Data Factory jako hlavní nástroj pro orchestraci, a Azure Policy může pomoct toto nastavení automatizovat.

Mapování zdrojů dat na služby

Pokyny v této části mapují služby příjmu a zpracování na zdroje, které je obvykle potřeba ingestovat nebo vydávat z Azure.

Služby příjmu dat:

ID	Mechanismus	Poznámka
A	Data Factory	Integrované a obecné konektory (ODBC, SFTP a REST)
B	Azure Databricks	Vlastní kód (JDBC, JAR a další)
C	Třetí strana	WANdisco, Qlik a Oracle GoldenGate
D	Jiné	Například nativní funkce
E	Microsoft Power Platform a Azure Logic Apps	Konektory Microsoft Power Automate

Mapování zdrojů dat na služby:

Poskytovatel	Typ	Hostováno	Kategorie	Poznámky	Ingestace s plným zatížením	Ingestace přírůstkového načítání	Ingestování v reálném čase	Výchozí přenos dat s úplným načtením	Výchozí přenos dat přírůstkového zatížení	Výchozí přenos dat v reálném čase
Oracle	Tabulkové	IaaS	Databáze	GoldenGate do Azure Data Lake Storage	A, B	A, B	C	A, B	A, B	C
Microsoft SQL Server	Tabulkové	IaaS	Databáze	SAP Landscape Transformation a Qlik	A, B	A, B	C, D2	A, B	A, B	C, D2
MySQL	Tabulkové	IaaS	Databáze	SAP Landscape Transformation a Qlik	A, B	A, B	C, D2	A, B	A, B	C, D2
SAP BW/4HANA	Tabulkové	IaaS	Databáze	SAP Landscape Transformation a Qlik	A, B, C, D	A, B, C, D	C	-	-	-
SAP HANA	Tabulkové	IaaS	Databáze	SAP Landscape Transformation a Qlik	A, B, C, D	A, B, C, D	C	A, B	A, B	-
Apache Impala	Tabulkové	IaaS	Databáze	-	A, B	A, B	-	B	B	-
Microsoft SharePoint	Seznam	SaaS	Úložiště záznamů	-	A, E	A, E	E	A, E	A, E	E
REST	REST	Různých	REST	XML, JSON, CSV	A, B, E	A, B, E	A, B, E	A, B, E	A, B, E	A, B, E
Microsoft Outlook	E-mail	SaaS	REST	XML, JSON, CSV	E	E	E	E	E	E

V závislosti na cíli se Azure Database Migration Service můžou replikovat z místních databází a databází třetích stran, jako jsou Microsoft SQL Server, PostgreSQL, MySQL nebo Oracle, do úložiště dat založeného na Azure.

Další kroky

Příjem dat SAP s využitím analýzy v cloudovém měřítku v Azure