Přehled a architektura možností SAP CDC
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Seznamte se s možnostmi zachytávání dat změn SAP (CDC) ve službě Azure Data Factory a seznamte se s architekturou.
Azure Data Factory je platforma pro integraci dat ETL a ELT jako služba (PaaS). Pro integraci dat SAP služba Data Factory v současné době nabízí šest konektorů obecné dostupnosti:
Potřeby extrakce dat
Konektory SAP ve službě Data Factory extrahují zdrojová data SAP pouze v dávkách. Každá dávka zpracovává stávající a nová data stejně. Při extrakci dat v dávkovém režimu se změny mezi existujícími a novými datovými sadami neidentiifikované. Tento typ režimu extrakce není optimální, pokud máte velké datové sady, jako jsou tabulky, které mají miliony nebo miliardy záznamů, které se často mění.
Kopii dat SAP můžete udržovat aktuální a aktuální tím, že často extrahujete celou datovou sadu, ale tento přístup je nákladný a neefektivní. Můžete také použít ruční, omezené alternativní řešení pro extrahování převážně nových nebo aktualizovaných záznamů. V procesu označovaného jako vodoznaky vyžaduje extrakce použití sloupce časového razítka, monotonicky se zvyšující hodnoty a průběžné sledování nejvyšší hodnoty od poslední extrakce. Některé tabulky ale nemají sloupec, který můžete použít k vodoznaku. Tento proces také neidentifikuje odstraněný záznam jako změnu v datové sadě.
Možnosti SAP CDC
Zákazníci Microsoftu naznačují, že potřebují konektor, který dokáže extrahovat pouze rozdíl mezi dvěma sadami dat. Rozdíl v datech je jakákoli změna datové sady, která je výsledkem aktualizace, vložení nebo odstranění v datové sadě. Konektor pro rozdílovou extrakci používá funkci pro zachytávání dat SAP (CDC), která existuje ve většině systémů SAP, k určení rozdílu v datové sadě. Funkce SAP CDC ve službě Data Factory používají k replikaci rozdílu ve zdrojové datové sadě SAP architekturu SAP Operational Data Provisioning (ODP).
Tento článek obsahuje základní architekturu funkcí SAP CDC ve službě Azure Data Factory. Získejte další informace o možnostech SAP CDC:
- Požadavky a nastavení
- Nastavení místního prostředí Integration Runtime
- Nastavení propojené služby a zdrojové datové sady
- Správa řešení
Jak používat funkce SAP CDC
Konektor SAP CDC je jádrem funkcí SAP CDC. Může se připojit ke všem systémům SAP, které podporují ODP, včetně SAP ECC, SAP S/4HANA, SAP BW a SAP BW/4HANA. Řešení funguje buď přímo na aplikační vrstvě, nebo nepřímo prostřednictvím serveru SLT (SAP Landscape Transformation Replication Server) jako proxy serveru. Při extrakci dat SAP se nespoléhá na vodoznaky, a to buď úplně, nebo přírůstkově. Data, která konektor SAP CDC extrahuje, zahrnují nejen fyzické tabulky, ale také logické objekty vytvořené pomocí tabulek. Příkladem objektu založeného na tabulce je zobrazení SAP Advanced Business Application Programming (ABAP) Core Data Services (CDS).
Použijte konektor SAP CDC s funkcemi služby Data Factory, jako je mapování aktivit toku dat, a triggery pro přeskakující okno pro řešení replikace SAP CDC s nízkou latencí v kanálu spravovaném vlastním systémem.
Architektura SAP CDC
Řešení SAP CDC ve službě Azure Data Factory je konektorem mezi SAP a Azure. Na straně SAP je konektor SAP ODP, který volá rozhraní ODP API přes standardní moduly RFC (Remote Function Call), které extrahují úplná a rozdílová nezpracovaná data SAP.
Na straně Azure je tok dat mapování, který může transformovat a načíst data SAP do jakékoli jímky dat podporované mapováním toků dat. Mezi tyto možnosti patří cíle úložiště, jako je Azure Data Lake Storage Gen2 nebo databáze, jako je Azure SQL Database nebo Azure Synapse Analytics. Aktivita mapování toku dat může také načíst výsledky ve službě Data Lake Storage Gen2 v rozdílovém formátu. Pomocí funkce Delta Lake Time Travel můžete vytvořit snímky dat SAP za určité období. Kanál a mapování toků dat můžete často spouštět pomocí triggeru pro přeskakující okno služby Data Factory k replikaci dat SAP v Azure s nízkou latencí a bez použití vodoznaku.
Začněte tím, že vytvoříte propojenou službu SAP CDC, zdrojovou datovou sadu SAP CDC a kanál s aktivitou mapování toku dat, ve které použijete zdrojovou datovou sadu SAP CDC. Pokud chcete extrahovat data ze SAP, vyžaduje se místní prostředí Integration Runtime, které instalujete na místní počítač nebo na virtuální počítač, který má přehled o zdrojových systémech SAP nebo serveru SLT. Aktivita mapování toku dat běží na bezserverovém clusteru Azure Databricks nebo Apache Sparku nebo v prostředí Azure Integration Runtime. Pracovní úložiště je potřeba nakonfigurovat v aktivitě mapování toku dat, aby prostředí Integration Runtime v místním prostředí bez problémů fungovalo s prostředím Integration Runtime mapování toku dat.
Konektor SAP CDC používá architekturu SAP ODP k extrakci různých typů zdrojů dat, mezi které patří:
- Extraktory SAP, původně vytvořené pro extrakci dat ze SAP ECC a jejich načtení do SAP BW
- Zobrazení ABAP CDS, nový standard extrakce dat pro SAP S/4HANA
- Datové sady InfoProviders a InfoObjects v SAP BW a SAP BW/4HANA
- Tabulky aplikací SAP při použití replikačního serveru SAP LT (SLT) jako proxy serveru
V tomto procesu jsou zdroje dat SAP poskytovatelé. Poskytovatelé běží v systémech SAP, aby vytvořili úplná nebo přírůstková data v provozní rozdílové frontě (ODQ). Zdroj toku dat mapování je odběratelem ODQ.
Vzhledem k tomu, že odp zcela odděluje poskytovatele od odběratelů, veškerá dokumentace SAP, která nabízí konfigurace poskytovatele, se vztahují na Data Factory jako odběratele. Další informace o odp naleznete v tématu Úvod do zřizování provozních dat.