SAP CDC 功能的概觀和架構

適用于: Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用于企業的單一分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告等所有專案。 瞭解如何 免費啟動新的試用版

瞭解 Azure Data Factory 中的 SAP 異動資料擷取 (CDC) 功能,並瞭解架構。

Azure Data Factory 是 ETL 和 ELT 資料整合平臺即服務(PaaS)。 針對 SAP 資料整合,Data Factory 目前提供六個正式運作連接器:

Screenshot of the six general availability connectors for SAP systems in Data Factory.

資料擷取需求

Data Factory 中的 SAP 連接器只會批次擷取 SAP 來源資料。 每個批次都會處理現有和新的資料。 在批次模式的資料擷取中,不會識別現有資料集和新資料集之間的變更。 當您有大型資料集,例如經常變更數百萬筆或數十億筆記錄的資料表時,這種擷取模式並不理想。

您可以藉由經常擷取完整的資料集,讓 SAP 資料的複本保持最新狀態,但這種方法昂貴且效率不佳。 您也可以使用手動、有限的因應措施來擷取大部分新的或更新的記錄。 在稱為 浮水印 的程式中,擷取需要使用時間戳資料行、單調增加值,並持續追蹤自上次擷取以來的最高值。 但有些資料表沒有可用於浮水印的資料行。 此程式也不會將已刪除的記錄識別為資料集中的變更。

SAP CDC 功能

Microsoft 客戶指出,他們需要連接器,其只能擷取兩組資料之間的差異。 在資料中, 差異 是資料集中的任何變更,這是資料集中更新、插入或刪除的結果。 差異擷取連接器會使用 存在於大部分 SAP 系統中的 SAP 異動資料擷取 (CDC) 功能 來判斷資料集中的差異。 Data Factory 中的 SAP CDC 功能會使用 SAP 作業資料布建 (ODP) 架構來複寫 SAP 來源資料集中的差異。

本文提供 Azure Data Factory 中 SAP CDC 功能的高階架構。 取得 SAP CDC 功能的詳細資訊:

如何使用 SAP CDC 功能

SAP CDC 連接器是 SAP CDC 功能的核心。 它可以連線到所有支援 ODP 的 SAP 系統,其中包括 SAP ECC、SAP S/4HANA、SAP BW 和 SAP BW/4HANA。 解決方案可直接在應用層運作,或透過 SAP 橫向轉換複寫伺服器 (SLT) 作為 Proxy 間接運作。 它不依賴浮水印來完整或累加地擷取 SAP 資料。 SAP CDC 連接器擷取的資料不僅包含實體資料表,也包含使用資料表所建立的邏輯物件。 資料表型物件的範例是 SAP Advanced Business Application Programming (ABAP) Core Data Services (CDS) 檢視。

使用 SAP CDC 連接器搭配 Data Factory 功能,例如對應資料流程活動,以及自我管理管線中低延遲 SAP CDC 複寫解決方案的輪轉視窗觸發程式。

SAP CDC 架構

Azure Data Factory 中的 SAP CDC 解決方案是 SAP 與 Azure 之間的連接器。 SAP 端包含 SAP ODP 連接器,可透過標準遠端函式呼叫 (RFC) 模組叫用 ODP API,以擷取完整和差異原始 SAP 資料。

Azure 端包含對應資料流程,可將 SAP 資料轉換和載入對應資料流程所支援的任何資料接收器。 其中一些選項是儲存體目的地,例如 Azure Data Lake 儲存體 Gen2 或 Azure SQL 資料庫 或 Azure Synapse Analytics 等資料庫。 對應資料流程活動也可以以差異格式載入 Data Lake 儲存體 Gen2 中的結果。 您可以使用 Delta Lake Time Travel 功能來產生特定期間 SAP 資料的快照集。 您可以使用 Data Factory 輪轉視窗觸發程式,在 Azure 中以低延遲且不使用浮水印來複寫 SAP 資料,以執行管線並經常對應資料流程。

Diagram of the architecture of the SAP CDC solution.

若要開始使用,請建立 SAP CDC 連結服務、SAP CDC 來源資料集,以及具有對應資料流程活動的管線,您可以在其中使用 SAP CDC 來源資料集。 若要從 SAP 擷取資料,您必須在內部部署電腦或虛擬機器(VM)上安裝自我裝載整合執行時間,才能看到您的 SAP 來源系統或 SLT 伺服器。 對應資料流程活動會在無伺服器 Azure Databricks 或 Apache Spark 叢集或 Azure 整合執行時間上執行。 必須在對應資料流程活動中設定預備儲存體,讓您的自我裝載整合執行時間與對應資料流程整合執行時間順暢地運作。

SAP CDC 連接器會使用 SAP ODP 架構來擷取各種資料來源類型,包括:

  • SAP 擷取器,原本是用來從 SAP ECC 擷取資料並將其載入 SAP BW
  • ABAP CDS 檢視,SAP S/4HANA 的新資料擷取標準
  • SAP BW 和 SAP BW/4HANA 中的 InfoProviders 和 InfoObjects 資料集
  • 當您使用 SAP LT 複寫伺服器 (SLT) 作為 Proxy 時,SAP 應用程式資料表

在此程式中,SAP 資料來源是 提供者 。 提供者會在 SAP 系統上執行,以在操作差異佇列 (ODQ) 中產生完整或增量資料。 對應資料流程來源是 ODQ 的訂閱者

Diagram of the architecture of the SAP ODP framework through a self-hosted integration runtime.

由於 ODP 與訂閱者完全分離提供者,因此提供提供者設定的任何 SAP 檔都適用于 Data Factory 做為訂閱者。 如需 ODP 的詳細資訊,請參閱 運算元據布建 簡介。

SAP CDC 解決方案的必要條件和設定