分享方式:


SAP CDC 功能的概觀和架構

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用

了解 Azure Data Factory 中的 SAP 異動資料擷取 (CDC) 功能,並了解其架構。

Azure Data Factory 是 ETL 和 ELT 資料整合平台即服務 (PaaS)。 針對 SAP 資料整合,Data Factory 目前提供六個正式發行的連接器:

Screenshot of the six general availability connectors for SAP systems in Data Factory.

資料擷取需求

Data Factory 中的 SAP 連接器只會在批次中擷取 SAP 來源資料。 每個批次都會處理現有和新的資料。 在批次模式的資料擷取中,不會識別現有資料集與新資料集之間的變更。 當您有大型資料集,例如經常變更數百萬筆或數十億筆記錄的資料表時,這種類型的擷取模式並非是最佳方式。

您可以透過經常擷取完整的資料集,讓 SAP 資料的複本保持最新狀態,但這種方法的成本很高且效率不佳。 您也可以使用手動、有限的因應措施,來擷取大部分的新記錄或更新記錄。 在稱為浮水印的流程中,擷取需要使用時間戳記資料行、單純遞增值,並持續追蹤自上次擷取以來的最高值。 但有些資料表沒有可用於浮水印的資料行。 此流程也不會將已刪除的記錄識別為資料集中的變更。

SAP CDC 功能

Microsoft 客戶指出他們需要僅可擷取兩組資料之間差異的連接器。 在資料中,差異是指資料集中的任何變更,為資料集中更新、插入或刪除的結果。 差異擷取連接器會使用 SAP 異動資料擷取 (CDC) 功能,以判斷資料集中的差異。 Data Factory 中的 SAP CDC 功能會使用 SAP 操作資料佈建 (ODP) 架構,複寫 SAP 來源資料集中的差異。

本文提供 Azure Data Factory 中 SAP CDC 功能的高階架構。 取得關於 SAP CDC 功能的詳細資訊:

SAP CDC 功能的使用方法

SAP CDC 連接器是 SAP CDC 功能的核心。 其可以連線到所有支援 ODP 的 SAP 系統,其中包括 SAP ECC、SAP S/4HANA、SAP BW 和 SAP BW/4HANA。 解決方案可直接在應用程式圖層運作,或透過 SAP 橫向轉換複寫伺服器 (SLT) 並作為 Proxy 間接運作。 完全或累加擷取 SAP 資料都不依賴浮水印。 SAP CDC 連接器擷取的資料不僅包含實體資料表,也包含使用資料表建立的邏輯物件。 資料表型物件的範例是 SAP 進階商務應用程式開發 (ABAP) 核心資料服務 (CDS) 檢視。

使用 SAP CDC 連接器搭配 Data Factory 功能,例如對應資料流活動,以及自我管理管線中低延遲 SAP CDC 複寫解決方案的輪轉視窗觸發程序。

SAP CDC 架構

Azure Data Factory中的 SAP CDC 解決方案是 SAP 與 Azure 之間的連接器。 SAP 端包含 SAP ODP 連接器,可透過標準遠端函式呼叫 (RFC) 模組叫用 ODP API,以擷取完整和差異的原始 SAP 資料。

Azure 端包含的對應資料流可轉換 SAP 資料,並將其載入對應資料流支援的任何資料接收器。 其中某些選項包括 Azure Data Lake Storage Gen2 等儲存體目的地,或是 Azure SQL Database 或 Azure Synapse Analytics 等資料庫。 對應資料流活動也可以載入差異格式中,Data Lake Storage Gen2 內的結果。 您可以使用 Delta Lake 時間移動功能來產生特定期間的 SAP 資料快照集。 您可以使用 Data Factory 輪轉視窗觸發程序經常執行管線和對應資料流,以在 Azure 中複寫低延遲的 SAP 資料,但不使用浮水印。

Diagram of the architecture of the SAP CDC solution.

若要開始使用,請建立 SAP CDC 連結服務、SAP CDC 來源資料集,以及包含對應資料流活動,在其中使用 SAP CDC 來源資料集的管線。 若要從 SAP 擷取資料,您必須在內部部署電腦或虛擬機器 (VM) 上安裝自我裝載整合執行階段,才能看到 SAP 來源系統或 SLT 伺服器。 對應資料流活動會在無伺服器 Azure Databricks 或 Apache Spark 叢集上執行,或在 Azure 整合執行階段上執行。 必須在對應資料流活動中設定暫存儲存體,才能讓自我裝載整合執行階段與對應資料流整合執行階段順暢搭配運作。

SAP CDC 連接器會使用 SAP ODP 架構擷取各種資料來源類型,包括:

  • SAP 擷取器,原本是用來從 SAP ECC 擷取資料,並將其載入 SAP BW
  • ABAP CDS 檢視,SAP S/4HANA 的新資料擷取標準
  • SAP BW 和 SAP BW/4HANA 格式的 InfoProviders 及 InfoObjects 資料集
  • SAP 應用程式資料表,當您使用 SAP LT 複寫伺服器 (SLT) 作為 Proxy 時

在此流程中,SAP 資料來源是提供者。 提供者會在 SAP 系統上執行,以在作業差異佇列中產生完整或累加資料 (ODQ)。 對應資料流來源是 ODQ 的「訂閱者」

Diagram of the architecture of the SAP ODP framework through a self-hosted integration runtime.

由於 ODP 與完全分離提供者與訂閱者,因此任何為提供者提供設定的 SAP 文件都適用於作為訂閱者的 Data Factory。 如需關於 ODP 的詳細資訊,請參閱操作資料佈建簡介

SAP CDC 解決方案的必要條件和設定