分享方式:


SAP 數據整合範例架構

本文是「SAP 擴充和創新數據:最佳做法」文章系列的一部分。

本文說明 SAP 數據從來源 SAP 系統流向下游目標的流程。 每個目標都會在企業的數據旅程中提供目的。 架構設計會使用 Azure 資料服務擴充 SAP 解決方案。 使用 Azure Synapse Analytics 建置新式數據平臺,以內嵌、處理、儲存、服務及可視化來自各種來源的數據。

Apache Spark® 和 Apache Kafka® 是 美國 和/或其他國家/地區的 Apache Software Foundation 註冊商標或商標。 使用這些標記不會隱含 Apache Software Foundation 的背書。

架構

下圖是 Azure 上 SAP 數據整合的範例架構。 使用此範例架構作為起點。

顯示 Azure 上 SAP 資料整合安全性架構的圖表。下載此架構的 Visio 檔案

資料流程

下列數據流對應至上圖:

  1. 資料來源。 系統會連線到數據源,以啟用資料擷取和分析。
  2. 資料擷取。 Azure Data Factory 和 Synapse 管線可啟用數據整合。
  3. 資料儲存體。 數據會儲存在以 Azure Blob 儲存體 為基礎的 Azure Data Lake Storage 中。
  4. 數據轉換和取用。 數據會分階段轉換,並透過具有Power BI的報表,或透過私人端點啟用取用,讓您能夠透過私人連結安全地存取數據。
  5. 數據視覺效果和報告。 您可以使用 Power BI 服務 或外部應用程式來存取報表,並將數據可視化。

資料來源

來源 SAP 系統可以使用 Azure 上的 SAP RISE 或 Azure 上的 SAP 虛擬機器 來執行內部部署。 它們可以是內部部署 SQL 伺服器、JSON、XML 和記錄檔中的半結構化數據,或其他數據倉儲系統。 Synapse 管線複製活動可以內嵌此原始數據。 來源系統裝載於內部部署、私人或公用雲端,或使用SAP RISE 訂用帳戶。

SAP 在線事務數據處理 (OLTP) 和在線分析處理 (OLAP) 系統是商務數據和交易的中央存放庫。 擷取、儲存和內嵌數據至 Azure,以從位於這些商務數據存放庫的數據取得價值和見解。

透過 Azure 服務,您可以整合來自任何來源位置的數據。 根據裝載的位置、安全性控制、作業標準、帶寬和合約義務,規劃擷取組態。

資料擷取

在此架構中,數據會使用 Synapse 管線擷取,並使用 Synapse Spark 集區的 Data Lake 功能分階段進行處理。

Data Factory 和 Synapse 管線會使用下列 SAP 連接器來擷取數據:

如需詳細資訊,請參閱以下資源:

資料存放區

在 Data Lake Storage Gen2 中,Azure 儲存體 是在 Azure 上建置企業數據湖的基礎。 使用 Data Lake Storage Gen2,您可以管理大量數據,因為它會服務數 PB 的資訊,同時維持數百 GB 的輸送量。

數據擷取至數據湖之後,會在待用時加密。 使用客戶管理的金鑰進一步增強加密,並新增存取控制彈性。

如需詳細資訊,請參閱 Data Lake Storage Gen2 簡介最佳做法

數據轉換和取用

在此架構中,從數據源擷取的數據會儲存在 Data Lake Storage Gen2 位置。

您可以使用自我載入整合執行時間(SHIR)來管理和執行內部部署環境和雲端中資料存放區之間的複製活動。 一律讓 SHIR 系統與來源系統相近。

使用階段特定的 Data Lake Storage Gen2 目錄,將數據儲存在記憶體帳戶中,例如 銅級級和 金級目錄。

  • 銅牌: Synapse 管線會複製從來源系統擷取數據的活動。 此擷取的數據會以原始格式儲存,方法是使用 Data Lake 的 Bronze 目錄。
  • Silver: Synapse Spark 集區會執行數據質量規則來清理原始數據。 此擴充的數據會儲存在 Data Lake 的 Silver 目錄中。
  • Gold: 清理程序之後,Spark 集區會將任何必要的正規化、數據轉換和商務規則套用至 Silver 目錄數據。 此轉換的數據會儲存在 Data Lake 的 Gold 目錄中。

Synapse Apache Spark 至 Synapse SQL 連接器會將標準化數據推送至 Synapse SQL 集區,以供下游應用程式和 Reporting Services 取用,例如 Power BI。 此連接器會以最佳方式在無伺服器 Apache Spark 集區和 Azure Synapse Analytics 工作區中的 SQL 集區之間傳輸數據。

針對您的記憶體帳戶,私人端點會提供虛擬網路上的客戶透過私人連結安全地存取數據。 私人端點會針對記憶體帳戶服務使用虛擬網路位址空間中的IP位址。 虛擬網路上客戶與記憶體帳戶之間的網路流量會透過虛擬網路周遊,以及Microsoft骨幹網路上的私人連結,以避免暴露在公用因特網上。

數據視覺效果和報告

在 Power BI 服務 中,使用 DirectQuery 從 Synapse SQL 集區安全地擷取數據。

私人虛擬網路上虛擬機中安裝的數據閘道提供 Power BI 服務 與 Synapse SQL 集區之間的連線平臺。 為了安全地連線,數據網關會使用相同的虛擬網路中的私人端點。

外部應用程式可以使用聯機至虛擬網路的私人端點,從 Synapse 無伺服器集區或專用 SQL 集區存取數據。

元件

此架構使用數個 Azure 服務和功能。

資料分析

儲存體

網路和負載平衡器

  • Azure Synapse Analytics 管理的虛擬網路會為 Azure Synapse 工作區建立隔離且受控的環境,因此您不需要管理工作區資源的網路設定。
  • Azure Synapse 管理的私人端點會 使用Microsoft骨幹網路,建立 Azure 資源的私人連結,並路由傳送 Azure Synapse 工作區與其他 Azure 資源之間的流量。
  • Azure 虛擬網絡 為不屬於 Azure Synapse 工作區的 Azure 資源提供專用網功能。 您可以管理資源之間的存取、安全性和路由。
  • Azure 私人端點會使用來自解決方案虛擬網路的私人 IP 位址,將服務連線到虛擬網路至 Azure 受控服務。 此連線可保護 Azure Synapse 工作區與其他 Azure 服務之間的網路功能,例如記憶體、Azure Cosmos DB、Azure SQL 資料庫 或您自己的 Azure Private Link 服務。

報表

  • Power BI 會執行已處理數據的進階分析和深入解析。

下一步