編輯

共用方式為


將大型主機資料複寫和同步至 Azure

Azure Data Factory
Azure Databricks

此範例體系結構概述了在現代化過程中將資料複製和同步到 Azure 的實施計劃。 它討論了資料儲存、工具和服務等技術方面。

架構

架構圖顯示如何在大型主機現代化期間同步本機資料和 Azure 資料庫資料。

下載此架構的 Visio 檔案

工作流程

大型主機和中型系統定期更新本機應用程式資料庫。 為了保持一致性,該解決方案將最新資料與 Azure 資料庫同步。 同步過程涉及以下步驟:

  1. Azure Data Factory 動態管線編排從資料擷取到資料載入的活動。 您可以安排管線活動、手動啟動它們或自動觸發它們。

    管線將執行任務的活動分組。 為了提取資料,Data Factory 為每個本地表動態創建一個管線。 然後,當您在 Azure 中複製資料時,可以使用大規模並行實作。 您也可以配置解決方案以滿足您的要求:

    • 完整複製:複製整個資料庫並對目標 Azure 資料庫中的資料類型和欄位進行必要的修改。
    • 部分、增量或增量複製:使用來源表中的浮水印列將更新的行與 Azure 資料庫同步。 這些列包含連續遞增的鍵或指示表的最後更新的時間戳記。

    Data Factory 也使用管線來執行以下轉換任務:

    • 資料型別轉換
    • 資料操作
    • 資料格式化
    • 資料行推導
    • 資料壓平合併
    • 資料整理
    • 資料篩選
  2. Db2 zOS、Db2 for i 和 Db2 LUW 等本地資料庫儲存應用程式資料。

  3. 自我裝載整合執行時 (SHIR) 提供 Data Factory 用於運作和分派活動的環境。

  4. Azure Data Lake Storage Gen2 和 Azure Blob 儲存體提供了資料暫存的位置。 有時需要此步驟來轉換和合併來自多個來源的資料。

  5. 對於資料準備,Data Factory 使用 Azure Databricks、自訂活動和管線資料流來快速有效地轉換資料。

  6. Data Factory 將資料載入到以下關係和非關聯式 Azure 資料庫:

    • Azure SQL
    • 適用於 PostgreSQL 的 Azure 資料庫
    • Azure Cosmos DB
    • Azure Data Lake Storage
    • 適用於 MySQL 的 Azure 資料庫
  7. SQL Server 整合服務 (SSIS):此平台可以擷取、轉換和載入資料。

  8. 非 Microsoft 工具:當解決方案需要近即時複製時,您可以使用非 Microsoft 工具。

元件

本節介紹您在資料現代化、同步和整合過程中可以使用的其他工具。

工具

  • Microsoft 分散式關聯式資料庫體系結構服務 (DRDA)主機整合伺服器 (HIS) 的元件。 Microsoft Service for DRDA 是 DRDA 應用程式請求者 (AR) 用戶端使用的應用程式伺服器。 DRDA AR 用戶端的範例包括 IBM Db2 for z/OS 和 Db2 for i5/OS。 這些客戶端使用應用程式伺服器來轉換 Db2 SQL 語句並在 SQL Server 上執行它們。

  • SQL Server Migration Assistant (SSMA) for Db2 可自動從 Db2 遷移到 Microsoft 資料庫服務。 當它在虛擬機器 (VM) 上執行時,該工具將 Db2 資料庫對象轉換為 SQL Server 資料庫對象,並在 SQL Server 中建立這些對象。 然後,SSMA for Db2 將資料從 Db2 遷移到以下服務:

    • SQL Server 2012
    • SQL Server 2014
    • SQL Server 2016
    • Windows 及 Linux 上的 SQL Server 2017
    • Windows 和 Linux 上的 SQL Server 2019
    • Azure SQL Database
  • Azure Synapse Analytics 是一項針對資料倉儲和巨量資料系統的分析服務。 該工具使用 Spark 技術,並與 Power BI、Azure 機器學習和其他 Azure 服務深度整合。

資料整合商

  • Data Factory 是一種混合資料整合服務。 您可以使用這個完全託管的無伺服器解決方案來建立、規劃和編排提取、轉換和載入 (ETL) 工作流程以及提取、載入和轉換 ELT 工作流程。

  • Azure Synapse Analytics 是一項企業分析服務,可讓您更快速地取得資料倉儲和巨量資料系統間的深入解析。 Azure Synapse Analytics 匯集了以下最佳技術和服務:

    • SQL 技術,用於企業資料倉儲。
    • Spark 技術,用於巨量資料。
    • Azure 資料資料總管,用於日誌和時間序列分析。
    • Azure Pipelines,用於資料整合以及 ETL 和 ELT 工作流程。
    • 與其他 Azure 服務深度集成,例如 Power BI、Azure Cosmos DB 和機器學習。
  • SSIS 是一個用於建構企業級資料整合和轉換解決方案的平台。 您可以使用 SSIS 來管理、複製、清理和挖掘資料。

  • Azure Databricks 是資料分析平台。 它基於 Apache Spark 開源分散式處理系統,並針對 Azure 雲端平台進行了最佳化。 在分析工作流程中,Azure Databricks 從多個來源讀取資料並使用 Spark 提供見解。

資料存放區

  • SQL 資料庫Azure SQL 系列的一部分,專為雲端而建置。 本服務具有完全託管且常青的平台即服務 (PaaS) 的優勢。 SQL 資料庫還提供人工智慧驅動的自動化功能,可最佳化效能和耐用性。 無伺服器計算和超大規模儲存選項可根據需要自動擴充資源。

  • Azure SQL 受控執行個體是 Azure SQL 服務組合的一部分。 這種智慧且可擴展的雲端資料庫服務將最廣泛的 SQL Server 引擎相容性與完全託管的常青 PaaS 的所有優勢相結合。 透過 SQL 受控執行個體,您可以大規模實現現有應用程式的現代化。

  • Azure 虛擬機器上的 SQL Server 提供了一種將 SQL Server 工作負載提升並轉移到雲端的方法,並且具有 100% 的程式碼相容性。 作為 Azure SQL 系列的一部分,Azure 虛擬機器上的 SQL Server 提供 SQL Server 的綜合效能、安全性和分析以及 Azure 的靈活性和混合連接。 使用 Azure 虛擬機器上的 SQL Server 遷移現有應用程式或建置新應用程式。 您也可以存取最新的 SQL Server 更新和版本,包括 SQL Server 2019。

  • 適用於 PostgreSQL 的 Azure 資料庫是以開放原始碼 PostgreSQL 資料庫引擎 Community Edition 為基礎的完全受控關聯式資料庫服務 使用此服務可以專注於應用程式創新而不是資料庫管理。 您還可以快速輕鬆地擴展工作量。

  • Azure Cosmos DB 是一個全球分散式多模型資料庫。 使用 Azure Cosmos DB 確保您的解決方案可以跨越任意數量的地理區域彈性且獨立地擴展吞吐量和儲存。 這種完全託管的 NoSQL 資料庫服務可保證世界上任何地方的百分之九十九的單位數毫秒延遲。

  • Data Lake Storage 是一個儲存庫,以原生原始格式保存大量資料。 資料湖儲存針對擴展到 TB 和 PB 資料進行了最佳化。 資料通常來自多個異質來源,且可能已結構化、半結構化或非結構化。 Data Lake Storage Gen2 將 Data Lake Storage Gen1 功能與 Blob 儲存體結合。 這種下一代資料湖解決方案提供檔案系統語義、檔案級安全性和規模。 此外還具備 Blob 儲存體的分層式儲存、高可用性和災難復原能力。

  • Azure Database for MySQL 是基於開源 MySQL 資料庫引擎社群版的完全託管關聯式資料庫服務

  • Blob 儲存體提供最佳化的雲端物件存儲,可管理大量非結構化資料。

案例詳細資料

資料可用性和完整性對於大型主機和中型機現代化至關重要。 資料優先策略有助於在遷移到 Azure 期間保持資料完整且可用。 為了防止現代化過程中出現中斷,有時您需要快速複製資料或將本機資料與 Azure 資料庫保持同步。

具體來說,該解決方案涵蓋:

  • 提取:連接到來源資料庫並從中提取。
  • 改造:
    • 暫存:以原始格式暫時儲存資料並為轉換做好準備。
    • 準備工作:使用滿足目標資料庫要求的映射規則來轉換和操作資料。
  • 載入:將資料插入目標資料庫。

潛在使用案例

可以從此解決方案中受益的資料複製和同步場景包括:

  • 使用 Azure 為所有查詢頻道提供服務的命令查詢職責分離 (CQRS) 架構。
  • 並行測試本機應用程式和重新託管或重新設計的應用程式的環境。
  • 具有緊密耦合應用程式的本地系統,需要分階段修復或現代化。

建議

當您使用 Data Factory 擷取資料時,請採取措施調整複製活動的效能

考量

這些考量能實作 Azure Well-Architected Framework 的支柱,其為一組指導原則,可以用來改善工作負載的品質。 如需更多資訊,請參閱 Microsoft Azure 結構完善的架構

當您考慮此架構時,請記住這些要點。

可靠性

可靠性可確保您的應用程式符合您對客戶的承諾。 有關更多資訊,請參閱可靠性支柱概述

  • 基礎結構管理 (包括可用性) 在 Azure 資料庫中實現自動化。

  • 有關 Microsoft DRDA 故障轉移保護服務的資訊,請參閱池化和故障轉移

  • 您可以對內部部署的資料閘道和整合執行時間 (IR) 進行集群,以提供更高的可用性保證。

安全性

安全性可提供保證,以避免刻意攻擊和濫用您寶貴的資料和系統。 有關更多資訊,請參閱安全支柱概述

  • 使用網路安全群組將存取權限限制為僅存取每個服務需要執行的內容。

  • 專用端點用於您的 PaaS 服務。 使用可透過 Internet 存取和不可存取的服務防火牆來補充服務的安全性。

  • 對元件到元件的資料流使用託管身分。

  • 請參閱使用 Microsoft Service for DRDA 規劃和架構解決方案,以了解 Microsoft Service for DRDA 支援的客戶端連線類型。 客戶端連線會影響網路上的事務、集區、故障轉移、身份驗證和加密的性質。

成本最佳化

成本最佳化是關於考慮如何減少不必要的費用,並提升營運效率。 有關更多資訊,請參閱成本最佳化支柱概述

  • 不同組件服務的定價模式有所不同。 查看可用組件服務的定價模型,以確保它們符合您的預算。

  • 使用 Azure 定價計算器來估算實作此解決方案的成本。

卓越營運

卓越營運涵蓋部署應用程式並使其持續在生產環境中執行的作業流程。 有關更多資訊,請參閱卓越營運支柱概述

  • 基礎結構管理 (包括可擴充性) 在 Azure 資料庫中實現自動化。

  • 您可以透過將邏輯執行個體與主動-主動模式下的多臺本機電腦關聯來擴充自我裝載 IR

效能效益

效能效率可讓您的工作負載進行調整,以有效率的方式符合使用者對其放置的需求。 有關更多資訊,請參閱性能效率支柱概述

  • 如果您的實作使用大量頻寬進行初始複製或持續變更的資料複製,請考慮將 Azure ExpressRoute 作為大規模選項。

  • 為您的場景選擇正確的 IR 設定

下一步