Apache®、Spark 和火焰標誌是 Apache Software Foundation 在美國和/或其他國家/地區的註冊商標或商標。 使用這些標記不會隱含 Apache Software Foundation 的背書。
本文說明大型主機和中型資料來源的端對端現代化方案。
架構
下載此架構的 Visio 檔案。
資料流程
下列資料流程概述將大型主機資料分層現代化的過程。 它會對應到前面的圖表。
大型主機和中型系統會將資料儲存在資料來源中,例如文件系統 (VSAM、一般檔案、LTFS)、關聯式資料庫 (Db2 for z/OS、Db2 for IBM i、Db2 for Linux UNIX 和 Windows),或非關聯式資料庫 (IMS、ADABAS、IDMS)。
物件轉換過程會從來源物件擷取物件定義。 定義接著會轉換成目標資料儲存區中的對應物件。
- db2 的 SQL Server Migration Assistant (SSMA) 會將架構和資料從 IBM Db2 資料庫遷移至 Azure 資料庫。
- 主機檔案的受控資料提供者會透過下列方式轉換物件:
- 剖析 COBOL 和 RPG 記錄版面配置,或複製手冊。
- 將複製手冊對應至 .NET 應用程式使用的 C# 物件。
- 使用自訂工具,將資料庫物件從 Db2 轉換成適用於 PostgreSQL 的 Azure 資料庫。 請注意,您可能需要要求存取此工具。
- 第三方工具會在非關聯式資料庫、檔案系統,和其他資料儲存區上執行自動化物件轉換。
資料會被擷取並轉換。 大型主機和中型系統會將其檔案系統資料以 EBCDIC 編碼格式儲存在檔案格式,例如:
COBOL、PL/I 和元件語言複製手冊會定義這些檔案的資料結構。
a. FTP 會以二進位格式和對應到 Azure 的複製手冊,傳輸具有單一版面配置和解壓縮欄位的大型主機和中型檔案系統資料集。
b. 資料已轉換。 Azure Data Factory 自訂連接器是使用主機整合伺服器的主機檔案用戶端元件開發,以轉換大型主機資料集的解決方案。
主機整合伺服器會將現有的 IBM 主機系統、程式、訊息和資料與 Azure 應用程式整合。 主機整合伺服器是主機檔案用戶端元件,可用來開發用於資料集轉換的自訂解決方案。
Azure Data Factory 自訂連接器是以開放原始碼 Spark 架構為基礎,並在 Azure Synapse Analytics 上執行。 與其他解決方案一樣,它可以剖析複製手冊並轉換資料。 使用 Azure Logic Apps 剖析主機檔案內容連接器來管理資料轉換的服務。
c. 關聯式資料庫資料已移轉。
IBM 大型主機和中型系統會將資料儲存在關聯式資料庫中,如下所示:
這些服務會移轉資料庫資料:
- Data Factory 會使用 Db2 連接器,從資料庫擷取和整合資料。
- SQL 伺服器整合服務會處理各種資料 ETL 工作。
d. 非關聯式資料庫資料已移轉。
IBM 大型主機和中型系統會將資料儲存在非關聯式資料庫中,如下所示:
第三方產品會整合來自這些資料庫的資料。
Data Factory 和 AzCopy 等 Azure 服務會將資料載入至 Azure 資料庫和 Azure 資料儲存體。 您也可以使用第三方解決方案和自訂載入解決方案來載入資料。
Azure 提供許多受控資料儲存體解決方案:
Azure 服務會使用現代化資料分層來計算、分析、儲存和建立網路連線。
用戶端應用程式也會使用現代化資料分層。
元件
資料存放區
- SQL 資料庫是 Azure SQL 系列的一部分。 它專為雲端建置,並提供完全受控及長青平台即服務的所有優點。 SQL 資料庫也會提供受 AI 支援,能將效能與持久性最佳化的自動化功能。 無伺服器計算和超大規模儲存選項可根據需要自動擴充資源。
- 適用於 PostgreSQL 的 Azure 資料庫是以開放原始碼 PostgreSQL 資料庫引擎 Community Edition 為基礎的完全受控關聯式資料庫服務
- Azure Cosmos DB 是一種全域散發的多重模型 NoSQL資料庫。
- Azure Database for MySQL 是一種完全受控的關聯式資料庫服務,它基於開放原始碼 MySQL 資料庫引擎的社群版本。
- SQL 受控執行個體是一種聰明、可縮放的雲端資料庫服務,可提供完全受控及長青平台即服務的所有優勢。 SQL 受控執行個體具有近乎 100% 相容於最新版的 SQL Server Enterprise edition 資料庫引擎。 它也提供解決常見安全性考量的原生虛擬網路實作。
- Azure Data Lake Storage 是一個存放庫,它以其原生、原始格式保存大量資料。 資料湖儲存針對擴展到 TB 和 PB 資料進行了最佳化。 資料通常來自多個異質來源。 它可以是結構化的、半結構化的或非結構化的。
計算
- Data Factory 會使用整合執行階段 (IR) (一種計算基礎結構) 跨不同網路環境整合資料。 Data Factory 會使用自我裝載 IR,在雲端資料儲存區和內部部署網路中的資料儲存區之間複製資料。
- Azure 虛擬機器提供可視需要,且可縮放的運算資源。 Azure 虛擬機器 (VM) 提供虛擬化的彈性,但可排除實體硬體的維護需求。 Azure VM 提供作業系統的選擇,包括 Windows 和 Linux。
資料整合商
- Azure Data Factory 是混合資料整合服務。 在此解決方案中,Azure Data Factory 自訂連接器會使用主機整合伺服器的主機檔案用戶端元件來轉換大型主機資料集。 透過最少的設定,您可以使用自訂連接器來轉換大型主機資料集,就像您使用任何其他 Azure Data Factory 連接器一樣。
- AzCopy 是命令行公用程式,可將 Blob 或檔案移入和移出儲存體帳戶。
- SQL Server 整合服務是可建立企業級資料整合與轉換解決方案的平台。 您可以使用它來解決複雜的商務問題,方法是:
- 複製或下載檔案。
- 載入資料倉儲。
- 清理和探勘資料。
- 管理 SQL Server 物件和資料。
- 主機整合伺服器 技術和工具可讓您將現有的 IBM 主機系統、程式、訊息與資料與 Azure 應用程式整合。 主機檔案用戶端元件可為從 EBCDIC 轉換成 ASCII 的資料提供彈性。 例如,您可以從已轉換的資料產生 JSON/XML。
- Azure Synapse 會將資料整合、企業資料倉儲和巨量資料分析整合在一起。 此架構中使用的 Azure Synapse 轉換解決方案是以 Apache Spark 為基礎,適合用於巨大的大型主機資料集工作負載轉換。 它支援各種不同的大型主機資料結構和目標,且需要最少的編碼工作。
其他工具
- Db2 的 SQL Server Migration Assistant 會自動從 Db2 移轉至 Microsoft 資料庫服務。 在 VM 上執行時,此工具會將 Db2 資料庫物件轉換成 SQL Server 資料庫物件,並在 SQL Server 中建立這些物件。
- 主機檔案的資料提供者是使用離線、SNA 或 TCP/IP 連線之主機整合伺服器的元件。
- 使用離線連線時,資料提供者會讀取和寫入本機二進位檔案中的記錄。
- 使用 SNA 和 TCP/IP 連線時,資料提供者會讀取和寫入儲存在遠端 z/OS (IBM Z 系列大型主機) 資料集或遠端 i5/OS (IBM AS/400 和 iSeries 系統) 實體檔案中的記錄。 只有 i5/OS 系統使用 TCP/IP。
- Azure 服務提供在公用雲端中開發和縮放新應用程式的環境、工具和程式。
案例詳細資料
Azure 資料平台等新式資料儲存體解決方案提供比大型主機和中型系統更好的可擴增性和效能。 藉由將系統現代化,您可以利用這些優點。 不過,更新技術、基礎結構和做法很複雜。 此過程涉及對商業和工程活動的詳盡調查。 當您將系統現代化時,資料管理是其中一個考慮。 您還需要查看資料視覺效果和整合。
成功的現代化會使用資料優先原則。 當您使用此方法時,您會專注於資料,而不是新的系統。 資料管理不再只是現代化檢查清單上的一個項目。 相反地,資料是中心。 協調、品質導向的資料解決方案會取代分散且控管不善的資料解決方案。
此解決方案會在資料優先方法中使用 Azure 資料平台元件。 具體來說,解決方案涉及:
- 物件轉換。 將物件定義從來源資料儲存區轉換成目標資料儲存區中的對應物件。
- 資料擷取。 連接到來源資料儲存區並擷取資料。
- 資料轉換。 將擷取的資料轉換成適當的目標資料儲存區結構。
- 資料儲存體。 一開始和持續將資料從來源資料儲存區載入到目標資料儲存區。
潛在使用案例
使用大型主機和中型系統的組織可受益於此解決方案,特別是當他們想要達成這些目標時:
- 現代化任務關鍵性工作負載。
- 取得商業智慧以改善營運並取得競爭優勢。
- 移除與大型主機和中型資料儲存區相關的高成本和死板僵化。
考量
這些考量能實作 Azure Well-Architected Framework 的支柱,其為一組指導原則,可以用來改善工作負載的品質。 如需更多資訊,請參閱 Microsoft Azure 結構完善的架構。 當您使用主機檔案的資料提供者用戶端來轉換資料時,請開啟連線集區以減少連線啟動時間。 當您使用 Data Factory 來擷取資料時,請微調複製活動的效能。
安全性
安全性可提供保證,以避免刻意攻擊和濫用您寶貴的資料和系統。 有關更多資訊,請參閱安全支柱概述。
- 請注意內部部署用戶端身分識別與 Azure 中的用戶端身分識別之間的差異。 您需要補償任何差異。
- 針對元件對元件資料流程使用受控身分識別 。
- 當您使用主機檔案的資料提供者來轉換資料時,請遵循主機檔案的資料提供者安全性和保護中的建議。
成本最佳化
成本最佳化與減少不必要費用,及提升營運效率有關。 有關更多資訊,請參閱成本最佳化支柱概述。
- SQL Server Migration Assistant 是免費的支援性工具,能簡化資料庫從 Db2 移轉到 SQL Server、SQL 資料集,和 SQL 受控執行個體的過程。 SQL Server Migration Assistant 會自動化進行所有層面的移轉,包括移轉評估分析、架構和 SQL 陳述式轉換,以及資料移轉。
- Azure Synapse Spark 型解決方案是從開放原始碼連結庫建置的。 它可消除授權轉換工具的財務負擔。
- 使用 Azure 定價計算器來估算實作此解決方案的成本。
效能效率
效能效率可讓您的工作負載進行調整,以有效率的方式符合使用者對其放置的需求。 如需詳細資訊,請參閱效能效率支柱概觀。
- 效能效率的主要支柱包括效能管理、產能規劃、可擴增性,以及選擇適當的效能模式。
- 您可以透過將邏輯執行個體與主動-主動模式下的多臺本機電腦關聯來擴充自我裝載 IR。
- Azure SQL Database 可讓您動態縮放資料庫。 在無伺服器分層中,它可以自動縮放計算資源。 彈性集區可讓資料庫共用集區中的資源,只能以手動方式進行縮放。
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主要作者:
- Ashish Khandelwal |首席工程架構師主管
其他投稿人:
- Nithish Aruldoss | 工程架構師
若要查看非公開的 LinkedIn 設定檔,請登入 LinkedIn。
下一步
請檢閱 Azure 資料庫移轉指南。 如需詳細資訊,請洽 Azure 資料工程 - 大型主機 & 中型現代化。
請參閱以下文章: