你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

现代化大型机和中型数据

Azure Cosmos DB

Azure Data Lake

Azure SQL 数据库

Azure SQL 托管实例

Azure 存储

Apache®、 Spark 和火焰徽标是美国和/或其他国家/地区 Apache Software Foundation 的注册商标或商标。使用这些标记并不暗示获得 Apache Software Foundation 的认可。

本文介绍大型机和中型数据源的端到端现代化计划。现代化有助于提高任务关键型工作负荷的可伸缩性和性能。

Architecture

下载此体系结构的 Visio 文件。

Dataflow

以下数据流对应于上图：

大型机和中型系统将数据存储在以下数据源中。
- 文件系统：
  - 虚拟存储访问方法（VSAM）
  - 平面文件
  - 线性磁带文件系统
- 关系数据库：
  - Db2 for z/OS
  - Db2 for IBM i
  - Db2 for Linux UNIX 和 Windows
- 非关系数据库：
  - 信息管理系统（IMS）
  - Adabas
  - 集成数据库管理系统（IDMS）
对象转换过程从源对象中提取对象定义。然后，定义将转换为目标数据存储中的相应对象。
- 适用于 Db2 的 SQL Server 迁移助手将架构和数据从 IBM Db2 数据库迁移到 Azure 数据库。
- 主机文件的托管数据提供程序通过以下方式转换对象：
  - 分析常见的面向业务的语言（COBOL）和报表程序生成器记录布局，或 复制手册。
  - 将 copybook 映射到 .NET 应用程序使用的 C# 对象。
- Db2toAzurePostgreSQL 工具将数据库对象从 Db2 迁移到 Azure Database for PostgreSQL。
- 合作伙伴工具对非关系数据库、文件系统和其他数据存储执行自动对象转换。
数据已引入和转换。大型机和中型系统以 EBCDIC 编码格式以文件格式存储其文件系统数据，例如：
- 已编制索引的 VSAM 文件。
- 非索引 GDG 文件。
- 平面文件。
COBOL、编程语言 One 和汇编语言复制手册定义这些文件的数据结构。

a. 文件传输协议（FTP）将大型机和中型文件系统数据集及其相应的复制手册传输到 Azure。这些数据集具有单一布局和二进制格式的解压缩字段。

b. 数据转换是通过使用 Host Integration Server 的主机文件组件或使用 Azure 逻辑应用中 IBM 主机文件的内置连接器来开发自定义程序来实现的。

Spark Notebook 转换器是使用开源 Spark 框架开发的。它与 Spark 环境（如 Microsoft Fabric 和 Azure Databricks）兼容。

c. 关系数据库数据已迁移。

IBM 大型机和中型系统将数据存储在关系数据库中，例如：
- Db2 for z/OS。
- Db2 for Linux UNIX 和 Windows。
- Db2 for IBM i.
以下服务迁移数据库数据：
- Azure 数据工厂使用 Db2 连接器从数据库提取和集成数据。
- SQL Server Integration Services 处理各种数据提取、转换和加载任务。
- 结构数据工厂使用 IBM Db2 连接器迁移 Db2 数据。
d. 迁移非关系数据库数据。

IBM 大型机和中型系统将数据存储在非关系数据库中，例如：
- IDMS，网络模型数据库管理系统（DBMS）。
- IMS，分层模型 DBMS。
- Adabas.
- Datacom.
合作伙伴产品集成来自这些数据库的数据。
Azure 数据工厂和 AzCopy 等 Azure 工具将数据加载到 Azure 数据库和 Azure 数据存储中。还可以使用合作伙伴解决方案和自定义加载解决方案来加载数据。
Azure 提供各种数据库服务，包括 Azure SQL 数据库等完全托管的关系数据库服务，以及 Azure Cosmos DB 等 NoSQL 选项。这些服务旨在实现可伸缩性、灵活性和全球分发。

Azure 还提供一系列存储解决方案，包括用于非结构化数据的 Azure Blob 存储，以及用于完全托管文件共享的 Azure 文件存储。
Azure 服务使用现代化数据层进行计算、分析、存储和网络。
客户端应用程序还使用现代化数据层。

Components

此体系结构使用以下组件。

数据存储

此体系结构介绍如何将数据迁移到可缩放、更安全的云存储和托管数据库，以便在 Azure 中实现灵活的智能数据管理。

Azure Cosmos DB 是一个全球分布式多模型 NoSQL 数据库。在此体系结构中，Azure Cosmos DB 充当可缩放的 NoSQL 目标，用于将非关系大型机数据库（如 IMS 和 IDMS）现代化。
Azure Database for MySQL 是基于开源 MySQL 数据库引擎社区版的完全托管的关系数据库服务。在此体系结构中，Azure Database for MySQL 为迁移的大型机数据提供了另一个关系数据库目标选项。
Azure Database for PostgreSQL 是基于开源 PostgreSQL 数据库引擎社区版的完全托管的关系数据库服务。在此体系结构中，Azure Database for PostgreSQL 提供用于大型机关系数据迁移的替代目标数据库。
SQL 数据库是 Azure SQL 系列的一部分。它专为云设计，提供完全托管且常绿的平台即服务（PaaS）的所有优势。 SQL 数据库还包含由 AI 提供支持的自动化功能，这些功能可优化性能和持续性。无服务器计算和超大规模存储选项可按需自动缩放资源。在此体系结构中，SQL 数据库充当从大型机 Db2 系统迁移的关系数据的目标数据库。
Azure SQL 托管实例是一种云数据库服务，可提供完全托管且常青的 PaaS 的所有优势。 SQL 托管实例与最新的 SQL Server Enterprise Edition 数据库引擎几乎完全兼容。它还提供用于解决常见安全问题的本机虚拟网络实现。在此体系结构中，SQL 托管实例充当需要 SQL Server 兼容性和企业功能的大型机数据的目标。
Azure Data Lake Storage 是一个存储存储库，它以本机原始格式保存大量数据。 Data Lake Store 经过优化，可扩展到 TB 和 PB 级数据。数据通常来自多个异类源。它可以是结构化的、半结构化的，也可以是非结构化的。在此体系结构中，Data Lake Storage 为转换后的大型机文件系统数据提供可缩放的存储，并充当数据转换的暂存区域。
Microsoft Fabric Lakehouse 是一个数据体系结构平台，用于在单个位置存储、管理和分析结构化和非结构化数据。在此体系结构中，Microsoft Fabric Lakehouse 充当原始大型机数据和已处理的数据集的统一分析平台。
Microsoft Fabric 中的 SQL 数据库是基于 SQL 数据库的开发人员友好事务数据库。可以使用它在 Fabric 中创建作数据库。 Fabric 中的 SQL 数据库使用与 SQL 数据库相同的 SQL 数据库引擎。在此体系结构中，Microsoft Fabric 中的 SQL 数据库为迁移的大型机作数据提供了新式事务数据库选项。

计算

Azure 数据工厂是Microsoft基于云的数据集成服务，它使用集成运行时（IR）（即计算基础结构）跨不同网络环境集成数据。 Azure 数据工厂使用自承载 IR 在本地网络中复制云数据存储和数据存储之间的数据。在此体系结构中，Azure 数据工厂协调从大型机源到 Azure 目标的整个数据迁移过程。
本地数据网关是本地安装的 Windows 客户端应用程序，用作本地本地数据源和服务在 Microsoft 云中的桥梁。在此体系结构中，本地数据网关在大型机系统和 Azure 服务之间建立安全连接。
Azure 虚拟机是一种基础结构即服务（IaaS）产品/服务，可提供按需、可缩放的计算资源。 Azure 虚拟机（VM）提供虚拟化的灵活性，但消除了物理硬件的维护需求。 Azure VM 提供一系列作系统，包括 Windows 和 Linux。在此体系结构中，Azure 虚拟机托管适用于 Db2 的 SQL Server 迁移助手和自定义转换应用程序等迁移工具。

数据集成商

此体系结构概述了根据大型机源数据和目标数据库使用的各种 Azure 本机迁移工具。

Azure 数据工厂是混合数据集成服务。 Azure 数据工厂使用本机连接器将数据从 Db2 源迁移到 Azure 数据库目标。在此体系结构中，Azure 数据工厂充当用于协调大型机数据迁移工作流的主要数据集成服务。
AzCopy 是一个命令行实用工具，用于将 Blob 或文件移入和移出存储帐户。在此体系结构中，AzCopy 在迁移过程中将大量大型机文件系统数据传输到 Azure 存储。
SQL Server Integration Services 是用于创建企业级数据集成和转换解决方案的平台。在此体系结构中，你将使用它在大型机迁移期间协调数据转换任务，例如：
- 复制或下载文件。
- 加载数据仓库。
- 清理和挖掘数据。
- 管理 SQL Server 对象和数据。
Host Integration Server 技术和工具可以将现有的 IBM 主机系统、程序、消息和数据与 Azure 应用程序集成。主机文件客户端组件为从 EBCDIC 转换为 ASCII 的数据提供了灵活性。例如，可以从转换的数据生成 JSON 或 XML 格式的数据。在此体系结构中，Host Integration Server 将 EBCDIC 编码的大型机数据转换为 ASCII 格式，以供 Azure 使用。
Microsoft Fabric 是一个企业就绪的端到端分析平台。它统一数据移动、数据处理、引入、转换、实时事件路由和报表生成。它使用以下集成服务支持这些功能：
- 结构数据工程师
- 织物数据工厂
- Fabric 数据科学
- Fabric Real-Time Intelligence
- Fabric 数据仓库
- Fabric 数据库

在此体系结构中，Fabric 提供了一个全面的分析平台，用于端到端大型机数据现代化和商业智能。

其他工具

适用于 Db2 的 SQL Server 迁移助手自动从 Db2 迁移到Microsoft数据库服务。当此工具在 VM 上运行时，它将 Db2 数据库对象转换为 SQL Server 数据库对象，并在 SQL Server 中创建这些对象。在此体系结构中，适用于 Db2 的 SQL Server 迁移助手自动将大型机 Db2 数据库架构和对象转换为 Azure 数据库目标。
主机文件的数据提供程序是使用脱机、SNA 或 TCP/IP 连接的主机集成服务器的组件。
- 通过脱机连接，数据提供程序在本地二进制文件中读取和写入记录。
- 借助 SNA 和 TCP/IP 连接，数据提供程序读取和写入存储在远程 z/OS（IBM Z 系列大型机）数据集或远程 i5/OS（IBM AS/400 和 iSeries 系统）物理文件中的记录。只有 i5/OS 系统使用 TCP/IP。
在此体系结构中，用于主机文件的数据提供程序支持大型机文件系统与 Azure 应用程序之间的连接和数据访问。
Azure 服务提供环境、工具和流程，用于在公有云中开发和缩放新应用程序。在此体系结构中，Azure 服务为现代化大型机应用程序和数据分析工作负载提供目标云平台。

方案详细信息

新式数据存储解决方案（如 Azure 数据平台）提供比大型机和中型系统更好的可伸缩性和性能。通过现代化系统，可以利用这些优势。但是，更新技术、基础结构和做法很复杂。该过程涉及对业务和工程活动的详尽调查。实现系统现代化时，数据管理是一个考虑因素。还需要查看数据可视化和集成。

成功的现代化使用数据优先策略。使用此方法时，可以专注于数据而不是新系统。数据管理不再是现代化清单上的一项。相反，数据是中心。协调、以质量为导向的数据解决方案取代了碎片化、管理不善的数据解决方案。

此解决方案在数据优先方法中使用 Azure 数据平台组件。具体而言，解决方案涉及：

对象转换。 将对象定义从源数据存储转换为目标数据存储中的相应对象。
数据引入。 连接到源数据存储并提取数据。
数据转换。 将提取的数据转换为适当的目标数据存储结构。
数据存储。 最初和持续地将数据从源数据存储加载到目标数据存储。

可能的用例

使用大型机和中型系统的组织可以从此解决方案中受益，尤其是在他们想要：

使任务关键型工作负载现代化。
获取商业智能以提高运营并取得竞争优势。
删除与大型机和中型数据存储关联的高成本和刚性。

Considerations

这些注意事项实施 Azure 架构良好的框架的支柱原则，即一套可用于改进工作负荷质量的指导原则。有关详细信息，请参阅 Well-Architected Framework。

安全性

安全性提供针对故意攻击和滥用宝贵数据和系统的保证。有关详细信息，请参阅可靠性设计审查检查表。

请注意本地客户端标识与 Azure 中的客户端标识之间的差异。你需要补偿任何差异。
对组件到组件数据流使用托管标识。
使用用于主机文件的数据提供程序转换数据时，请按照用于主机文件安全和保护的数据提供程序中的建议进行作。

成本优化

成本优化侧重于减少不必要的开支和提高运营效率的方法。有关详细信息，请参阅成本优化设计评审核对清单。

SQL Server 迁移助手是免费的受支持的工具，可简化从 Db2 到 SQL Server、SQL 数据库和 SQL 托管实例的数据库迁移。 SQL Server 迁移助手自动执行迁移的所有方面，包括迁移评估分析、架构和 SQL 语句转换和数据迁移。
基于 Microsoft Fabric Lakehouse 的解决方案是基于开源技术（Delta Lake，Apache Spark）构建的。此方法消除了许可转换工具的财务负担，并为分析提供统一的 SaaS 体验。
要估计此解决方案的实现成本，请使用 Azure 定价计算器。

性能效率

性能效率是指工作负荷能够高效地缩放以满足用户需求。有关详细信息，请参阅性能效率设计评审核对清单。

性能效率的主要支柱是性能管理、容量规划、可伸缩性和选择适当的性能模式。
通过将逻辑实例与主动-主动模式下的多个本地计算机相关联，可以横向扩展自承载 IR 。
使用 SQL 数据库动态缩放数据库。无服务器层可以自动缩放计算资源。弹性池允许数据库共享池中的资源，并且只能手动缩放。

使用主机文件客户端的数据提供程序转换数据时，请启用连接池以减少连接启动时间。使用 Azure 数据工厂提取数据时，请优化复制活动的性能。

Contributors

Microsoft维护本文。以下参与者撰写了本文。

主要作者：

阿什什·汗德尔瓦尔 |首席工程架构师经理

其他参与者：

Nithish Aruldoss | 工程架构师
罗德里戈·罗德里格斯 |高级云解决方案架构师 AI 和 Quantum

要查看非公开的 LinkedIn 个人资料，请登录到 LinkedIn。

后续步骤

请参阅 Azure 数据库迁移指南。有关详细信息，请联系 Azure 数据工程 - 大型机和 Midrange 现代化。

请参阅以下文章：

使用 Azure Synapse Analytics 端到端分析

反馈

此页面是否有帮助？