你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Qlik 将大型机和中型机数据复制到 Azure

Azure 事件中心
Azure Data Lake
Azure Databricks

此解决方案使用 Qlik 的本地实例将本地数据源实时复制到 Azure。

注释

将 “Qlik” 发音为 “click”。

Apache® 和 Apache Kafka® 是 Apache Software Foundation 在美国和/或其他国家/地区的商标或注册商标。 使用这些标记并不暗示获得 Apache Software Foundation 的认可。

建筑

使用 Qlik 将数据迁移到 Azure 的架构图。

下载此体系结构的 Visio 文件

Workflow

  1. 主机代理: 本地系统上的主机代理从 Db2、信息管理系统 (IMS) 和虚拟存储访问方法 (VSAM) 数据存储中捕获更改日志信息,并将其传递到 Qlik 复制服务器。

  2. 复制服务器: Qlik 复制服务器软件将更改日志信息引入到事件流。 在此示例中,Qlik 位于本地,但您可以将其部署在 Azure 中的虚拟机上。

  3. 流引入: 事件流和事件库处理数据暂存和准备。

    • 事件流 用于从 Qlik 复制服务器传输实时变更日志数据。 它通过快速路径将数据发送到事件处理中心,以实现准实时分析。
    • Eventhouse 充当实时分析存储,并将更改日志数据存储在 Fabric 中用于查询和分析。
    • OneLake 是用于历史分析和大规模数据准备的统一数据湖,用于通过冷路径进行高级分析。 它存储从事件屋(通过 OneLake 的可用性)或直接从事件流获取的特选或复制的更改日志数据。
  4. Azure 数据服务: Azure 提供以下高效的数据存储服务和数据处理服务。

    • 关系数据库服务:

      • Azure SQL 数据库
      • Azure Database for PostgreSQL
      • Azure Database for MySQL

      选择数据存储服务时,需要考虑许多因素。 考虑工作负载类型、跨数据库查询、两阶段提交要求、访问文件系统的能力、数据量、所需的吞吐量和延迟。

    • Azure Cosmos DB: Azure Cosmos DB 是一种 NoSQL 数据库,可在任何规模下提供快速响应、自动可伸缩性和有保证的速度。

    • Azure Databricks: Azure Databricks 处理更改日志数据并更新 Azure 上的相应文件。

    • Microsoft Fabric: Fabric 是适用于企业的一次性分析解决方案。 它涵盖了从数据移动到数据科学、实时分析和商业智能的所有内容。 它提供一整套服务,包括数据湖、数据工程和数据集成。

组件

此体系结构由多个 Azure 云服务组成,并分为四类资源:网络和标识、应用程序、存储和监视。 以下部分介绍每个资源的服务及其角色。

网络

在设计应用程序架构时,必须优先考虑网络和身份组件,以帮助确保通过公共 Internet 或私有连接进行交互期间的安全性、性能和可管理性。

  • Azure ExpressRoute 是本地基础结构与 Microsoft 云服务之间的专用专用连接。 在此体系结构中,它确保与 Azure 和 Microsoft 365 的安全高吞吐量连接,并绕过公共 Internet 以提高可靠性和性能。

存储和数据库

Azure 和 Fabric 提供托管服务,可实现可缩放的云存储和托管数据库,以实现灵活智能数据管理。

  • Azure Databricks 是基于 Apache Spark 构建的基于云的数据工程和分析平台。 它可以处理和转换大量数据。 您可以使用机器学习模型来浏览数据。 作业可以用 R、Python、Java、Scala 和 Spark SQL 编写。 在此体系结构中,Azure Databricks 使用机器学习模型转换和分析大量引入的数据。 它还支持在 R、Python、Java、Scala 和 Spark SQL 中开发。

  • OneLake 是一个统一的逻辑数据湖,可为整个组织提供服务。 与 OneDrive 一样,OneLake 包括所有 Fabric 租户,并为所有分析数据提供一个位置。 在此体系结构中,OneLake 充当持久存储层,用于处理来自本地系统的更改日志数据。

  • Azure Cosmos DB 是一种全球分布式 NoSQL 数据库服务。 在此体系结构中,它存储从大型机系统迁移的非表格数据,并支持跨区域进行低延迟访问。

  • Azure Database for MySQL 是一项完全托管的 MySQL 数据库服务,旨在实现可伸缩性和高可用性。 在此体系结构中,它支持开源关系工作负载。

  • Azure Database for PostgreSQL 是一种完全托管、智能且可缩放的 PostgreSQL,它与 Azure 服务建立本机连接。 在此体系结构中,它托管关系数据,这些数据受益于高级索引、分析和与开源工具的兼容性。

  • Azure SQL 是一系列基于云的 SQL 数据库服务,支持迁移、现代化和开发。 此系列包括以下产品/服务:

    • Azure SQL Edge 是针对 IoT 和边缘部署优化的轻型 SQL 引擎。 在此体系结构中,它会处理并存储靠近设备的数据,这些数据存储在断开连接或延迟敏感的环境中。

    • Azure SQL 托管实例 是一个完全托管的 SQL Server 实例,与本地 SQL Server 的兼容性接近 100%。 在此体系结构中,它托管受益于简化管理和内置高可用性的迁移数据库。

    • SQL 数据库 是一个完全托管的关系数据库,针对可伸缩性和性能进行优化。 在此体系结构中,它支持使用弹性计算和内置智能实现现代化工作负载。

    • Azure 虚拟机上的 SQL Server 是一个功能齐全的 SQL Server 实例,可在 Azure 基础结构上运行。 在此体系结构中,它支持需要完全控制作系统和数据库引擎的旧工作负载。

监测

监控工具提供全面的数据分析和对应用程序性能的宝贵见解。

  • Application Insights 是 Azure Monitor 的一项功能,可为应用程序性能、可用性和使用情况提供深入的遥测数据。 在此体系结构中,它监视应用程序行为、检测异常,并支持分布式跟踪,以确保跨服务的可靠性。

  • Azure Monitor 是一个全面的平台,用于从 Azure 和本地环境收集、分析和处理遥测数据。 在此体系结构中,它充当中心可观测性层,用于跨基础结构和应用程序进行主动监视和诊断。

    • Log Analytics 是 Azure Monitor 中的查询工具,它支持使用功能强大的查询语言深入分析日志数据。 在此体系结构中,它通过跨多个源联接和聚合数据,支持诊断、自定义仪表板和作见解。

替代方案

  • 上图显示了本地安装的 Qlik。 此方法是推荐的最佳实践,以使 Qlik 靠近本地数据源。 另一种方法是将 Qlik 安装在 Azure 虚拟机上的云中。

  • Qlik Data Integration 可以将数据直接交付到 Azure Databricks,而无需通过 Kafka 或事件中心。

  • Qlik Data Integration 无法将数据直接复制到 Azure Cosmos DB,但您可以使用事件溯源架构将 Azure Cosmos DB 与事件中心集成。

方案详细信息

许多组织使用大型机和中型机系统来运行要求苛刻的关键工作负载。 大多数应用程序使用共享数据库,通常跨多个系统。 在这种环境中,现代化到云意味着必须将本地数据提供给基于云的应用程序。 因此,数据复制成为一种重要的现代化策略。

Qlik Data Integration 平台包括 Qlik Replicate,它执行数据复制。 它使用变更数据捕获将本地数据存储实时复制到 Azure。 更改数据可以来自 Db2、IMS 和 VSAM 更改日志。 这种复制技术消除了不方便的批量批量加载。 此解决方案使用 Qlik 的本地实例将本地数据源实时复制到 Azure。

可能的用例

此解决方案可能适用于:

  • 需要将数据更改从大型机或中型机系统复制到 Azure 数据库的混合环境。

  • 从 Db2 到 Azure SQL 数据库的在线数据库迁移,停机时间短。

  • 将数据从各种本地数据存储复制到 Azure 以进行整合和分析。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改进工作负荷质量的指导原则。 有关详细信息,请参阅 Well-Architected Framework

可靠性

可靠性有助于确保应用程序能够履行对客户的承诺。 有关详细信息,请参阅可靠性设计评审核对清单

  • Qlik Data Integration 可以在 high-availability 集群中配置。

  • Azure 数据库服务支持区域冗余。 你可以将其设计为在维护时段或中断期间故障转移到辅助节点。

  • Fabric 通过可用性区域提供区域复原能力,并支持跨区域恢复。

安全性

安全性提供针对故意攻击和滥用宝贵数据和系统的保证。 有关详细信息,请参阅可靠性设计审查检查表

  • ExpressRoute 提供从本地到 Azure 的专用高效连接,但你可以改用 站点到站点 VPN

  • 可以使用 Microsoft Entra ID 对 Azure 资源进行身份验证,并通过基于角色的访问控制来管理权限。

  • Azure 数据库服务和 Fabric 支持各种安全选项,包括以下功能:

    • 静止状态下的数据加密

    • 动态数据掩码

    • 始终加密的数据库

  • 有关详细信息,请参阅 Azure 安全文档Fabric 安全文档

成本优化

成本优化侧重于减少不必要的开支和提高运营效率的方法。 有关详细信息,请参阅成本优化设计评审核对清单

若要估算实现的成本,请使用 Azure 定价计算器Fabric 定价估算器

卓越运营

卓越运营涵盖了部署应用程序并使其在生产环境中保持运行的运营流程。 有关详细信息,请参阅设计卓越运营的审查清单

可以结合使用 Application Insights 和 Log Analytics 功能来监视 Azure 资源的运行状况。 您可以设置警报,以便主动管理问题。

结构通过统一治理、可观测性和可复原的工程模式实现卓越运营。 这种统一发生在 OneLake、Fabric 数据仓库、Fabric 数据工程师、Fabric Real-Time 智能和其他工作负荷之间。

性能效率

性能效率是指工作负荷能够高效地缩放以满足用户需求。 有关详细信息,请参阅性能效率设计评审核对清单

Fabric、Azure Databricks、Data Lake Storage 和其他 Azure 数据库服务具有自动缩放功能。 有关详细信息,请参阅 自动缩放

供稿人

Microsoft维护本文。 以下参与者撰写了本文。

主要作者:

其他参与者:

要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤