你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Synapse 实现成功方法:评估数据集成设计

注意

本文是“按设计成功实施 Azure Synapse”系列文章的一部分。 有关系列概述,请参阅 Azure Synapse 实现成功(设计)

Azure Synapse Analytics 包含了与 Azure 数据工厂 (ADF) 相同的数据集成引擎和体验,使你可以创建丰富的大规模 ETL 管道,而无需离开 Azure Synapse Analytics。

Image shows the components of Azure Synapse, with the Data Integration component highlighted.

本文介绍如何评估项目的数据集成组件的设计。 具体而言,本文可帮助你确定 Azure Synapse 管道是否最适合你的数据集成需求。 在开发解决方案之前对设计进行评估所投入的时间有助于消除可能影响项目时间表或成本的意外设计更改。

适配差距分析

应对数据集成策略执行全面的适配差距分析。 如果选择 Azure Synapse 管道作为数据集成工具,请查看以下要点以确保它们最适合你的数据集成需求和业务流程。 即使选择不同的数据集成工具,仍应查看以下要点,以验证所有关键设计点是否都已考虑到,并且所选工具是否支持你的解决方案需求。 应在此方法前面部分中执行的评估期间捕获此信息。

  • 查看数据源和目标:
  • 查看数据集成和频率的触发点:
    • Azure Synapse 管道支持计划触发器、翻转窗口触发器和存储事件触发器。
    • 根据要求验证最小重复间隔和支持的存储事件。
  • 查看所需的数据集成模式:
  • 查看计算设计:
    • 管道所需的计算需要是无服务器还是预配?
    • 在 Windows 计算机上,Azure Synapse 管道支持两种模式的集成运行时 (IR):无服务器或自承载。
    • 使用自承载 IR(预配)时,验证端口和防火墙以及代理设置
  • 查看环境的安全要求、网络和防火墙配置,并将其与安全性、网络和防火墙配置设计进行比较:
    • 评审数据源的保护方式和网络连接方式。
    • 评审目标数据存储的保护方式和网络连接方式。 Azure Synapse 管道具有不同的数据访问策略,这些策略提供了通过专用终结点或虚拟网络连接数据存储的安全方式。
    • 使用 Azure Key Vault 存储凭据(如果适用)。
    • 使用 ADF 对凭据进行客户管理的密钥 (CMK) 加密,并将这些凭据存储在自承载 IR 中。
  • 评审对所有数据集成组件的持续监视的设计。

体系结构注意事项

在评审数据集成设计时,请考虑以下建议和准则,以确保解决方案的数据集成组件将提供持续的卓越运营、性能效率、可靠性和安全性。

卓越运营

为实现卓越运营,请评估以下要点。

  • 环境:规划环境时,请将开发/测试环境、用户验收测试 (UAT) 环境和生产环境分离开来。 使用文件夹组织选项按业务/ETL 作业来组织管道和数据集,以实现更好的可维护性。 使用注释标记管道,以便轻松监视它们。 使用参数、迭代和条件活动创建可重用管道。
  • 监视和警报:Synapse 工作区包含监视中心,其中提供所有管道运行的丰富监视信息。 它还与 Log Analytics 集成,以进一步进行日志分析和发出警报。 应实现这些功能以提供主动错误通知。 此外,使用“失败时”路径实现自定义错误处理
  • 自动部署和测试:Azure Synapse 管道内置于 Synapse 工作区中,因此你可利用工作区自动化和部署。 使用 ARM 模板最大限度地减少创建 Synapse 工作区时的手动活动。 此外,将 Synapse 工作区与 Azure DevOps 集成以生成代码版本控制并自动执行发布。

性能效率

为提高性能效率,请评估以下要点。

  • 使用复制活动时,请按照性能指南优化功能的说明进行操作。
  • 为数据传输选择优化的连接器,而不是泛型连接器。 例如,将数据从 Azure Data Lake Storage Gen2 (ALDS Gen2) 移动到专用 SQL 池时,请使用 PolyBase 而不是批量插入。
  • 创建新的 Azure IR 时,请将区域位置设置为自动解析,或选择与数据存储相同的区域。
  • 对于自承载 IR,请根据集成要求选择 Azure 虚拟机 (VM) 大小
  • 选择稳定的网络连接(如 Azure ExpressRoute)以获得快速且一致的带宽。

可靠性

使用 Azure IR 执行管道时,它本质上是无服务器,因此它提供了现成的复原能力。 客户几乎没有什么需要管理的。 但是,当管道在自承载 IR 中运行时,我们建议使用 Azure VM 中的高可用性配置来运行该管道。 此配置可确保即使 VM 脱机,集成管道也不会中断。 此外,建议在本地与 Azure 之间使用 Azure ExpressRoute 实现快速可靠的网络连接。

安全性

安全的数据平台是每个组织的关键要求之一。 你应全面规划整个平台的安全性,而不是单个组件的安全性。 下面是 Azure Synapse 管道解决方案的一些安全准则。

  • 使用 Azure Synapse 专用终结点保护到云的数据移动。
  • 使用 Microsoft Entra 托管标识进行身份验证。
  • 使用 Azure 基于角色的访问控制 (RBAC) 和 Synapse RBAC 进行授权。
  • 将凭据、机密和密钥存储在 Azure Key Vault 中,而不是存储在管道中。 有关详细信息,请参阅在管道活动中使用 Azure Key Vault 机密
  • 使用 Azure ExpressRoute 或 VPN 通过专用终结点连接到本地资源。
  • 当参数存储机密或密码时,在管道活动中启用“安全输出”和“安全输入”选项。

后续步骤

在“Azure Synapse 成功(设计)”系列的下一篇文章中,了解如何评估专用 SQL 池设计以确定问题并验证该设计是否符合准则和要求。