何时使用 Azure 数据工厂

已完成

在此单元中,我们将讨论如何确定 Azure 数据工厂是否是适合你组织的数据集成解决方法。 我们将根据以下条件评估 Azure 数据工厂:

  • 数据集成的要求
  • 编码资源
  • 支持多个数据资源
  • 无服务器基础结构

决策条件

若要确定是否使用 Azure 数据工厂,请使用下表中所述的标准。

条件 分析
是否需要数据集成? 如果你的组织需要处理大数据,或属于传统关系数据仓库组织,你可能对数据集成解决方案感兴趣。
是否需要编码资源? 并不是每个处理数据的人都有编码经验。 有些用户可能更喜欢使用图形工具,通过可视化效果来帮助创建将处理源数据的任务。
是否需要处理多个数据源? 某些组织可能将原始数据存储在一系列不同的系统中,包括本地系统和基于云的系统。 数据分析解决方案必须能够轻松连接到多个数据源。
能否创建、管理和维护单独的数据集成组件? 如果没有用于数据分析的托管服务,企业必须构建自定义数据移动组件。 或者,他们可能会创建自定义服务来集成其数据源和处理。 集成和维护此类系统可能成本高昂且比较困难。 此外,并非所有此类系统都将具有完全托管服务提供的监视、警报和控制。

应用条件

考虑将 Azure 数据工厂作为数据集成解决方案时,请查看以下问题。

是否需要数据集成?

如果你的组织很小,并且处理的数据源带有限制,则你可能完全不需要数据集成服务。 但是,如果你的组织需要处理大数据,或属性传统关系数据仓库组织,你可能会从数据集成解决方案中获益。 请考虑以下几点:

  • 大数据组织依赖技术来处理大量不同的数据。 对于这些组织,Azure 数据工厂提供了一种在云中创建和运行管道的方法。 这些管道可以访问云和本地数据服务。 这些管道通常适用于 Azure Synapse Analytics、Azure Blob、Azure Data Lake、Azure HDInsight、Azure Databricks 和 Azure 机器学习等技术。
  • 关系数据仓库组织通常依赖于 SQL Server 等技术。 SSIS 通常用于创建 SSIS 包。 对于此类组织,Azure 数据工厂在 Azure 中运行 SSIS 包,从而允许它们访问云和本地数据服务。

是否需要编码资源?

如果你的组织缺少必要的编码资源来创建所需的活动,请考虑 Azure 数据工厂。 Azure 数据工厂提供用于处理数据源和相关活动的低代码/无代码进程。 例如,Azure 数据工厂创作和监视工具使你可以通过将活动拖放到设计图面以图形方式创建管道。 下面的屏幕截图描述了一个接口,在其中数据工程师正在创建包含多个活动的管道:

Screenshot that displays the Azure Data Factory authoring and monitoring tool.

是否需要处理多个数据源?

如果你的组织需要访问多个位置和多个源中的数据,则需要考虑提供此支持的数据集成解决方案。 Azure 数据工厂使用连接器与不同的数据源集成。 当前支持的数据源超过 90 个。 此外,Azure 数据工厂还支持可扩展的选项来访问其他数据源。

能否创建、管理和维护单独的数据集成组件?

创建和管理你自己的基于服务器的数据集成解决方案可能非常复杂,而且非常耗时。 如果你是在组织的数据中心内运行此类解决方案的内容,则无需考虑使用 Azure 数据工厂。 不过,使用完全托管的无服务器解决方案来实现数据集成有一些优点。 主要优势包括:

  • 能够根据需要进行扩展以支持其他工作负载。
  • 无需部署、配置和维护服务器即可托管你的数据集成工作负载。

摘要

总之,当你满足以下一个或多个条件时,请考虑使用 Azure 数据工厂:

  • 数据工程师没有时间创建代码来执行数据分析任务所需。
  • 在不同的位置有多个数据源。
  • 你想要利用完全托管的基于云的解决方案。