什么是 Azure 数据工厂?

已完成

让我们从 Azure 数据工厂概述着手,这样有助于确定组织数据以创建业务见解是否是一个不错的选择。

Azure 数据工厂是基于云的提取、转换和加载 (ETL) 和数据集成服务,可帮助你创建数据驱动工作流以执行以下操作:

  • 协调数据移动。
  • 大规模转换数据。

注意

数据驱动工作流也称为管道。

通过使用 Azure 数据工厂,你可以将原始数据重新组织为有意义的数据存储和数据湖,这样就可以据此进行更好的业务决策。

什么是数据分析?

数据分析是收集原始数据并对其进行检查以从中提取结论的过程。 如果数据位于多个位置(例如托管数据库和本地位置),该过程可能很难。

提示

原始数据是从源收集且尚未处理的数据。 它有时称为散乱数据。

Azure 提供了多种技术,你可以执行这些技术来帮助组织的数据分析,其中包括:

  • Azure Synapse Analytics
  • Azure Blob 存储
  • Azure Data Lake Storage
  • Azure Data Lake Analytics
  • Azure Analysis Services
  • Azure HDInsight
  • Azure Databricks
  • Azure 机器学习

你可以根据需要使用其中的部分或全部服务来分析组织的数据。 但是,这些服务都不能解决数据集成。 通过数据集成,你可以从多个源收集数据,然后将此合并的数据加载到适合数据分析的位置。 如有需要,可在此过程中转换数据。 尽管可以手动执行这些任务,但也可以考虑使用 Azure 数据工厂。

Azure 数据工厂定义

Azure 数据工厂是一项基于云的数据集成服务,旨在满足两个特定社区的需求,如下表中所述:

社区 社区需求说明
大数据社区 此社区依赖于管理大量不同数据的技术。 对于这两个社区,Azure 数据工厂提供了一种在云中创建和运行管道的方法。 这些管道可以访问云和本地数据服务。 这些管道通常适用于 Azure Synapse Analytics、Azure Blob 和 Azure Data Lake 等技术。 此外也适用于 Azure HDInsight、Azure Databricks 和 Azure 机器学习。
关系数据仓库社区 此社区通常依赖于 Microsoft SQL Server 等技术。 SQL Server Integration Services (SSIS) 通常用于创建 SSIS 包。 Azure 数据工厂为此社区提供在 Azure 中运行 SSIS 包的功能,允许这些包访问云和本地数据服务。

注意

包类似于 Azure 数据工厂管道。 每个包都定义了一个进程,用于提取、加载、转换或处理数据。

重要的一点是,Azure 数据工厂是数据集成的单个云服务。 它为所有数据集成提供一组工具和通用管理接口,支持所有数据源(无论它们位于何处):

  • Azure
  • 本地
  • 第三方公有云平台

Azure 数据工厂如何帮助数据分析

使用 Azure 数据工厂可以:

  • 生成复杂的 ETL 流程。 这些流程可以使用数据流或计算服务直观地转换数据,例如:

    • Azure HDInsight Hadoop
    • Azure Databricks
    • Azure SQL Database
  • 将转换后的数据发布到数据存储,供商业智能应用使用。

在下图中,外部数据源连接到 Azure 数据工厂。 存储 Blob 用于引入数据,而 Azure Synapse Analytics 用作存储。 这些元素提供业务流程。 分析和可视化组件 Azure Analysis Service 和 Power BI 也连接到 Azure 数据工厂。

描述使用 Azure 数据工厂的可能体系结构的图形。

提示

Azure 数据工厂提供超过 90 个内置的免维护连接器。