什么是 Azure 数据工厂?
让我们从 Azure 数据工厂概述着手,这样有助于确定组织数据以创建业务见解是否是一个不错的选择。
Azure 数据工厂是基于云的提取、转换和加载 (ETL) 和数据集成服务,可帮助你创建数据驱动工作流以执行以下操作:
- 协调数据移动。
- 大规模转换数据。
注意
数据驱动工作流也称为管道。
通过使用 Azure 数据工厂,你可以将原始数据重新组织为有意义的数据存储和数据湖,这样就可以据此进行更好的业务决策。
什么是数据分析?
数据分析是收集原始数据并对其进行检查以从中提取结论的过程。 如果数据位于多个位置(例如托管数据库和本地位置),该过程可能很难。
提示
原始数据是从源收集且尚未处理的数据。 它有时称为散乱数据。
Azure 提供了多种技术,你可以执行这些技术来帮助组织的数据分析,其中包括:
- Azure Synapse Analytics
- Azure Blob 存储
- Azure Data Lake Storage
- Azure Data Lake Analytics
- Azure Analysis Services
- Azure HDInsight
- Azure Databricks
- Azure 机器学习
你可以根据需要使用其中的部分或全部服务来分析组织的数据。 但是,这些服务都不能解决数据集成。 通过数据集成,你可以从多个源收集数据,然后将此合并的数据加载到适合数据分析的位置。 如有需要,可在此过程中转换数据。 尽管可以手动执行这些任务,但也可以考虑使用 Azure 数据工厂。
Azure 数据工厂定义
Azure 数据工厂是一项基于云的数据集成服务,旨在满足两个特定社区的需求,如下表中所述:
社区 | 社区需求说明 |
---|---|
大数据社区 | 此社区依赖于管理大量不同数据的技术。 对于这两个社区,Azure 数据工厂提供了一种在云中创建和运行管道的方法。 这些管道可以访问云和本地数据服务。 这些管道通常适用于 Azure Synapse Analytics、Azure Blob 和 Azure Data Lake 等技术。 此外也适用于 Azure HDInsight、Azure Databricks 和 Azure 机器学习。 |
关系数据仓库社区 | 此社区通常依赖于 Microsoft SQL Server 等技术。 SQL Server Integration Services (SSIS) 通常用于创建 SSIS 包。 Azure 数据工厂为此社区提供在 Azure 中运行 SSIS 包的功能,允许这些包访问云和本地数据服务。 |
注意
包类似于 Azure 数据工厂管道。 每个包都定义了一个进程,用于提取、加载、转换或处理数据。
重要的一点是,Azure 数据工厂是数据集成的单个云服务。 它为所有数据集成提供一组工具和通用管理接口,支持所有数据源(无论它们位于何处):
- Azure
- 本地
- 第三方公有云平台
Azure 数据工厂如何帮助数据分析
使用 Azure 数据工厂可以:
生成复杂的 ETL 流程。 这些流程可以使用数据流或计算服务直观地转换数据,例如:
- Azure HDInsight Hadoop
- Azure Databricks
- Azure SQL Database
将转换后的数据发布到数据存储,供商业智能应用使用。
在下图中,外部数据源连接到 Azure 数据工厂。 存储 Blob 用于引入数据,而 Azure Synapse Analytics 用作存储。 这些元素提供业务流程。 分析和可视化组件 Azure Analysis Service 和 Power BI 也连接到 Azure 数据工厂。
提示
Azure 数据工厂提供超过 90 个内置的免维护连接器。