Microsoft Fabric 中数据工厂的新增功能和计划

重要

发布计划描述了可能或可能尚未发布的功能。 交付时间线和投影功能可能会更改或无法交付。 有关详细信息,请参阅 Microsoft 策略

Microsoft Fabric 中的数据工厂将公民数据集成和专业数据集成功能合并为单个现代数据集成体验。 它提供与 100 多个关系和非关系数据库、lakehouse、数据仓库、泛型接口(如 REST API、OData 等)的连接。

数据流:数据流 Gen2 允许执行大规模数据转换,并支持写入 Azure SQL 数据库、Lakehouse、数据仓库等的各种输出目标。 数据流编辑器提供 300 多个转换,包括基于 AI 的选项,使你能够比任何其他工具更灵活地轻松转换数据。 无论是从非结构化数据源(例如网页)提取数据还是重塑 Power Query 编辑器中的现有表,都可以轻松应用 Power Query 的数据提取示例,该示例使用人工智能(AI)并简化该过程。

数据管道: 数据管道提供了创建通用数据业务流程工作流的功能,可将数据提取、加载到首选数据存储、笔记本执行、SQL 脚本执行等任务组合在一起。 可以快速生成功能强大的元数据驱动数据管道,以自动执行重复任务。 例如,从数据库中的不同表加载和提取数据、循环访问Azure Blob 存储中的多个容器等。 此外,借助数据管道,可以使用 Microsoft Graph 数据连接ion (MGDC) 连接器从 Microsoft 365 访问数据。

若要了解详细信息,请参阅文档

投资领域

在接下来的几个月里,Microsoft Fabric 中的数据工厂将扩展其连接选项,并继续添加到丰富的转换和数据管道活动库中。 此外,它使你能够从操作数据库执行实时高性能数据副本 (replica),并将这些数据引入湖中进行分析。

功能 预计发布时间线
数据源标识管理 (SPN) 2024 年第 2 季度
SparkJobDefinition 的数据管道支持 2024 年第 2 季度
Azure HDinsight 的数据管道支持 2024 年第 2 季度
支持调用跨工作区数据管道 2024 年第 2 季度
事件驱动触发器的数据管道支持 2024 年第 2 季度
复制活动的新连接器 2024 年第 2 季度
数据工作流:生成由 Apache Airflow 提供支持的数据管道 2024 年第 2 季度
数据工厂的 Copilot (数据流) Q3 2024
数据流第 2 代输出目标的暂存默认值 Q3 2024
数据流 Gen2 中的增量刷新支持 Q3 2024
DBT CLI 的数据管道支持 Q3 2024
Azure Databricks 作业的数据管道支持 Q3 2024
复制作业 Q3 2024
数据工厂的 Copilot (数据管道) Q3 2024
改进了刷新失败电子邮件通知 Q3 2024
数据流第 2 代基于分区的并行引入 Q3 2024
数据源标识管理(托管标识) Q3 2024
数据源标识管理(Azure 密钥库) Q3 2024
使客户能够参数化其连接 2024 年第 4 季度
取消数据流 Gen2 中的刷新支持 发货(2023 年第 4 季度)
获取数据体验改进(浏览 Azure 资源) 发货(2024 年第 1 季度)
已添加到数据管道的本地数据网关(OPDG)支持 发货(2024 年第 1 季度)
数据流 Gen2 中的快速复制支持 发货(2024 年第 1 季度)
数据管道的数据工厂 Git 集成 发货(2024 年第 1 季度)
数据流 Gen2 中输出目标的增强功能(查询架构) 发货(2024 年第 1 季度)

数据源标识管理 (SPN)

估计版本时间线:2024 年第 2 季度

发布类型:正式发布

服务主体 - 若要访问受 Azure AD 租户保护的资源,需要访问的实体必须由安全主体表示。 你将能够使用服务主体连接到数据源。

SparkJobDefinition 的数据管道支持

估计版本时间线:2024 年第 2 季度

发布类型:正式发布

现在,可以直接从管道活动执行 Spark 代码,包括 JAR 文件。 只需指向 Spark 代码,管道将在 Fabric 中的 Spark 群集上执行作业。 此新活动可实现令人兴奋的数据工作流模式,该模式利用 Fabric 的 Spark 引擎的强大功能,同时在 Spark 作业所在的管道中包含数据工厂控制流和数据流功能。

Azure HDinsight 的数据管道支持

估计版本时间线:2024 年第 2 季度

发布类型:正式发布

HD Insight 是适用于 Hadoop 的 Azure PaaS 服务,使开发人员能够在云中构建非常强大的大数据解决方案。 新的 HDI 管道活动将在数据工厂数据管道中启用 HDInsights 作业活动,类似于 ADF 和 Synapse 管道中多年来一直存在的有趣性。 现在,我们已将此功能直接引入 Fabric 数据管道。

支持调用跨工作区数据管道

估计版本时间线:2024 年第 2 季度

发布类型:公共预览版

调用管道活动更新:我们正在为调用管道活动启用一些新的和令人兴奋的更新。 为了响应压倒性的客户和社区请求,我们正在跨工作区运行数据管道。 现在,你将能够从有权执行的其他工作区调用管道。 这将启用非常令人兴奋的数据工作流模式,这些模式可以利用跨工作区和跨功能团队的数据工程和集成团队的协作。

事件驱动触发器的数据管道支持

估计版本时间线:2024 年第 2 季度

发布类型:公共预览版

调用数据工厂数据管道的常见用例是在文件到达和文件删除等文件事件时触发管道。 对于来自 ADF 或 Synapse 到 Fabric 的客户,使用 ADLS/Blog 存储事件是非常常见的方法,用于发出新管道执行信号或捕获创建的文件的名称。 Fabric 数据工厂中的触发器利用 Fabric 平台功能,包括 EventStreams 和 Reflex 触发器。 在 Fabric 数据工厂管道设计画布内,你将拥有一个触发器按钮,可以按该按钮为管道创建 Reflex 触发器,也可以直接从数据激活器体验创建触发器。

复制活动的新连接器

估计版本时间线:2024 年第 2 季度

发布类型:公共预览版

将为复制活动添加新连接器,使客户能够从以下源引入数据管道,同时利用数据管道:Oracle、MySQL、Azure My SQL 数据库、Azure AI 搜索、Azure 文件存储、Dynamics AX、Azure 文件存储、Google BigQuery。

数据工作流:生成由 Apache Airflow 提供支持的数据管道

估计版本时间线:2024 年第 2 季度

发布类型:公共预览版

数据工作流由 Apache Airflow 提供支持,并提供集成的 Apache Airflow 运行时环境,使你能够轻松创作、执行和计划 Python DAG。

数据工厂的 Copilot (数据流)

估计版本时间线:2024 年第 3 季度

发布类型:正式发布

数据工厂 (数据流) 的 Copilot 使客户能够在使用自然语言创建数据集成解决方案时使用自然语言表达其要求。

数据流第 2 代输出目标的暂存默认值

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

数据流 Gen2 提供将数据从各种数据源引入 Fabric OneLake 的功能。 暂存此数据后,可以利用大规模数据流 Gen2 引擎(基于 Fabric Lakehouse/Warehouse SQL 计算)进行大规模转换。

数据流 Gen2 的默认行为是在 OneLake 中暂存数据以启用大规模数据转换。 虽然这非常适用于大规模方案,但它不适用于涉及引入少量数据的方案,因为它在最终加载到数据流输出目标之前为数据引入了额外的跃点(暂存)。

通过计划的增强功能,我们微调要禁用的默认暂存行为,对于不需要暂存(即 Fabric Lakehouse 和 Azure SQL 数据库)的输出目标的查询。

可以通过“查询设置”窗格或“查询”窗格中的查询上下文菜单,按查询手动配置暂存行为。

数据流 Gen2 中的增量刷新支持

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

我们将在 Dataflow Gen2 中添加增量刷新支持。 借助此功能,你可以从数据源增量提取数据、应用 Power Query 转换以及加载到各种输出目标。

DBT CLI 的数据管道支持

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

DBT CLI 业务流程(数据生成工具):合并数据转换工作流的数据生成工具(dbt)。

Azure Databricks 作业的数据管道支持

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

我们正在更新数据工厂数据管道 Azure Databricks 活动,以使用最新的作业 API,实现令人兴奋的工作流功能,例如执行 DLT 作业。

复制作业

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

复制作业简化了需要引入数据的客户的体验,而无需创建数据流或数据管道。 复制作业支持从任何数据源到任何数据目标的完整和增量复制。

数据工厂的 Copilot (数据管道)

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

数据工厂的 Copilot(数据管道)使客户能够使用自然语言生成数据管道,并提供故障排除指南。

改进了刷新失败电子邮件通知

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

电子邮件通知允许数据流 Gen2 创建者监视数据流刷新操作的结果(成功/失败)。

数据流第 2 代基于分区的并行引入

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

目前,包含针对支持分区的数据源的查询的数据流 Gen2 将按顺序刷新这些查询中的分区。 此行为的一个示例是针对文件夹运行的查询,并引入文件夹中的所有文件(然后,将它们分析为表、组合成单个表等)。

通过计划的增强功能,我们正在优化此类查询的业务流程,以便可以并行运行每个源分区。 这种优化可能会显著减少整个数据流运行持续时间。

数据源标识管理(托管标识)

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

这样就可以在工作区级别配置托管标识。 可以使用 Fabric 托管标识安全地连接到数据源。

数据源标识管理(Azure 密钥库)

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

支持 Azure 密钥库 - 可以在 Azure 密钥库中存储密钥和机密并连接到它。 这样,就可以在单个位置管理密钥。

使客户能够参数化其连接

估计版本时间线:2024 年第 4 季度

发布类型:公共预览版

连接提供了一个通用框架,用于定义数据存储的连接和身份验证。 这些连接可以跨不同的项共享。 借助参数化支持,你将能够生成复杂且可重用的管道、笔记本、数据流和其他项类型。

发货功能(s)

取消数据流 Gen2 中的刷新支持

发货(2023 年第 4 季度)

发布类型:公共预览版

我们正在添加对取消工作区项视图中正在进行的数据流 Gen2 刷新的支持。

获取数据体验改进(浏览 Azure 资源)

发货(2024 年第 1 季度)

发布类型:公共预览版

浏览 Azure 资源提供无缝导航来浏览 Azure 资源。 可以轻松导航 Azure 订阅,并通过直观的用户界面连接到数据源。 它可帮助你快速查找并连接到所需的数据。

已添加到数据管道的本地数据网关(OPDG)支持

发货(2024 年第 1 季度)

发布类型:公共预览版

此功能使数据管道能够使用 Fabric 数据网关访问本地和虚拟网络后面的数据。 对于使用自承载集成运行时(SHIR)的用户,他们将能够移动到 Fabric 中的本地数据网关。

数据流 Gen2 中的快速复制支持

发货(2024 年第 1 季度)

发布类型:公共预览版

我们将使用管道复制活动功能,在数据流 Gen2 体验中直接添加对大规模数据引入的支持。 这支持 Azure Data Lake 存储 和 Blob 存储中的源,例如Azure SQL 数据库、CSV 和 Parquet 文件。

此增强功能可显著扩展数据流 Gen2 的数据处理能力,提供大规模 ELT(Extract-Load-Transform)功能。

数据管道的数据工厂 Git 集成

发货(2024 年第 1 季度)

发布类型:公共预览版

可以连接到 Git 存储库,以协作方式开发数据管道。 数据管道与 Fabric 平台的应用程序生命周期管理(ALM)功能集成可实现版本控制、分支、提交和拉取请求。

数据流 Gen2 中输出目标的增强功能(查询架构)

发货(2024 年第 1 季度)

发布类型:公共预览版

我们正在通过以下高请求的功能增强数据流 Gen2 中的输出目标:

  • 配置输出目标后,能够处理查询架构更改。
  • 用于加速数据流创建的默认目标设置。

若要了解详细信息,请参阅 数据流 Gen2 数据目标和托管设置