Microsoft Fabric 中 Synapse 数据工程师的新增功能和计划

项目
07/25/2024

重要

发布计划描述了可能或可能尚未发布的功能。交付时间线和投影功能可能会更改或未交付。有关详细信息，请参阅Microsoft策略。

Synapse 数据工程师使数据工程师能够使用 Spark 大规模转换其数据，并构建其 Lakehouse 体系结构。

针对所有组织数据的 Lakehouse： Lakehouse 在单个体验中将 Data Lake 和数据仓库的最佳组合在一起。它使用户能够以开放格式在湖中引入、准备和共享组织数据。稍后可以通过多个引擎（如 Spark、T-SQL 和 Power BI）访问它。它提供了各种数据集成选项，例如数据流和管道、外部数据源的快捷方式和数据产品共享功能。

高性能 Spark 引擎和运行时： Synapse 数据工程为客户提供了最新版 Spark、Delta 和 Python 的优化 Spark 运行时。它使用 Delta Lake 作为所有引擎的通用表格式，因此无需移动数据即可轻松共享和报告数据。运行时附带 Spark 优化，无需任何配置即可增强查询性能。它还提供初学者池和高并发模式，以加快和重复使用 Spark 会话，从而节省时间和成本。

Spark 管理员和配置： 具有适当权限的工作区管理员可以创建和配置自定义池，以优化其 Spark 工作负载的性能和成本。创建者可以配置环境以安装库、选择运行时版本，并为其笔记本和 Spark 作业设置 Spark 属性。

开发人员体验： 开发人员可以使用笔记本、Spark 作业或其首选 IDE 在 Fabric 中创作和执行 Spark 代码。他们可以本机访问 Lakehouse 数据，与他人协作，安装库，跟踪历史记录，进行内联监视，并从 Spark 顾问获取建议。它们还可以使用 Data Wrangler 轻松准备低代码 UI 的数据。

平台集成： 所有 Synapse 数据工程项（包括笔记本、Spark 作业、环境和 Lakehouses）都深入集成到 Fabric 平台（企业信息管理功能、世系、敏感度标签和认可）。

投资领域

功能	预计发布时间线
管道中的高并发性	Q3 2024
Fabric 中的用户数据函数	Q3 2024
适用于 Fabric 的 VSCode 核心扩展	Q3 2024
Fabric 中用户数据函数的 VSCode 附属扩展	Q3 2024
Web 的 VS Code - 调试支持	Q3 2024
能够在 Lakehouse 中对表和文件夹进行排序和筛选	Q3 2024
Lakehouse 数据安全	2024 年第 4 季度
公共监视 API	2024 年第 4 季度
Lakehouse 命名空间中的架构支持和工作区	发货（2024 年第 3 季度）
Fabric 数据仓库的 Spark 连接器	发货（2024 年第 2 季度）
Spark 本机执行引擎	发货（2024 年第 2 季度）
适用于 GraphQL 的 Microsoft Fabric API	发货（2024 年第 2 季度）
创建和附加环境	发货（2024 年第 2 季度）
笔记本作业的作业队列	发货（2024 年第 2 季度）
Fabric Spark 的乐观作业允许	发货（2024 年第 2 季度）
Spark 自动优化	发货（2024 年第 1 季度）

管道中的高并发性

估计发布时间线：2024 年第 3 季度

发布类型：正式发布

除了笔记本中的高并发性外，我们还会在管道中启用高并发性。此功能允许在包含单个会话的管道中运行多个笔记本。

Fabric 中的用户数据函数

估计发布时间线：2024 年第 3 季度

发布类型：公共预览版

用户数据函数将提供一种强大的机制，用于实现和使用 Fabric 数据科学和数据工程工作流中的自定义专用业务逻辑，提高效率和灵活性。

适用于 Fabric 的 VSCode 核心扩展

估计发布时间线：2024 年第 3 季度

发布类型：公共预览版

适用于 Fabric 的核心 VSCode 扩展将为 Fabric 服务提供常见的开发人员支持。

Fabric 中用户数据函数的 VSCode 附属扩展

估计发布时间线：2024 年第 3 季度

发布类型：公共预览版

用户数据函数的 VSCode 卫星扩展将为 Fabric 中的用户数据函数提供开发人员支持（编辑、生成、调试、发布）。

Web 的 VS Code - 调试支持

估计发布时间线：2024 年第 3 季度

发布类型：公共预览版

目前预览版支持用于 Web 的 Visual Studio Code 进行创作和执行方案。我们向功能列表添加了使用此笔记本扩展调试代码的功能列表。

能够在 Lakehouse 中对表和文件夹进行排序和筛选

估计发布时间线：2024 年第 3 季度

发布类型：正式发布

此功能允许客户按多种不同的方法在 Lakehouse 中对表和文件夹进行排序和筛选，包括按字母顺序排列、创建日期等。

Lakehouse 数据安全

估计发布时间线：2024 年第 4 季度

发布类型：公共预览版

你将能够在 Lakehouse 中应用文件、文件夹和表（或对象级别）安全性。还可以控制谁可以访问 Lakehouse 中的数据，以及他们拥有的权限级别。例如，可以授予对文件、文件夹和表的读取权限。应用权限后，它们会自动在所有引擎之间同步。这意味着，权限在 Spark、SQL、Power BI 和外部引擎之间是一致的。

公共监视 API

估计发布时间线：2024 年第 4 季度

发布类型：正式发布

公共监视 API 允许以编程方式检索 Spark 作业的状态、作业摘要以及相应的驱动程序和执行程序日志。

发货功能（s）

Lakehouse 命名空间中的架构支持和工作区

发货（2024 年第 3 季度）

发布类型：公共预览版

这将允许跨工作区使用架构和查询数据来组织表。

Fabric 数据仓库的 Spark 连接器

发货（2024 年第 2 季度）

发布类型：公共预览版

Spark Connector for Fabric DW（数据仓库）使 Spark 开发人员或数据科学家能够使用简化的 Spark API 来访问和处理 Fabric 数据仓库中的数据，该 API 实际上只使用一行代码。它提供从 Fabric 数据仓库并行查询数据的功能，以便在访问表或视图时，通过增加的数据量进行缩放，并遵循在数据仓库级别定义的安全模型（OLS/RLS/CLS）。此第一个版本仅支持读取数据，并且即将推出对写回数据的支持。

Spark 本机执行引擎

发货（2024 年第 2 季度）

发布类型：公共预览版

本机执行引擎是 Microsoft Fabric 中 Apache Spark 作业执行的突破性增强功能。此矢量化引擎通过直接在 Lakehouse 基础结构上运行 Spark 查询来优化这些查询的性能和效率。引擎的无缝集成意味着无需修改代码，并可避免供应商锁定。其支持 Apache Spark API，并且与运行时 1.2 (Spark 3.4) 兼容，适用于 Parquet 和 Delta 格式。无论数据在 OneLake 中的位置如何，或者如果通过快捷方式访问数据，本机执行引擎都会最大限度地提高效率和性能

适用于 GraphQL 的 Microsoft Fabric API

发货（2024 年第 2 季度）

发布类型：公共预览版

适用于 GraphQL 的 API 将允许 Fabric 数据工程师、科学家、数据解决方案架构师毫不费力地公开和集成 Fabric 数据，从而利用 GraphQL 的强大功能和灵活性，实现响应更快速、高性能和丰富的分析应用程序。

创建和附加环境

发货（2024 年第 2 季度）

发布类型：正式发布

若要更精细地自定义 Spark 体验，可以创建环境并将其附加到笔记本和 Spark 作业。在环境中，可以安装库、配置新池、设置 Spark 属性并将脚本上传到文件系统。这样，便可以更灵活地控制 Spark 工作负载，而不会影响工作区的默认设置。作为正式版的一部分，我们正在对 API 支持和 CI/CD 集成等环境进行各种改进。

笔记本作业的作业队列

发货（2024 年第 2 季度）

发布类型：正式发布

此功能允许计划 Spark 笔记本在 Spark 使用率达到其可并行执行的作业数上限时排队，然后在使用量下降到允许的最大并行作业数以下后执行。

Fabric Spark 的乐观作业允许

发货（2024 年第 2 季度）

发布类型：正式发布

对于乐观作业允许，Fabric Spark 仅根据作业可缩减到的最小节点数保留作业需要启动的最小核心数。这样，如果有足够的资源来满足最低要求，就可以接纳更多的作业。如果以后需要纵向扩展作业，则会根据容量中的可用核心批准或拒绝纵向扩展请求。

Spark 自动优化

发货（2024 年第 1 季度）

发布类型：公共预览版

Autotune 使用机器学习来自动分析先前的 Spark 作业运行，并优化配置以优化性能。它配置了 Spark 对数据进行分区、联接和读取的方式。这样，它就会显著提高性能。我们已看到客户作业使用此功能更快地运行 2 倍。

Microsoft Fabric 中的数据工程师文档

通过

Microsoft Fabric 中 Synapse 数据工程师的新增功能和计划

投资领域

管道中的高并发性

Fabric 中的用户数据函数

适用于 Fabric 的 VSCode 核心扩展

Fabric 中用户数据函数的 VSCode 附属扩展

Web 的 VS Code - 调试支持

能够在 Lakehouse 中对表和文件夹进行排序和筛选

Lakehouse 数据安全

公共监视 API

发货功能（s）

Lakehouse 命名空间中的架构支持和工作区

Fabric 数据仓库的 Spark 连接器

Spark 本机执行引擎

适用于 GraphQL 的 Microsoft Fabric API

创建和附加环境

笔记本作业的作业队列

Fabric Spark 的乐观作业允许

Spark 自动优化

相关内容

其他资源