Microsoft Fabric 中 Synapse 数据工程师的新增功能和计划

重要

发布计划描述了可能或可能尚未发布的功能。 交付时间线和投影功能可能会更改或无法交付。 有关详细信息,请参阅 Microsoft 策略

Synapse 数据工程师使数据工程师能够使用 Spark 大规模转换其数据,并构建其 Lakehouse 体系结构。

针对所有组织数据的 Lakehouse: Lakehouse 在单个体验中将 Data Lake 和数据仓库的最佳组合在一起。 它使用户能够以开放格式在湖中引入、准备和共享组织数据。 稍后可以通过多个引擎(如 Spark、T-SQL 和 Power BI)访问它。 它提供了各种数据集成选项,例如数据流和管道、外部数据源的快捷方式和数据产品共享功能。

高性能 Spark 引擎和运行时: Synapse 数据工程为客户提供了最新版 Spark、Delta 和 Python 的优化 Spark 运行时。 它使用 Delta Lake 作为所有引擎的通用表格式,因此无需移动数据即可轻松共享和报告数据。 运行时附带 Spark 优化,无需任何配置即可增强查询性能。 它还提供初学者池和高并发模式,以加快和重复使用 Spark 会话,从而节省时间和成本。

Spark 管理员和配置:具有适当权限的工作区管理员可以创建和配置自定义池,以优化其 Spark 工作负载的性能和成本。 创建者可以配置环境以安装库、选择运行时版本,并为其笔记本和 Spark 作业设置 Spark 属性。

开发人员体验: 开发人员可以使用笔记本、Spark 作业或其首选 IDE 在 Fabric 中创作和执行 Spark 代码。 他们可以本机访问 Lakehouse 数据,与他人协作,安装库,跟踪历史记录,进行内联监视,并从 Spark 顾问获取建议。 它们还可以使用 Data Wrangler 轻松准备低代码 UI 的数据。

平台集成: 所有 Synapse 数据工程项(包括笔记本、Spark 作业、环境和 Lakehouses)都深入集成到 Fabric 平台(企业信息管理功能、世系、敏感度标签和认可)。

投资领域

功能 预计发布时间线
Fabric 中 GraphQL 的数据 API 2024 年第 2 季度
Spark 本机执行引擎 2024 年第 2 季度
创建和附加环境 2024 年第 2 季度
管道中的高并发性 2024 年第 2 季度
Lakehouse 命名空间中的架构支持和工作区 2024 年第 2 季度
Fabric 中的用户数据函数 Q3 2024
适用于 Fabric 的 VSCode 核心扩展 Q3 2024
Fabric 中用户数据函数的 VSCode 附属扩展 Q3 2024
Web 的 VS Code - 调试支持 Q3 2024
能够在 Lakehouse 中对表和文件夹进行排序和筛选 Q3 2024
Fabric 数据仓库的 Spark 连接or Q3 2024
公共监视 API 2024 年第 4 季度
Lakehouse 数据安全 2024 年第 4 季度
Spark 自动优化 发货(2024 年第 1 季度)
Fabric Spark 的乐观作业允许 发货(2024 年第 2 季度)
笔记本作业的作业队列 发货(2024 年第 2 季度)

Fabric 中 GraphQL 的数据 API

估计版本时间线:2024 年第 2 季度

发布类型:公共预览版

GraphQL 的数据 API 将允许 Fabric 数据工程师、科学家、数据解决方案架构师毫不费力地公开和集成 Fabric 数据,以实现响应更响应、高性能且丰富的分析应用程序,利用 GraphQL 的强大功能和灵活性。

Spark 本机执行引擎

估计版本时间线:2024 年第 2 季度

发布类型:公共预览版

本机执行引擎是 Microsoft Fabric 中 Apache Spark 作业执行的突破性增强功能。 此矢量化引擎通过直接在 Lakehouse 基础结构上运行 Spark 查询来优化 Spark 查询的性能和效率。 引擎的无缝集成意味着无需修改代码,并避免供应商锁定。 它支持 Apache Spark API,并且与运行时 1.2(Spark 3.4)兼容,适用于 Parquet 和 Delta 格式。 无论数据在 OneLake 中的位置如何,或者如果通过快捷方式访问数据,本机执行引擎都会最大限度地提高效率和性能

创建和附加环境

估计版本时间线:2024 年第 2 季度

发布类型:正式发布

若要更精细地自定义 Spark 体验,可以创建环境并将其附加到笔记本和 Spark 作业。 在环境中,可以安装库、配置新池、设置 Spark 属性并将脚本上传到文件系统。 这样,便可以更灵活地控制 Spark 工作负载,而不会影响工作区的默认设置。 作为正式版的一部分,我们正在对 API 支持和 CI/CD 集成等环境进行各种改进。

管道中的高并发性

估计版本时间线:2024 年第 2 季度

发布类型:正式发布

除了笔记本中的高并发性外,我们还会在管道中启用高并发性。 此功能允许在包含单个会话的管道中运行多个笔记本。

Lakehouse 命名空间中的架构支持和工作区

估计版本时间线:2024 年第 2 季度

发布类型:公共预览版

这将允许跨工作区使用架构和查询数据来组织表。

Fabric 中的用户数据函数

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

用户数据函数将提供一种强大的机制,用于实现和使用 Fabric 数据科学和数据工程工作流中的自定义专用业务逻辑,提高效率和灵活性。

适用于 Fabric 的 VSCode 核心扩展

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

适用于 Fabric 的核心 VSCode 扩展将为 Fabric 服务提供常见的开发人员支持。

Fabric 中用户数据函数的 VSCode 附属扩展

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

用户数据函数的 VSCode 卫星扩展将为 Fabric 中的用户数据函数提供开发人员支持(编辑、生成、调试、发布)。

Web 的 VS Code - 调试支持

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

目前预览版支持用于 Web 的 Visual Studio Code 进行创作和执行方案。 我们向功能列表添加了使用此笔记本扩展调试代码的功能列表。

能够在 Lakehouse 中对表和文件夹进行排序和筛选

估计版本时间线:2024 年第 3 季度

发布类型:正式发布

此功能允许客户按多种不同的方法在 Lakehouse 中对表和文件夹进行排序和筛选,包括按字母顺序排列、创建日期等。

Fabric 数据仓库的 Spark 连接or

估计版本时间线:2024 年第 3 季度

发布类型:公共预览版

Spark 连接or for Fabric DW(数据仓库)使 Spark 开发人员或数据科学家能够使用简化的 Spark API 来访问和处理 Fabric 数据仓库中的数据,该 API 实际上只处理一行代码。 它提供从 Fabric 数据仓库并行查询数据的功能,以便在访问表或视图时,通过增加的数据量进行缩放,并遵循在数据仓库级别定义的安全模型(OLS/RLS/CLS)。 此第一个版本仅支持读取数据,并且即将推出对写回数据的支持。

公共监视 API

估计版本时间线:2024 年第 4 季度

发布类型:正式发布

公共监视 API 允许以编程方式检索 Spark 作业的状态、作业摘要以及相应的驱动程序和执行程序日志。

Lakehouse 数据安全

估计版本时间线:2024 年第 4 季度

发布类型:公共预览版

你将能够在 Lakehouse 中应用文件、文件夹和表(或对象级别)安全性。 还可以控制谁可以访问 Lakehouse 中的数据,以及他们拥有的权限级别。 例如,可以授予对文件、文件夹和表的读取权限。 应用权限后,它们会自动在所有引擎之间同步。 这意味着,权限在 Spark、SQL、Power BI 和外部引擎之间是一致的。

发货功能(s)

Spark 自动优化

发货(2024 年第 1 季度)

发布类型:公共预览版

Autotune 使用机器学习来自动分析先前的 Spark 作业运行,并优化配置以优化性能。 它配置了 Spark 对数据进行分区、联接和读取的方式。 这样,它就会显著提高性能。 我们已看到客户作业使用此功能更快地运行 2 倍。

Fabric Spark 的乐观作业允许

发货(2024 年第 2 季度)

发布类型:正式发布

对于乐观作业允许,Fabric Spark 仅根据作业可缩减到的最小节点数保留作业需要启动的最小核心数。 这样,如果有足够的资源来满足最低要求,就可以接纳更多的作业。 如果以后需要纵向扩展作业,则会根据容量中的可用核心批准或拒绝纵向扩展请求。

笔记本作业的作业队列

发货(2024 年第 2 季度)

发布类型:正式发布

此功能允许计划 Spark 笔记本在 Spark 使用率达到其可并行执行的作业数上限时排队,然后在使用量下降到允许的最大并行作业数以下后执行。