通过


Fabric Runtime 2.0 (预览版)

重要

此功能目前为预览版

Fabric 运行时在 Microsoft Fabric 生态系统中提供无缝集成,为由 Apache Spark 提供支持的数据工程和数据科学项目提供了可靠的环境。

本文介绍 Fabric Runtime 2.0 公共预览版,这是专为 Microsoft Fabric 中的大数据计算设计的最新运行时。 它重点介绍了使此版本成为可扩展分析和高级工作负载领域一项重大进步的重要特性和组件。

Fabric Runtime 2.0 包含以下组件和升级,旨在增强数据处理功能:

  • Apache Spark 4.0
  • 作系统:Azure Linux 3.0(Mariner 3.0)
  • Java:21
  • Scala:2.13
  • Python:3.12
  • Delta Lake:4.0
  • R:4.5.2

小窍门

Fabric Runtime 2.0 包括对 本机执行引擎的支持,这可以显著提升性能,而无需花费更多成本。 可以在环境级别启用本机执行引擎,以便所有作业和笔记本自动继承增强的性能功能。

启用运行时 2.0

可以在工作区级别或环境项级别启用 Runtime 2.0。 使用工作区设置将 Runtime 2.0 作为工作区中所有 Spark 工作负载的默认值。 或者,使用 Runtime 2.0 创建环境项以用于特定笔记本或 Spark 作业定义,这将替代工作区默认值。

在工作区设置中启用运行时 2.0

若要将 Runtime 2.0 设置为整个工作区的默认值,请执行以下作:

  1. 导航到 Fabric 工作区中的 “工作区设置 ”页。

    显示工作区设置的运行时版本的屏幕截图。

  2. 选择 “数据工程/科学 ”选项卡,然后选择 “Spark 设置”。

  3. 选择环境选项卡。

  4. “运行时版本 ”下拉列表下,选择 2.0 公共预览版(Spark 4.0、Delta 4.0) 并保存所做的更改。

  5. 运行时 2.0 设置为工作区的默认运行时。

在环境项中启用运行时 2.0

若要在特定笔记本或 Spark 作业定义中使用 Runtime 2.0,请执行以下步骤:

  1. 创建新的环境项或打开现有 环境 项。

  2. “运行时”下拉列表下,选择 2.0 公共预览版(Spark 4.0、Delta 4.0)SavePublish所做的更改。

    显示环境项的运行时版本选择位置的屏幕截图。

  3. 接下来,可以将此 环境 项用于你的 NotebookSpark Job Definition

现在可以开始试验 Fabric Runtime 2.0(Spark 4.0 和 Delta Lake 4.0 中引入的最新改进和功能)。

注释

常规用途 v2 (GPv2) Azure 存储帐户的 WASB 协议已弃用。 应改用最新的 ABFS 协议来读取和写入 GPv2 存储帐户。

公共预览

Fabric Runtime 2.0 公共预览阶段提供对 Spark 4.0 和 Delta Lake 4.0 中的新功能和 API 的访问权限。 通过预览版,你可以立即使用最新的 Spark 和基于 Delta 的增强功能,并确保流畅的准备和过渡,为更新的 Java、Scala 和 Python 版本等增强和改进的更改做好准备。

小窍门

有关最新的信息、Fabric 运行时的详细更改列表和具体发行说明,请查看并订阅 Spark 运行时版本和更新

关键重点

Apache Spark 4.0

Apache Spark 4.0 标志着 4.x 系列中首次发布的重要里程碑,体现了充满活力的开源社区的集体努力。

在此版本中,Spark SQL 通过强大的新功能进行了大量扩充,这些功能旨在提升 SQL 工作负荷的表达性和多功能性,例如 VARIANT 数据类型支持、SQL 用户定义的函数、会话变量、管道语法和字符串排序规则。 PySpark 持续致力于其功能广度和整体开发人员体验,引入了原生绘图 API、新的 Python 数据源 API、Python UDTF 支持以及 PySpark UDF 的统一分析,并进行了许多其他功能增强。 结构化流式处理通过关键功能的添加不断发展,这些新增功能提供了更高的控制和调试便利性,特别是引入了任意状态 API v2,实现更灵活的状态管理,以及引入状态数据源以便更轻松地进行调试。

要了解完整的列表和详细更改,请访问此处:https://spark.apache.org/releases/spark-release-4-0-0.html

注释

在 Spark 4.0 中,SparkR 已弃用,可能会在将来的版本中删除。

Delta Lake 4.0

Delta Lake 4.0 标志着一项集体承诺,使 Delta Lake 跨格式互作、更易于使用且性能更高。 Delta 4.0 是一个具有强大新功能、性能优化和基础增强功能的里程碑版本,适用于开放 Data Lakehouse 的未来。

可在此处查看 Delta Lake 3.3 和 4.0 中引入的完整列表和详细更改: https://github.com/delta-io/delta/releases/tag/v3.3.0 https://github.com/delta-io/delta/releases/tag/v4.0.0

重要

Delta Lake 4.0 特定功能是实验性的,仅适用于 Spark 体验,例如笔记本和 Spark 作业定义。 如果需要跨多个 Microsoft Fabric 工作负荷使用相同的 Delta Lake 表,请不要启用这些功能。 若要详细了解跨所有 Microsoft Fabric 体验兼容哪些协议版本和功能,请阅读 Delta Lake 表格式互作性