注释
Fabric Runtime 2.0 目前处于实验预览阶段。 有关详细信息,请参阅 限制和说明。
Fabric 运行时在 Microsoft Fabric 生态系统中提供无缝集成,为由 Apache Spark 提供支持的数据工程和数据科学项目提供了可靠的环境。
本文介绍 Fabric Runtime 2.0 实验版(预览版),这是专为 Microsoft Fabric 中的大数据计算设计的最新运行时。 它重点介绍了使此版本成为可扩展分析和高级工作负载领域一项重大进步的重要特性和组件。
Fabric Runtime 2.0 包含以下组件和升级,旨在增强数据处理功能:
- Apache Spark 4.0
- 作系统:Azure Linux 3.0(Mariner 3.0)
- Java:21
- Scala:2.13
- Python:3.12
- Delta Lake:4.0
启用运行时 2.0
可以在工作区级别或环境项级别启用 Runtime 2.0。 使用工作区设置将 Runtime 2.0 作为工作区中所有 Spark 工作负载的默认值。 或者,使用 Runtime 2.0 创建环境项以用于特定笔记本或 Spark 作业定义,这会替代工作区默认值。
在工作区设置中启用运行时 2.0
若要将 Runtime 2.0 设置为整个工作区的默认值,请执行以下作:
导航到 Fabric 工作区中的“工作区设置”选项卡。
转到 “数据工程/科学 ”选项卡并选择 “Spark 设置”。
选择环境选项卡。
在 “运行时版本 ”下拉列表下,选择 2.0 实验版(Spark 4.0、Delta 4.0) 并保存所做的更改。 此作将 Runtime 2.0 设置为工作区的默认运行时。
在环境项中启用运行时 2.0
若要在特定笔记本或 Spark 作业定义中使用 Runtime 2.0,请执行以下步骤:
创建新的 环境 项或打开现有的。
在“运行时”下拉列表下,选择“2.0 实验”(Spark 4.0、Delta 4.0)
Save和Publish所做的更改。重要
启动 Spark 2.0 会话可能需要大约 2-5 分钟,因为初学者池不是早期实验版本的一部分。
接下来,可以将此 环境 项用于你的
Notebook或Spark Job Definition。
现在可以开始试验 Fabric Runtime 2.0(Spark 4.0 和 Delta Lake 4.0 中引入的最新改进和功能)。
实验性公共预览
Fabric 运行时 2.0 实验性预览阶段可让你提前访问 Spark 4.0 和 Delta Lake 4.0 中的新功能和 API。 通过预览版,可以立即使用最新的基于 Spark 的增强功能,确保将来的更改(如较新的 Java、Scala 和 Python 版本)的顺利准备和过渡。
小窍门
有关最新信息并获取有关 Fabric 运行时的详细更改列表和具体发行说明,请检查并订阅 Spark 运行时版本和更新。
限制和说明
Fabric Runtime 2.0 目前处于实验性公共预览阶段,旨在供用户在开发或测试环境中浏览和试验 Spark 和 Delta Lake 中的最新功能和 API。 虽然此版本提供对核心功能的访问权限,但存在一些限制:
可以使用 Spark 4.0 会话、在笔记本中编写代码、计划 Spark 作业定义以及用于 PySpark、Scala 和 Spark SQL。 但是,此早期版本不支持 R 语言。
可以使用 pip 和 conda 直接在代码中安装库。 可以通过笔记本和 Spark 作业定义(SJDs)中的 %%configure 选项来设置 Spark 配置。
可以使用 Delta Lake 4.0 读取和写入 Lakehouse,但此早期版本中不包括一些高级功能,例如 V-order、原生 Parquet 写入、自动压缩、优化写入、低洗牌合并、合并、架构演变和时间旅行。
Spark 顾问当前不可用。 但是,此早期版本支持监视工具(如 Spark UI 和日志)。
此早期版本目前不支持数据科学集成(包括 Copilot)和连接器(包括 Kusto、SQL Analytics、Cosmos DB 和 MySQL Java 连接器)等功能。 PySpark 环境中不支持数据科学库。 PySpark 仅适用于基本的 Conda 设置,仅包括 PySpark,无需额外的库。
此早期版本不支持与环境项和 Visual Studio Code 的集成。
它不支持使用 WASB 或 ABFS 协议将数据读取和写入常规用途 v2 (GPv2) Azure 存储帐户。
注释
在 Ideas 平台中分享有关 Fabric 运行时的反馈。 请务必提及要引用的版本和发布阶段。 我们重视社区反馈,并根据投票确定改进的优先级,确保满足用户需求。
关键重点
Apache Spark 4.0
Apache Spark 4.0 标志着 4.x 系列中首次发布的重要里程碑,体现了充满活力的开源社区的集体努力。
在此版本中,Spark SQL 通过强大的新功能进行了大量扩充,这些功能旨在提升 SQL 工作负荷的表达性和多功能性,例如 VARIANT 数据类型支持、SQL 用户定义的函数、会话变量、管道语法和字符串排序规则。 PySpark 持续致力于其功能广度和整体开发人员体验,引入了原生绘图 API、新的 Python 数据源 API、Python UDTF 支持以及 PySpark UDF 的统一分析,并进行了许多其他功能增强。 结构化流式处理通过关键功能的添加不断发展,这些新增功能提供了更高的控制和调试便利性,特别是引入了任意状态 API v2,实现更灵活的状态管理,以及引入状态数据源以便更轻松地进行调试。
要了解完整的列表和详细更改,请访问此处:https://spark.apache.org/releases/spark-release-4-0-0.html。
注释
在 Spark 4.0 中,SparkR 已弃用,可能会在将来的版本中删除。
Delta Lake 4.0
Delta Lake 4.0 标志着一项集体承诺,使 Delta Lake 跨格式互作、更易于使用且性能更高。 Delta 4.0 是一个具有强大新功能、性能优化和基础增强功能的里程碑版本,适用于开放 Data Lakehouse 的未来。
可在此处查看 Delta Lake 3.3 和 4.0 中引入的完整列表和详细更改: https://github.com/delta-io/delta/releases/tag/v3.3.0 https://github.com/delta-io/delta/releases/tag/v4.0.0。
重要
Delta Lake 4.0 特定功能是实验性的,仅适用于 Spark 体验,例如笔记本和 Spark 作业定义。 如果需要跨多个 Microsoft Fabric 工作负荷使用相同的 Delta Lake 表,请不要启用这些功能。 若要详细了解跨所有 Microsoft Fabric 体验兼容哪些协议版本和功能,请阅读 Delta Lake 表格式互作性。