Databricks 运行时维护更新

本文列出了支持的 Databricks Runtime 版本的维护更新。 要向现有群集添加维护更新,请重新启动群集。 有关不支持的 Databricks Runtime 版本的维护更新,请参阅 Databricks Runtime 的维护更新(已存档)。

注意

发布过程是分阶段的。 Azure Databricks 帐户在初始发布日期后的几天内可能不会更新。

Databricks Runtime 版本

维护更新(按版本):

Databricks Runtime 16.4

请参阅 Databricks Runtime 16.4 LTS

  • 2025 年 6 月 17 日
    • 修复了 cloud_files_state 表值函数 (TVF) 不能用于跨管道读取流表的文件级状态的限制。
    • 修复了针对临时视图的查询的 Unity 目录授权问题。
    • [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 应保留该计划 ID
    • 操作系统安全更新。
  • 2025 年 6 月 3 日
    • [SPARK-52195][PYTHON][SS] 修复了 Python TWS 的初始状态列删除问题
    • [SPARK-52159][SQL] 正确处理 jdbc 方言的表存在检查
    • 杂项漏洞修复。
  • 2025 年 5 月 7 日
    • 更新了 Java 库:
      • io.delta.delta-sharing-client_2.13 从 1.2.3 到 1.2.7
      • org.apache.avro.avro 从 1.11.3 到 1.11.4
      • org.apache.avro.avro-ipc 从 1.11.3 到 1.11.4
      • org.apache.avro.avro-mapred 已从 1.11.3 升级到 1.11.4
    • 在共享群集/无服务器环境中,流式处理克隆会话将在 foreachBatch 用户函数内部被使用。 这与经典(分配的群集)中的行为保持一致。
    • 在共享群集/无服务器环境中,流式处理克隆会话将在 foreachBatch 用户函数内部被使用。 这与经典(分配的群集)中的行为保持一致。
    • 在此更改之前,禁用 Photon 时,variant_get 表达式中路径的前导空格和制表符将被忽略。 例如, select variant_get(parse_json('{"key": "value"}'), '$['key']') 在提取值 "key"时不会有效。 但是,用户现在将能够提取此类密钥。
    • [SPARK-51935][SQL] 修复解释的 df.collect() 中的迭代器的延迟行为
    • [SPARK-51921][SS][PYTHON] 在 transformWithState 中使用 TTL 持续时间长类型(以毫秒为单位)
    • [SPARK-51940][SS] 添加用于管理流检查点元数据的接口
    • [SPARK-52049] 修复了 XML 属性无法解析为 Variant 的 bug
    • [SPARK-51904][SS] 删除 StateSchemaV3 的异步元数据清除,并在列出 OperatorMetadata 文件时忽略非批处理文件
    • [SPARK-51869][SS] 为 Scala TransformWithState 的 UDF 中的用户错误创建分类
    • [SPARK-51889][PYTHON][SS] 修复 Python TWS 中 MapState clear() 的 bug
    • [SPARK-51922] [SS] 修复了 StateStoreChangelogReaderFactory 在处理 v1 版本时抛出的 UTFDataFormatException
    • [SPARK-51848][SQL] 修复了当 XML 记录中包含 Variant 类型的数组、结构体或映射,且已定义其架构时,解析出错的问题
    • 操作系统安全更新。

Databricks Runtime 16.3

请参阅 Databricks Runtime 16.3

  • 2025 年 6 月 17 日
    • 修复了 cloud_files_state 表值函数 (TVF) 不能用于跨管道读取流表的文件级状态的限制。
    • [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 应保留该计划 ID
    • 操作系统安全更新。
  • 2025 年 6 月 3 日
    • 更新了 Python 库:
      • 加密从 41.0.7、41.0.7、42.0.5 到 42.0.5
      • packaging 已从 24.0、24.1 升级到 24.1
      • platformdirs 已从 3.10.0、4.2.2 升级到 3.10.0
      • pyparsing 已从 3.0.9、3.1.1 升级到 3.0.9
      • 添加了 autocommand 2.2.2
      • 添加了 backports.tarfile 1.2.0
      • 添加了 importlib_resources 6.4.0
      • 添加了 Inflect 7.3.1
      • 添加了 jaraco.context 5.3.0
      • 添加了 jaraco.functools 4.0.1
      • 添加了 jaraco.text 3.12.1
      • 添加了 more-itertools 10.3.0
      • 添加了 pip 24.2
      • 添加了 setuptools 74.0.0
      • 添加了 tomli 2.0.1
      • 添加了 typeguard 4.3.0
      • 添加了 wcwidth 0.2.5
      • 添加了 wheel 0.43.0
      • 已删除发行版 1.9.0
      • 已删除 distro-info 1.7+build1
      • 已删除 python-apt 2.7.7+ubuntu4
    • [SPARK-52195][PYTHON][SS] 修复了 Python TWS 的初始状态列删除问题
    • [SPARK-52159][SQL] 正确处理 jdbc 方言的表存在检查
    • 操作系统安全更新。
  • 2025 年 5 月 20 日
    • 更新了 Java 库:
      • io.delta.delta-sharing-client_2.12 从 1.2.6 到 1.2.7
      • org.apache.avro.avro 从 1.11.3 到 1.11.4
      • org.apache.avro.avro-ipc 从 1.11.3 到 1.11.4
      • org.apache.avro.avro-mapred 已从 1.11.3 升级到 1.11.4
    • 在共享群集/无服务器环境中,流式处理克隆会话将在 foreachBatch 用户函数内部被使用。 这与经典(分配的群集)中的行为保持一致。
    • 在共享群集/无服务器环境中,流式处理克隆会话将在 foreachBatch 用户函数内部被使用。 这与经典(分配的群集)中的行为保持一致。
    • 在此更改之前,禁用 Photon 时,variant_get 表达式中路径的前导空格和制表符将被忽略。 例如, select variant_get(parse_json('{"key": "value"}'), '$['key']') 在提取值 "key"时不会有效。 但是,用户现在将能够提取此类密钥。
    • [SPARK-51921][SS][PYTHON] 在 transformWithState 中使用 TTL 持续时间长类型(以毫秒为单位)
    • [SPARK-51935][SQL] 修复解释的 df.collect() 中的迭代器的延迟行为
    • 操作系统安全更新。
  • 2025 年 4 月 22 日
    • Delta 架构跟踪将显示架构演变错误 DELTA_STREAMING_CANNOT_CONTINUE_PROCESSING_POST_SCHEMA_EVOLUTION,而不是 DELTA_STREAMING_CANNOT_CONTINUE_PROCESSING_TYPE_WIDENING,从而与其他非累加性架构变更异常保持一致。
    • [SPARK-51589][SQL] 修复了未能检查聚合函数的小问题 |>SELECT
    • [SPARK-51645][SQL] 修复 CREATE OR REPLACE TABLE ... 默认排序规则 ... 的查询
    • 在 15.4、16.0、16.1、16.2 和 16.3 中还原“[SPARK-47895][SQL] 按别名分组应是幂等的”
    • [SPARK-51717][SS][RocksDB] 修复了为新查询创建的第二个快照可能发生的 SST 不匹配损坏
  • 2025 年 3 月 26 日
    • [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中传播 GetStructField 元数据
    • [SPARK-51505][SQL] 记录 AQE 联合中的空分区号指标
    • [SPARK-47895][SQL]group by alias 应保持幂等性
    • 操作系统安全更新。

Databricks Runtime 16.2

请参阅 Databricks Runtime 16.2

  • 2025 年 6 月 17 日
    • 修复了 cloud_files_state 表值函数 (TVF) 不能用于跨管道读取流表的文件级状态的限制。
    • [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 应保留该计划 ID
    • 操作系统安全更新。
  • 2025 年 6 月 3 日
    • 更新了 Python 库:
      • 加密从 41.0.7、41.0.7、42.0.5 到 42.0.5
      • packaging 已从 24.0、24.1 升级到 24.1
      • platformdirs 已从 3.10.0、4.2.2 升级到 3.10.0
      • pyparsing 已从 3.0.9、3.1.1 升级到 3.0.9
      • 添加了 autocommand 2.2.2
      • 添加了 backports.tarfile 1.2.0
      • 添加了 importlib_resources 6.4.0
      • 添加了 Inflect 7.3.1
      • 添加了 jaraco.context 5.3.0
      • 添加了 jaraco.functools 4.0.1
      • 添加了 jaraco.text 3.12.1
      • 添加了 more-itertools 10.3.0
      • 添加了 pip 24.2
      • 添加了 setuptools 74.0.0
      • 添加了 tomli 2.0.1
      • 添加了 typeguard 4.3.0
      • 添加了 wcwidth 0.2.5
      • 添加了 wheel 0.43.0
      • 已删除发行版 1.9.0
      • 已删除 distro-info 1.7+build1
      • 已删除 python-apt 2.7.7+ubuntu4
    • [SPARK-52159][SQL] 正确处理 jdbc 方言的表存在检查
    • [SPARK-52195][PYTHON][SS] 修复了 Python TWS 的初始状态列删除问题
    • 操作系统安全更新。
  • 2025 年 5 月 20 日
    • 更新了 Java 库:
      • io.delta.delta-sharing-client_2.12 从 1.2.6 到 1.2.7
      • org.apache.avro.avro 从 1.11.3 到 1.11.4
      • org.apache.avro.avro-ipc 从 1.11.3 到 1.11.4
      • org.apache.avro.avro-mapred 已从 1.11.3 升级到 1.11.4
    • 在共享群集/无服务器环境中,流式处理克隆会话将在 foreachBatch 用户函数内部被使用。 这与经典(分配的群集)中的行为保持一致。
    • 在共享群集/无服务器环境中,流式处理克隆会话将在 foreachBatch 用户函数内部被使用。 这与经典(分配的群集)中的行为保持一致。
    • 在此更改之前,禁用 Photon 时,variant_get 表达式中路径的前导空格和制表符将被忽略。 例如, select variant_get(parse_json('{"key": "value"}'), '$[' key']') 在提取值 "key"时不会有效。 但是,用户现在将能够提取此类密钥。
    • [SPARK-51935][SQL] 修复解释的 df.collect() 中的迭代器的延迟行为
    • [SPARK-51921][SS][PYTHON] 在 transformWithState 中使用 TTL 持续时间长类型(以毫秒为单位)
    • 操作系统安全更新。
  • 2025 年 4 月 22 日
    • [SPARK-51717][SS][RocksDB] 修复了为新查询创建的第二个快照可能发生的 SST 不匹配损坏
    • 在 15.4、16.0、16.1、16.2 和 16.3 中还原“[SPARK-47895][SQL] 按别名分组应是幂等的”
    • 操作系统安全更新。
  • 2025 年 4 月 9 日
    • 更新了 Java 库:
      • 删除了 io.starburst.openjson.openjson 1.8-e.12
      • 删除了 io.starburst.openx.data.json-serde 1.3.9-e.12
      • 删除了 io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
    • [SPARK-47895][SQL]group by alias 应保持幂等性
    • [SPARK-51505][SQL] 记录 AQE 联合中的空分区号指标
    • [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中传播 GetStructField 元数据
    • [SPARK-51589][SQL] 修复了未能检查聚合函数的小问题 |>SELECT
    • 操作系统安全更新。
  • 2025 年 3 月 11 日
    • Databricks Runtime 14.3 及更高版本包含一个修补程序,可解决导致二进制与实例化 SparkListenerApplicationEnd 类并针对 Apache Spark 编译的代码不兼容的问题。 合并 SPARK-46399 到 Apache Spark 引起了这种不兼容。 此次合并包含一项更改,即向 SparkListenerApplicationEnd 构造函数添加了默认参数。 若要还原二进制兼容性,此修补程序会将单个参数构造函数添加到 SparkListenerApplicationEnd 类。
    • 还原“[SPARK-48273][SQL] 修复 PlanWithUnresolvedIdentifier 的重写延迟”
    • [SPARK-50985][SS] 对 Kafka 时间戳偏移量不匹配错误进行分类,而不是断言,并针对 KafkaTokenProvider 中缺少服务器的情况引发错误
    • [SPARK-51065][SQL] 当 Avro 编码用于 TransformWithState 时,不允许使用不可为 null 的架构
    • [SPARK-51237][SS] 根据需要为新的 transformWithState 帮助程序 API 添加 API 详细信息
    • [SPARK-51222][SQL] 优化 ReplaceCurrentLike
    • [SPARK-51351][SS] 不要在适用于 TWS 的 Python 辅助角色中具体化输出
    • [SPARK-51084][SQL] 为 negativeScaleNotAllowedError 分配适当的错误类
    • [SPARK-51249][SS] 修复 NoPrefixKeyStateEncoder 和 Avro 编码以使用正确的版本字节数
    • 操作系统安全更新。
  • 2025 年 2 月 5 日
    • 此版本包括修复了序列化已获救 XML 数据列时影响某些数据类型转换的问题。 受影响的数据类型是日期、非 NTZ 时间戳和小数,当启用 prefersDecimal 时。 若要了解有关已获救数据列的详细信息,请参阅什么是已获救数据列?
    • [SPARK-50770][SS] 删除 transformWithState 运算符 API 的包范围
    • 操作系统安全更新。

Databricks Runtime 16.1

请参阅 Databricks Runtime 16.1 (EoS)。

  • 2025 年 6 月 17 日
    • 修复了 cloud_files_state 表值函数 (TVF) 不能用于跨管道读取流表的文件级状态的限制。
    • [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 应保留该计划 ID
    • 操作系统安全更新。
  • 2025 年 6 月 3 日
    • 更新了 Python 库:
      • 加密从 41.0.7、41.0.7、42.0.5 到 42.0.5
      • packaging 已从 24.0、24.1 升级到 24.1
      • platformdirs 已从 3.10.0、4.2.2 升级到 3.10.0
      • pyparsing 已从 3.0.9、3.1.1 升级到 3.0.9
      • 添加了 autocommand 2.2.2
      • 添加了 backports.tarfile 1.2.0
      • 添加了 importlib_resources 6.4.0
      • 添加了 Inflect 7.3.1
      • 添加了 jaraco.context 5.3.0
      • 添加了 jaraco.functools 4.0.1
      • 添加了 jaraco.text 3.12.1
      • 添加了 more-itertools 10.3.0
      • 添加了 pip 24.2
      • 添加了 setuptools 74.0.0
      • 添加了 tomli 2.0.1
      • 添加了 typeguard 4.3.0
      • 添加了 wcwidth 0.2.5
      • 添加了 wheel 0.43.0
      • 已删除发行版 1.9.0
      • 已删除 distro-info 1.7+build1
      • 已删除 python-apt 2.7.7+ubuntu4
    • 更新了 Java 库:
      • com.github.fommil.netlib.native_ref-java 从 1.1、1.1-natives 更新到 1.1、1.1
      • com.github.fommil.netlib.native_system-java 从 1.1、1.1-natives 更新到 1.1、1.1
      • com.github.fommil.netlib.netlib-native_ref-linux-x86_64 从 1.1-natives 更新到 1.1
      • com.github.fommil.netlib.netlib-native_system-linux-x86_64 从 1.1-natives 更新到 1.1
      • io.netty.netty-tcnative-boringssl-static 从 2.0.61.Final-db-r16、2.0.61.Final-db-r16-linux-aarch_64、2.0.61.Final-db-r16-linux-x86_64、2.0.61.Final-db-r16-osx-aarch_64、2.0.61.Final-db-r16-osx-x86_64、2.0.61.Final-db-r16-windows-x86_64 更新到 2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16
      • io.netty.netty-transport-native-epoll 从 4.1.108.Final、4.1.108.Final-linux-aarch_64、4.1.108.Final-linux-riscv64、4.1.108.Final-linux-x86_64 更新到 4.1.108.Final、4.1.108.Final、4.1.108.Final、4.1.108.Final
      • io.netty.netty-transport-native-kqueue 从 4.1.108.Final-osx-aarch_64、4.1.108.Final-osx-x86_64 更新到 4.1.108.Final、4.1.108.Final
      • org.apache.orc.orc-core 已从 1.9.2-shaded-protobuf 升级到 1.9.2
      • org.apache.orc.orc-mapreduce 已从 1.9.2-shaded-protobuf 升级到 1.9.2
      • software.amazon.cryptools.AmazonCorrettoCryptoProvider 从 2.4.1-linux-x86_64 到 2.4.1
    • [SPARK-52159][SQL] 正确处理 jdbc 方言的表存在检查
    • 操作系统安全更新。
  • 2025 年 5 月 20 日
    • 更新了 Java 库:
      • io.delta.delta-sharing-client_2.12 从 1.2.5 到 1.2.7
      • org.apache.avro.avro 从 1.11.3 到 1.11.4
      • org.apache.avro.avro-ipc 从 1.11.3 到 1.11.4
      • org.apache.avro.avro-mapred 已从 1.11.3 升级到 1.11.4
    • 在共享群集/无服务器环境中,流式处理克隆会话将在 foreachBatch 用户函数内部被使用。 这与经典(分配的群集)中的行为保持一致。
    • 在此更改之前,禁用 Photon 时,variant_get 表达式中路径的前导空格和制表符将被忽略。 例如, select variant_get(parse_json('{"key": "value"}'), '$['key']') 在提取值 "key"时不会有效。 但是,用户现在将能够提取此类密钥。
    • [SPARK-51935][SQL] 修复解释的 df.collect() 中的迭代器的延迟行为
    • 操作系统安全更新。
  • 2025 年 4 月 22 日
    • 在 15.4、16.0、16.1、16.2 和 16.3 中还原“[SPARK-47895][SQL] 按别名分组应是幂等的”
    • [SPARK-50682][SQL] 内部别名应规范化
    • [SPARK-51717][SS][RocksDB] 修复了为新查询创建的第二个快照可能发生的 SST 不匹配损坏
    • 操作系统安全更新。
  • 2025 年 4 月 9 日
    • 更新了 Java 库:
      • 删除了 io.starburst.openjson.openjson 1.8-e.12
      • 删除了 io.starburst.openx.data.json-serde 1.3.9-e.12
      • 删除了 io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
    • [SPARK-51505][SQL] 记录 AQE 联合中的空分区号指标
    • [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中传播 GetStructField 元数据
    • [SPARK-47895][SQL]group by alias 应保持幂等性
    • 操作系统安全更新。
  • 2025 年 3 月 11 日
    • Databricks Runtime 14.3 及更高版本包含一个修补程序,可解决导致二进制与实例化 SparkListenerApplicationEnd 类并针对 Apache Spark 编译的代码不兼容的问题。 合并 SPARK-46399 到 Apache Spark 引起了这种不兼容。 此次合并包含一项更改,即向 SparkListenerApplicationEnd 构造函数添加了默认参数。 若要还原二进制兼容性,此修补程序会将单个参数构造函数添加到 SparkListenerApplicationEnd 类。
    • [SPARK-51084][SQL] 为 negativeScaleNotAllowedError 分配适当的错误类
    • 还原 [SPARK-48273][SQL] 修复 PlanWithUnresolvedIdentifier 的重写延迟
    • [SPARK-51222][SQL] 优化 ReplaceCurrentLike
    • [SPARK-50985][SS] 对 Kafka 时间戳偏移量不匹配错误进行分类,而不是断言,并针对 KafkaTokenProvider 中缺少服务器的情况引发错误
    • [SPARK-50791][SQL] 修复状态存储错误处理中的 NPE
    • 操作系统安全更新。
  • 2025 年 2 月 11 日
    • 此版本包括修复了序列化已获救 XML 数据列时影响某些数据类型转换的问题。 受影响的数据类型是日期、非 NTZ 时间戳和小数,当启用 prefersDecimal 时。 若要了解有关已获救数据列的详细信息,请参阅什么是已获救数据列?
    • [SPARK-50492][SS] 修复在使用 dropDuplicatesWithinWatermark 后删除事件时间列时出现的 java.util.NoSuchElementException
    • 操作系统安全更新。
  • 2024 年 11 月 27 日
    • 此版本中修复了可能导致 Delta 表上的主键在与后台自动压缩相关的某些边缘情况下被删除的问题。
    • 此版本包括修复了序列化已获救 XML 数据列时影响某些数据类型转换的问题。 受影响的数据类型是日期、非 NTZ 时间戳和小数,当启用 prefersDecimal 时。 若要了解有关已获救数据列的详细信息,请参阅什么是已获救数据列?
    • 在此版本中,Databricks 计算节点中 SSD 使用的缓存大小动态扩展到 SSD 的初始大小,并在必要时缩小到 spark.databricks.io.cache.maxDiskUsage 限制。 请参阅 使用 Azure Databricks 上的缓存优化性能
    • [SPARK-50338][CORE] 使 LazyTry 异常信息变得简洁
    • 操作系统安全更新。

Databricks Runtime 15.4

请参阅 Databricks Runtime 15.4 LTS

  • 2025 年 6 月 17 日
    • 修复了 cloud_files_state 表值函数 (TVF) 不能用于跨管道读取流表的文件级状态的限制。
    • [SPARK-49646][SQL] 修复当 parentOuterReferences 的引用未包含在 collectedChildOuterReferences 中时,并集/集操作的子查询去相关问题
    • [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 应保留该计划 ID
  • 2025 年 6 月 3 日
    • 更新了 Python 库:
      • cryptography 已从 3.4.8、41.0.3 升级到 41.0.3
      • filelock 已从 3.13.4、3.15.4 升级到 3.13.4
      • importlib-metadata 已从 4.6.4、6.0.0 升级到 6.0.0
      • platformdirs 已从 3.10.0、3.11.0 升级到 3.10.0
      • pyparsing 已从 2.4.7、3.0.9 升级到 3.0.9
      • zipp 从 1.0.0、3.11.0 升级到 3.11.0
      • 添加了 pip 23.2.1
      • 添加了 setuptools 68.0.0
      • 添加了 wcwidth 0.2.5
      • 添加了 wheel 0.38.4
      • 已删除发行版 1.7.0
      • 已删除发行版信息 1.1+ubuntu0.2
      • 已删除 python-apt 2.4.0+ubuntu4
    • 更新了 Java 库:
      • com.github.fommil.netlib.native_ref-java 从 1.1、1.1-natives 更新到 1.1、1.1
      • com.github.fommil.netlib.native_system-java 从 1.1、1.1-natives 更新到 1.1、1.1
      • com.github.fommil.netlib.netlib-native_ref-linux-x86_64 从 1.1-natives 更新到 1.1
      • com.github.fommil.netlib.netlib-native_system-linux-x86_64 从 1.1-natives 更新到 1.1
      • io.netty.netty-tcnative-boringssl-static 从 2.0.61.Final-db-r16-linux-aarch_64、2.0.61.Final-db-r16-linux-x86_64、2.0.61.Final-db-r16-osx-aarch_64、2.0.61.Final-db-r16-osx-x86_64、2.0.61.Final-db-r16-windows-x86_64 更新到 2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16
      • io.netty.netty-transport-native-epoll 从 4.1.96.Final、4.1.96.Final-linux-aarch_64、4.1.96.Final-linux-x86_64 更新到 4.1.96.Final、4.1.96.Final、4.1.96.Final
      • io.netty.netty-transport-native-kqueue 从 4.1.96.Final-osx-aarch_64、4.1.96.Final-osx-x86_64 更新到 4.1.96.Final、4.1.96.Final
      • org.apache.orc.orc-core 已从 1.9.2-shaded-protobuf 升级到 1.9.2
      • org.apache.orc.orc-mapreduce 已从 1.9.2-shaded-protobuf 升级到 1.9.2
      • software.amazon.cryptools.AmazonCorrettoCryptoProvider 从 1.6.2-linux-x86_64 到 1.6.2
    • [SPARK-52159][SQL] 正确处理 jdbc 方言的表存在检查
    • 操作系统安全更新。
  • 2025 年 5 月 20 日
    • 更新了 Java 库:
      • io.delta.delta-sharing-client_2.12 从 1.1.5 到 1.1.6
    • 在共享群集/无服务器环境中,流式处理克隆会话将在 foreachBatch 用户函数内部被使用。 这与经典(分配的群集)中的行为保持一致。
    • 在此更改之前,禁用 Photon 时,variant_get 表达式中路径的前导空格和制表符将被忽略。 例如, select variant_get(parse_json('{"key": "value"}'), '$['key']') 在提取值 "key"时不会有效。 但是,用户现在将能够提取此类密钥。
    • [SPARK-51935][SQL] 修复解释的 df.collect() 中的迭代器的延迟行为
    • 操作系统安全更新。
  • 2025 年 4 月 22 日
    • 更新了 Java 库:
      • org.apache.avro.avro 从 1.11.3 到 1.11.4
      • org.apache.avro.avro-ipc 从 1.11.3 到 1.11.4
      • org.apache.avro.avro-mapred 已从 1.11.3 升级到 1.11.4
    • 在 15.4、16.0、16.1、16.2 和 16.3 中还原“[SPARK-47895][SQL] 按别名分组应是幂等的”
    • [SPARK-50682][SQL] 内部别名应规范化
    • 操作系统安全更新。
  • 2025 年 4 月 9 日
    • 行为变化)若要应用关键安全修补程序,默认 Python 版本从 Python 3.11.0rc1 更新为 Python 3.11.11。 此更新可能会影响在 Databricks Runtime 15.4 LTS 上运行的某些工作负载,例如那些使用 Python 序列化在执行之间存储和还原状态的工作负载,或那些依赖于 Python 3.11.0 版本的工作负载。
    • 更新了 Java 库:
      • 删除了 io.starburst.openjson.openjson 1.8-e.12
      • 删除了 io.starburst.openx.data.json-serde 1.3.9-e.12
      • 删除了 io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
    • [SPARK-47895][SQL]group by alias 应保持幂等性
    • [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中传播 GetStructField 元数据
    • 操作系统安全更新。
  • 2025 年 3 月 31 日
    • 对于未启用 Photon 的计算任务,databricks-feature-engineering 已升级到 0.8.0。 对于已启用 Photon 的计算, databricks-feature-engineering 仍为 0.6.0。
  • 2025 年 3 月 11 日
    • Databricks Runtime 14.3 及更高版本包含一个修补程序,可解决导致二进制与实例化 SparkListenerApplicationEnd 类并针对 Apache Spark 编译的代码不兼容的问题。 合并 SPARK-46399 到 Apache Spark 引起了这种不兼容。 此次合并包含一项更改,即向 SparkListenerApplicationEnd 构造函数添加了默认参数。 若要还原二进制兼容性,此修补程序会将单个参数构造函数添加到 SparkListenerApplicationEnd 类。
    • [SPARK-50985][SS] 对 Kafka 时间戳偏移量不匹配错误进行分类,而不是断言,并针对 KafkaTokenProvider 中缺少服务器的情况引发错误
    • [SPARK-50791][SQL] 修复状态存储错误处理中的 NPE
    • [SPARK-50310][PYTHON] 提高禁用 DQC 时的列性能
    • [SPARK-51222][SQL] 优化 ReplaceCurrentLike
    • [SPARK-49525][SS][CONNECT] 对服务器端流式处理查询 ListenerBus 侦听器的日志进行小幅改进
    • [SPARK-51084][SQL] 为 negativeScaleNotAllowedError 分配适当的错误类
    • 操作系统安全更新。
  • 2025 年 2 月 11 日
    • 此版本包括修复了序列化已获救 XML 数据列时影响某些数据类型转换的问题。 受影响的数据类型是日期、非 NTZ 时间戳和小数,当启用 prefersDecimal 时。 若要了解有关已获救数据列的详细信息,请参阅什么是已获救数据列?
    • [SPARK-50492][SS] 修复在使用 dropDuplicatesWithinWatermark 后删除事件时间列时出现的 java.util.NoSuchElementException
    • 操作系统安全更新。
    • 对于未启用 Photon 的计算, mlflow-skinny 已升级到 2.19.0。 对于已启用 Photon 的计算, mlflow-skinny 仍为 2.13.1。
  • 2024 年 12 月 10 日
    • USE CATALOG 语句现在支持 IDENTIFIER 子句。 借助此支持,可以根据字符串变量或参数标记参数化当前目录。
    • 此版本中修复了可能导致 Delta 表上的主键在与后台自动压缩相关的某些边缘情况下被删除的问题。
    • 在此版本中,Databricks 计算节点中 SSD 使用的缓存大小动态扩展到 SSD 的初始大小,并在必要时缩小到 spark.databricks.io.cache.maxDiskUsage 限制。 请参阅 使用 Azure Databricks 上的缓存优化性能
    • pyodbc 包从版本 4.0.38 更新到版本 4.0.39。 此更改是必需的,因为版本 4.0.38 中发现了 bug,并且该版本已从 PyPI 中删除。
    • [SPARK-50329][SQL] 修复 InSet$toString
    • [SPARK-47435][SQL] 修复 MySQL UNSIGNED TINYINT 的溢出问题
    • [SPARK-49757][SQL] 支持在 IDENTIFIERSET 语句中使用 CATALOG 表达式
    • [SPARK-50426][PYTHON] 使用内置数据源或 Java 数据源时避免静态 Python 数据源查找
    • [SPARK-48863][SQL] 在分析启用了 “spark.sql.json.enablePartialResults” 的 JSON 时修复 ClassCastException
    • [SPARK-50310][PYTHON] 添加标志以禁用 PySpark 的 DataFrameQueryContext
    • [15.3-15.4] [SPARK-50034][CORE] 修复 SparkUncaughtExceptionHandler 中将“致命错误”误报为“未捕获的异常”的问题
    • 操作系统安全更新。
  • 2024 年 11 月 26 日
    • 在此版本中,现在可以使用vector_search进行文本输入,或使用query_text进行嵌入输入来查询query_vector函数。
    • 现在可以使用 Spark 配置属性 spark.databricks.execution.timeout为 Spark Connect 查询设置超时。 对于在无服务器计算上运行的笔记本,默认值为 9000(秒)。 在无服务器计算和具有标准访问模式的计算上运行的作业没有超时,除非设置了此配置属性。 持续时间超过指定超时时间的执行会导致 QUERY_EXECUTION_TIMEOUT_EXCEEDED 错误。
    • [SPARK-50322][SQL] 修复子查询中的参数化标识符
    • [SPARK-49615] [ML] 使所有 ML 功能转换器数据集架构验证都符合“spark.sql.caseSensitive”配置。
    • [SPARK-50124][SQL] LIMIT/OFFSET 应保留数据排序
    • 操作系统安全更新。
  • 2024 年 11 月 5 日
    • 重大变更)在 Databricks Runtime 15.4 及更高版本中,Photon 中的正则表达式处理已更新,以确保与 Apache Spark 正则表达式处理的一致性。 以前,Photon 运行的正则表达式函数(如 split()regexp_extract())接受 Spark 分析器拒绝的某些正则表达式。 为了保持 Apache Spark 的一致性,对于 Spark 认为无效的正则表达式,Photon 查询现在将失败。 由于此更改,如果 Spark 代码包含无效正则表达式,则可能会看到错误。 例如,表达式 split(str_col, '{'),它包含不匹配的大括号,之前会被 Photon 接受,但现在不会。 若要修复此表达式,可以转义大括号字符:split(str_col, '\\{')。 对于非 ASCII 字符的一些正则表达式匹配,Photon 和 Spark 行为也有所不同。 这也已更新,以便 Photon 特性与 Apache Spark 相匹配。
    • [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
    • [SPARK-49867][SQL] 在调用 GetColumnByOrdinal 时索引超出边界时改进错误消息
    • [SPARK-49863][SQL] 修复 NormalizeFloatingNumbers 以保留嵌套结构的可空性
    • [SPARK-49829] 修正优化在流与流联接中向状态存储添加输入时的 bug(更正修复)
    • [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改混排
    • [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
    • [SPARK-49443][SQL][PYTHON] 实现 to_variant_object 表达式,并使 schema_of_variant 表达式为 Variant 对象打印 OBJECT
    • [SPARK-49615] Bugfix:使 ML 列架构验证符合 spark 配置 spark.sql.caseSensitive
  • 2024 年 10 月 22 日
    • [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
    • [SPARK-49867][SQL] 在调用 GetColumnByOrdinal 时索引超出边界时改进错误消息
    • [SPARK-49863][SQL] 修复 NormalizeFloatingNumbers 以保留嵌套结构的可空性
    • [SPARK-49829] 修正优化在流与流联接中向状态存储添加输入时的 bug(更正修复)
    • [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改混排
    • [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
    • [SPARK-49443][SQL][PYTHON] 实现 to_variant_object 表达式,并使 schema_of_variant 表达式为 Variant 对象打印 OBJECT
    • [SPARK-49615] Bugfix:使 ML 列架构验证符合 spark 配置 spark.sql.caseSensitive
  • 2024 年 10 月 10 日
    • [SPARK-49743][SQL] 在修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改架构字段
    • [SPARK-49688][CONNECT] 修复中断和执行计划之间的数据争用问题
    • [BACKPORT] [SPARK-49474][SS] 为 FlatMapGroupsWithState 用户函数错误定义错误类分类
    • [SPARK-49460][SQL] 跟进:修复潜在的 NPE 风险
  • 2024 年 9 月 25 日
    • [SPARK-49628][SQL] 常量折叠应在计算前复制有状态的表达式
    • [SPARK-49000][SQL] 通过扩展“RewriteDistinctAggregates”修复“select count(distinct 1) from t”,其中 t 是空表。
    • [SPARK-49492][CONNECT] 尝试在处于非活动状态的 ExecutionHolder 上重新附加
    • [SPARK-49458][CONNECT][PYTHON] 通过 ReattachExecute 提供服务器端会话 ID
    • [SPARK-49017][SQL] 在使用多个参数时插入语句失败
    • [SPARK-49451] 允许parse_json中的重复键。
    • 杂项漏洞修复。
  • 2024 年 9 月 17 日
    • [SPARK-48463][ML] 使 Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor 支持嵌套输入列
    • [SPARK-49409][CONNECT] 调整CONNECT_SESSION_PLAN_CACHE_SIZE的默认值
    • [SPARK-49526][CONNECT][HOTFIX-15.4.2] 支持 ArtifactManager 中的 Windows 样式路径
    • 还原“[SPARK-48482][PYTHON] dropDuplicates 和 dropDuplicatesWIthinWatermark 应接受可变长度参数”
    • [SPARK-43242][CORE] 修复了混排损坏诊断时抛出的“意外 BlockId 类型”错误
    • [SPARK-49366][CONNECT] 在数据帧列解析中将 Union 节点视为叶节点
    • [SPARK-49018][SQL] 修复 approx_count_distinct 无法正常使用排序规则的问题
    • [SPARK-49460][SQL] 从 EmptyRelationExec 中删除cleanupResource()
    • [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
    • [SPARK-49336][CONNECT] 截断 protobuf 消息时限制嵌套级别
  • 2024 年 8 月 29 日

Databricks Runtime 14.3

请参阅 Databricks Runtime 14.3 LTS

  • 2025 年 6 月 17 日
    • 修复了 cloud_files_state 表值函数 (TVF) 不能用于跨管道读取流表的文件级状态的限制。
    • [SPARK-49646][SQL] 修复当 parentOuterReferences 的引用未包含在 collectedChildOuterReferences 中时,并集/集操作的子查询去相关问题
  • 2025 年 6 月 3 日
    • 更新了 Python 库:
      • 从 3.4.8、39.0.1 到 39.0.1 的加密
      • platformdirs 已从 2.5.2、2.6.2 升级到 2.5.2
      • pyparsing 已从 2.4.7、3.0.9 升级到 3.0.9
      • 添加了 pip 22.3.1
      • 添加了 setuptools 65.6.3
      • 添加了 tomli 2.0.1
      • 添加了 wcwidth 0.2.5
      • 添加了 wheel 0.38.4
      • 已删除发行版 1.7.0
      • 已删除发行版信息 1.1+ubuntu0.2
      • 已删除 python-apt 2.4.0+ubuntu4
    • 更新了 Java 库:
      • com.github.fommil.netlib.native_ref-java 从 1.1、1.1-natives 更新到 1.1、1.1
      • com.github.fommil.netlib.native_system-java 从 1.1、1.1-natives 更新到 1.1、1.1
      • com.github.fommil.netlib.netlib-native_ref-linux-x86_64 从 1.1-natives 更新到 1.1
      • com.github.fommil.netlib.netlib-native_system-linux-x86_64 从 1.1-natives 更新到 1.1
      • io.netty.netty-tcnative-boringssl-static 从 2.0.61.Final-db-r16-linux-aarch_64、2.0.61.Final-db-r16-linux-x86_64、2.0.61.Final-db-r16-osx-aarch_64、2.0.61.Final-db-r16-osx-x86_64、2.0.61.Final-db-r16-windows-x86_64 更新到 2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16
      • io.netty.netty-transport-native-epoll 从 4.1.96.Final、4.1.96.Final-linux-aarch_64、4.1.96.Final-linux-x86_64 更新到 4.1.96.Final、4.1.96.Final、4.1.96.Final
      • io.netty.netty-transport-native-kqueue 从 4.1.96.Final-osx-aarch_64、4.1.96.Final-osx-x86_64 更新到 4.1.96.Final、4.1.96.Final
      • org.apache.orc.orc-core 已从 1.9.2-shaded-protobuf 升级到 1.9.2
      • org.apache.orc.orc-mapreduce 已从 1.9.2-shaded-protobuf 升级到 1.9.2
      • software.amazon.cryptools.AmazonCorrettoCryptoProvider 从 1.6.1-linux-x86_64 到 1.6.1
    • [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 应保留该计划 ID
    • [SPARK-52159][SQL] 正确处理 jdbc 方言的表存在检查
    • 操作系统安全更新。
  • 2025 年 5 月 20 日
    • 更新了 Java 库:
      • io.delta.delta-sharing-client_2.12 从 1.1.5 到 1.1.6
    • [SPARK-51935][SQL] 修复解释的 df.collect() 中的迭代器的延迟行为
    • 操作系统安全更新。
  • 2025 年 4 月 22 日
    • 操作系统安全更新。
  • 2025 年 4 月 9 日
    • [行为变更] Vacuum 操作现在会执行类似于其他操作的 Writer 协议检查,防止在从不兼容的较旧 DBR 版本运行时对具有更新功能的表进行意外清理。
    • [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中传播 GetStructField 元数据
    • 操作系统安全更新。
  • 2025 年 3 月 11 日
    • Databricks Runtime 14.3 及更高版本包含一个修补程序,可解决导致二进制与实例化 SparkListenerApplicationEnd 类并针对 Apache Spark 编译的代码不兼容的问题。 合并 SPARK-46399 到 Apache Spark 引起了这种不兼容。 此次合并包含一项更改,即向 SparkListenerApplicationEnd 构造函数添加了默认参数。 若要还原二进制兼容性,此修补程序会将单个参数构造函数添加到 SparkListenerApplicationEnd 类。
    • [SPARK-50791][SQL] 修复状态存储错误处理中的 NPE
    • [SPARK-50705][SQL] 使 QueryPlan 无锁
    • [SPARK-49525][SS][CONNECT] 对服务器端流式处理查询 ListenerBus 侦听器的日志进行小幅改进
    • 操作系统安全更新。
  • 2025 年 2 月 11 日
    • 此版本包括修复了序列化已获救 XML 数据列时影响某些数据类型转换的问题。 受影响的数据类型是日期、非 NTZ 时间戳和小数,当启用 prefersDecimal 时。 若要了解有关已获救数据列的详细信息,请参阅什么是已获救数据列?
    • [SPARK-50492][SS] 修复在使用 dropDuplicatesWithinWatermark 后删除事件时间列时出现的 java.util.NoSuchElementException
    • [SPARK-51084][SQL] 为 negativeScaleNotAllowedError 分配适当的错误类
    • 操作系统安全更新。
  • 2024 年 12 月 10 日
    • 此版本中修复了可能导致 Delta 表上的主键在与后台自动压缩相关的某些边缘情况下被删除的问题。
    • [SPARK-50329][SQL] 修复 InSet$toString
    • 操作系统安全更新。
  • 2024 年 11 月 26 日
    • [SPARK-49615] [ML] 使所有 ML 功能转换器数据集架构验证都符合“spark.sql.caseSensitive”配置。
    • 操作系统安全更新。
  • 2024 年 11 月 5 日
    • [SPARK-48843] 使用 BindParameters 防止无限循环
    • [SPARK-49829] 修正优化在流与流联接中向状态存储添加输入时的 bug(更正修复)
    • [SPARK-49863][SQL] 修复 NormalizeFloatingNumbers 以保留嵌套结构的可空性
    • [BACKPORT] [SPARK-49326][SS] 对 Foreach 接收器用户函数错误的错误类进行分类
    • [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
    • [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
    • [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改混排
    • 操作系统安全更新。
  • 2024 年 10 月 22 日
    • [SPARK-48843] 使用 BindParameters 防止无限循环
    • [SPARK-49863][SQL] 修复 NormalizeFloatingNumbers 以保留嵌套结构的可空性
    • [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改混排
    • [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
    • [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
    • [BACKPORT] [SPARK-49326][SS] 对 Foreach 接收器用户函数错误的错误类进行分类
    • [SPARK-49829] 修正优化在流与流联接中向状态存储添加输入时的 bug(更正修复)
    • 操作系统安全更新。
  • 2024 年 10 月 10 日
    • [BACKPORT] [SPARK-49474][SS] 为 FlatMapGroupsWithState 用户函数错误定义错误类分类
    • [SPARK-49743][SQL] 在修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改架构字段
    • [SPARK-49688][CONNECT] 修复中断和执行计划之间的数据争用问题
  • 2024 年 9 月 25 日
    • [SPARK-48810][CONNECT] 会话停止() API 应是幂等的,如果会话已由服务器关闭,则不会失败
    • [SPARK-48719][SQL] 修复了 `RegrS` 的计算 bug...
    • [SPARK-49000][SQL] 通过扩展“RewriteDistinctAggregates”修复“select count(distinct 1) from t”,其中 t 是空表。
    • [SPARK-49628][SQL] 常量折叠应在计算前复制有状态的表达式
    • [SPARK-49492][CONNECT] 尝试在处于非活动状态的 ExecutionHolder 上重新附加
    • 操作系统安全更新。
  • 2024 年 9 月 17 日
    • [SPARK-49336][CONNECT] 截断 protobuf 消息时限制嵌套级别
    • [SPARK-43242][CORE] 修复了混排损坏诊断时抛出的“意外 BlockId 类型”错误
    • [SPARK-48463][ML] 使 Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor 支持嵌套输入列
    • [SPARK-49526][CONNECT] 在 ArtifactManager 中支持 Windows 样式路径
    • [SPARK-49409][CONNECT] 调整CONNECT_SESSION_PLAN_CACHE_SIZE的默认值
    • [SPARK-49366][CONNECT] 在数据帧列解析中将 Union 节点视为叶节点
  • 2024 年 8 月 29 日
    • [SPARK-49146][SS] 将由于附加模式流查询中水印缺失引起的断言错误转移到错误框架中
    • [SPARK-48862][PYTHON][CONNECT] 避免在未启用 INFO 级别时调用 _proto_to_string
    • [SPARK-49263][CONNECT] Spark Connect python 客户端:一致地处理布尔型数据帧读取器选项
  • 2024 年 8 月 14 日
    • [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
    • [SPARK-48706][PYTHON] 按较高顺序函数编写的 Python UDF 不应引发内部错误
    • [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
    • [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
    • [SPARK-49065][SQL] 旧版格式化器/解析器中重设基准必须支持非 JVM 默认的时区
    • [SPARK-48934][SS] Python 日期/时间类型因在 applyInPandasWithState 中设置超时而转换不正确
  • 2024 年 8 月 1 日
  • 2024 年 7 月 11 日
    • (行为变更)如果源表被覆盖,则针对 Delta 表缓存的数据帧现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用 .checkpoint() 在 DataFrame 的整个生命周期中持久保存表状态。
    • Snowflake JDBC 驱动程序已更新到版本 3.16.1。
    • 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
    • 在笔记本和作业的无服务器计算中,默认情况下会启用 ANSI SQL 模式。 请参阅 支持的 Spark 配置参数
    • 在读取数据时,如果要忽略无效的分区信息,可以将基于文件的数据源(如 Parquet、ORC、CSV 或 JSON)的 ignoreInvalidPartitionPaths 选项设置为 true。 例如:spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)。 也可以使用 SQL 配置 spark.sql.files.ignoreInvalidPartitionPaths。 但数据源选项优先于 SQL 配置。 默认情况下,此设置为 false。
    • [SPARK-48648][PYTHON][CONNECT] 使 SparkConnectClient.tags 正确设置为 threadlocal
    • [SPARK-48445][SQL] 不要将 UDF 与昂贵的子节点内联
    • [SPARK-48481][SQL][SS] 不要对流数据集应用 OptimizeOneRowPlan
    • [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
    • [SPARK-48503][SQL] 修复由于错误允许而在非等效列上分组的无效标量子查询
    • [SPARK-48100][SQL] 修复了跳过架构中未选择的嵌套结构字段的问题
    • [SPARK-48273][SQL] 修复 PlanWithUnresolvedIdentifier 的后期重写
    • [SPARK-48252][SQL] 在必要时更新 CommonExpressionRef
    • [SPARK-48475][PYTHON] 优化 PySpark 中的_get_jvm_function。
    • [SPARK-48292][CORE] 还原 [SPARK-39195] [SQL] 当提交的文件与任务状态不一致时,Spark OutputCommitCoordinator 应中止阶段
    • 操作系统安全更新。
  • 2024 年 6 月 17 日
    • applyInPandasWithState() 在具有标准访问模式的计算中可用。
    • 修复了使用 Photon TopK 的排名窗口优化错误地处理具有结构的分区的 bug。
    • [SPARK-48310][PYTHON][CONNECT] 缓存的属性必须返回副本
    • [SPARK-48276][PYTHON][CONNECT] 为 __repr__ 添加缺少的 SQLExpression 方法
    • [SPARK-48294][SQL] 处理 nestedTypeMissingElementTypeError 中的小写问题
    • 操作系统安全更新。
  • 2024 年 5 月 21 日
    • 行为变更)现在支持 dbutils.widgets.getAll(),以获取笔记本中的所有小组件值
    • 修复了 try_divide() 函数中的 bug,其中包含小数的输入导致意外异常。
    • [SPARK-48056][CONNECT][PYTHON] 如果引发SESSION_NOT_FOUND错误且未收到部分响应,则重新执行计划
    • [SPARK-48146][SQL] 修复 With 表达式子断言中的聚合函数
    • [SPARK-47986][CONNECT][PYTHON] 服务器关闭默认会话时无法创建新会话
    • [SPARK-48180][SQL] 修复使用 TABLE 参数的 UDTF 调用忘记多个 PARTITION/ORDER BY 表达式周围的括号的错误
    • [SPARK-48016][SQL] 修复了使用十进制时try_divide函数中的 bug
    • [SPARK-48197][SQL] 避免因无效的 lambda 函数而导致的断言错误
    • [SPARK-47994][SQL] 修复 SQLServer 中 CASE WHEN 列筛选器下推的 bug
    • [SPARK-48173][SQL] CheckAnalysis 应看到整个查询计划
    • [SPARK-48105][SS] 修复状态存储卸载和快照之间的争用条件
    • 操作系统安全更新。
  • 2024 年 5 月 9 日
    • 行为更改applyInPandasmapInPandas UDF 类型现在在运行 Databricks Runtime 14.3 及更高版本的共享访问模式计算上受支持。
    • [SPARK-47739][SQL] 注册 Avro 逻辑类型
    • [SPARK-47941] [SS] [Connect] 将 ForeachBatch 辅助角色初始化错误传播给 PySpark 用户
    • [SPARK-48010][SQL] 避免在 resolveExpression 中重复调用 conf.resolver
    • [SPARK-48044][PYTHON][CONNECT] 缓存 DataFrame.isStreaming
    • [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
    • [SPARK-47543][CONNECT][PYTHON] 从 Pandas DataFrame 将 dict 推断为 Mapype 以允许创建 DataFrame
    • [SPARK-47819][CONNECT][Cherry-pick-14.3] 使用异步回调进行执行清理
    • [SPARK-47764][CORE][SQL] 基于 ShuffleCleanupMode 清理混排依赖项
    • [SPARK-48018][SS] 修复在引发 KafkaException.couldNotReadOffsetRange 时,由于 null groupId 导致的参数缺失错误
    • [SPARK-47839][SQL] 修复 RewriteWithExpression 中的聚合 bug
    • [SPARK-47371] [SQL] XML:忽略 CDATA 中找到的行标记
    • [SPARK-47895][SQL] group by all 应保持幂等性
    • [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
    • 操作系统安全更新。
  • 2024 年 4 月 25 日
    • [SPARK-47543][CONNECT][PYTHON] 将 Pandas 数据帧中的dict推断为MapType,以允许创建数据帧
    • [SPARK-47694][CONNECT] 将最大消息大小设置为在客户端可配置
    • [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] 验证具有缓存架构的列名称
    • [SPARK-47862][PYTHON][CONNECT] 修复 proto 文件生成错误
    • 还原“[SPARK-47543][CONNECT][PYTHON] 将 dict 推断为来自 Pandas 数据帧的 MapType,以允许创建数据帧”
    • [SPARK-47704][SQL] 启用 spark.sql.json.enablePartialResults 时,JSON 分析失败并出现“java.lang.ClassCastException”
    • [SPARK-47812][CONNECT] 支持 ForEachBatch 辅助角色的 SparkSession 序列化
    • [SPARK-47818][CONNECT][Cherry-pick-14.3] 在 SparkConnectPlanner 中引入计划缓存以提高分析请求的性能
    • [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite 失败,计划无效
    • 操作系统安全更新。
  • 2024 年 4 月 11 日
    • 行为更改)为确保跨计算类型的行为一致,具有标准访问模式的计算上的 PySpark UDF 现在与无隔离和分配的群集上的 UDF 的行为匹配。 此更新包括以下可能会中断现有代码的更改:
      • 具有 string 返回类型的 UDF 不再隐式地将非 string 值转换为 string 值。 以前,具有 str 返回类型的 UDF 会使用 str() 函数包装返回值,而不考虑该返回值的实际数据类型。
      • 具有 timestamp 返回类型的 UDF 不再隐式地使用 timestamptimezone 应用转换。
      • Spark 群集配置 spark.databricks.sql.externalUDF.* 对于在具有标准访问模式的计算环境中运行的 PySpark UDFs 不再适用。
      • Spark 集群配置 spark.databricks.safespark.externalUDF.plan.limit 不再影响 PySpark UDF,从而消除了公共预览版中 PySpark UDF 每个查询限制为 5 个 UDF 的限制。
      • Spark 群集配置 spark.databricks.safespark.sandbox.size.default.mib 不再适用于标准访问模式下的计算节点上的 PySpark UDF。 相反,将使用系统上的可用内存。 若要限制 PySpark UDF 的内存,请使用 spark.databricks.pyspark.udf.isolation.memoryLimit,其最小值为 100m
    • 现在支持将 TimestampNTZ 数据类型用作具有 liquid 聚类分析的聚类分析列。 请参阅对表使用 liquid 聚类分析
    • [SPARK-47511][SQL] 通过重新分配 ID 对表达式进行规范化
    • [SPARK-47509][SQL] 阻止 lambda 和高阶函数中的子查询表达式
    • [SPARK-46990][SQL] 修复加载事件中心发出的空 Avro 文件的问题
    • [SPARK-47638][PS][CONNECT] 跳过 PS 中的列名称验证
    • 操作系统安全更新。
  • 2024 年 3 月 14 日
    • [SPARK-47135][SS] 为 Kafka 数据丢失异常实现错误类别
    • [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 辅助函数
    • [SPARK-47145][SQL] 将表标识符传递给 V2 策略的行数据源扫描执行模块。
    • [SPARK-47044][SQL] 为 JDBC 外部数据源添加执行的查询以解释输出
    • [SPARK-47167][SQL] 为 JDBC 匿名关系添加具体类
    • [SPARK-47070] 修复子查询重写后无效的聚合
    • [SPARK-47121][CORE] 在 StandaloneSchedulerBackend 关闭期间避免 RejectedExecutionExceptions
    • 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中发生死锁”
    • [SPARK-47125][SQL] 如果 Univocity 从不触发分析,则返回 null
    • [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier 应在表达式树中包含其他表达式
    • [SPARK-47129][CONNECT][SQL] 正确制定 ResolveRelations 缓存连接计划
    • [SPARK-47241][SQL] 修复 ExtractGenerator 的规则顺序问题
    • [SPARK-47035][SS][CONNECT] 客户端侦听器的协议
    • 操作系统安全更新。
  • 2024 年 2 月 29 日
    • 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
    • 创建具有已定义位置的架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 权限。
    • [SPARK-47071][SQL] 当 With 表达式包含特殊表达式时将其内联
    • [SPARK-47059][SQL] 附加 ALTER COLUMN v1 命令的错误上下文
    • [SPARK-46993][SQL] 修复会话变量的常量折叠
    • 操作系统安全更新。
  • 2024 年 1 月 3 日
    • [SPARK-46933] 将查询执行时间指标添加到使用 JDBCRDD 的连接器。
    • [SPARK-46763] 修复了 ReplaceDeduplicateWithAggregate 中重复属性的断言失败。
    • [SPARK-46954] XML:将 InputStreamReader 用 BufferedReader 包装。
    • [SPARK-46655] 跳过 DataFrame 方法中的查询上下文捕获。
    • [SPARK-44815] 缓存 df.schema 以避免额外的 RPC。
    • [SPARK-46952] XML:限制损坏记录的大小。
    • [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
    • [SPARK-46736] 在 protobuf 连接器中保留空消息字段。
    • [SPARK-45182] 在重试由校验和确定的父不确定阶段后忽略旧阶段的任务完成。
    • [SPARK-46414] 使用 prependBaseUri 呈现 javascript 导入。
    • [SPARK-46383] 通过减少驱动程序堆的 TaskInfo.accumulables()寿命来减少驱动程序堆使用量。
    • [SPARK-46861] 避免 DAGScheduler 中的死锁。
    • [SPARK-46954] XML:优化架构索引查找。
    • [SPARK-46676] dropDuplicatesWithinWatermark 不应在计划标准化过程中失败。
    • [SPARK-46644] 在 SQLMetric 中更改添加和合并以使用 isZero。
    • [SPARK-46731] 按状态数据源(读取器)管理状态存储提供程序实例。
    • [SPARK-46677] 修复 dataframe["*"] 分辨率。
    • [SPARK-46610] 当选项中没有键的值时,创建表应引发异常。
    • [SPARK-46941] 如果包含 SizeBasedWindowFunction,则无法为 top-k 计算插入窗口组限制节点。
    • [SPARK-45433] 修复 CSV/JSON 在时间戳不符合指定的 timestampFormat 时的模式推断问题。
    • [SPARK-46930] 为 Avro 中的 Union 类型字段添加对自定义前缀的支持。
    • [SPARK-46227] 回溯移植到 14.3。
    • [SPARK-46822] 在 jdbc 中将 jdbc 类型转换为 catalyst 类型时,遵循 spark.sql.legacy.charVarcharAsString。
    • 操作系统安全更新。

Databricks Runtime 13.3 LTS

请参阅 Databricks Runtime 13.3 LTS

  • 2025 年 6 月 17 日
    • 修复了 cloud_files_state 表值函数 (TVF) 不能用于跨管道读取流表的文件级状态的限制。
    • 操作系统安全更新。
  • 2025 年 6 月 3 日
    • 更新了 Python 库:
      • 加密从 3.4.8、37.0.1 到 37.0.1
      • platformdirs 已从 2.5.2、2.6.2 升级到 2.5.2
      • pyparsing 已从 2.4.7、3.0.9 升级到 3.0.9
      • 添加了 pip 22.2.2
      • 添加了 setuptools 63.4.1
      • 添加了 tomli 2.0.1
      • 添加了 wcwidth 0.2.5
      • 添加了 wheel 0.37.1
      • 已删除发行版 1.7.0
      • 已删除发行版信息 1.1+ubuntu0.2
      • 已删除 python-apt 2.4.0+ubuntu4
    • 更新了 Java 库:
      • com.github.fommil.netlib.native_ref-java 从 1.1、1.1-natives 更新到 1.1、1.1
      • com.github.fommil.netlib.native_system-java 从 1.1、1.1-natives 更新到 1.1、1.1
      • com.github.fommil.netlib.netlib-native_ref-linux-x86_64 从 1.1-natives 更新到 1.1
      • com.github.fommil.netlib.netlib-native_system-linux-x86_64 从 1.1-natives 更新到 1.1
      • io.netty.netty-transport-native-epoll 已从 4.1.87.Final、4.1.87.Final-linux-aarch_64、4.1.87.Final-linux-x86_64 升级到 4.1.87.Final、4.1.87.Final、4.1.87.Final
      • io.netty.netty-transport-native-kqueue 从 4.1.87.Final-osx-aarch_64、4.1.87.Final-osx-x86_64 更新到 4.1.87.Final、4.1.87.Final
      • org.apache.orc.orc-core 已从 1.8.4-shaded-protobuf 升级到 1.8.4
      • org.apache.orc.orc-mapreduce 已从 1.8.4-shaded-protobuf 升级到 1.8.4
      • software.amazon.cryptools.AmazonCorrettoCryptoProvider 从 1.6.1-linux-x86_64 到 1.6.1
    • [SPARK-52159][SQL] 正确处理 jdbc 方言的表存在检查
    • 操作系统安全更新。
  • 2025 年 5 月 20 日
    • 更新了 Java 库:
      • io.delta.delta-sharing-spark_2.12 已从 0.7.11 升级到 0.7.12
    • 操作系统安全更新。
  • 2025 年 4 月 22 日
    • [行为变更] Vacuum 操作现在会执行类似于其他操作的 Writer 协议检查,防止在从不兼容的较旧 DBR 版本运行时对具有更新功能的表进行意外清理。
    • 操作系统安全更新。
  • 2025 年 4 月 9 日
    • [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中传播 GetStructField 元数据
    • 操作系统安全更新。
  • 2025 年 3 月 11 日
    • 操作系统安全更新。
  • 2025 年 2 月 11 日
    • [SPARK-50492][SS] 修复在使用 dropDuplicatesWithinWatermark 后删除事件时间列时出现的 java.util.NoSuchElementException
    • [SPARK-45915][SQL] 处理 decimal(x, 0) 与 PromoteStrings 中的 IntegralType 相同
    • 操作系统安全更新。
  • 2024 年 12 月 10 日
    • 操作系统安全更新。
  • 2024 年 11 月 26 日
    • [SPARK-49615] [ML] 使所有 ML 功能转换器数据集架构验证都符合“spark.sql.caseSensitive”配置。
    • 操作系统安全更新。
  • 2024 年 11 月 5 日
    • [SPARK-48843] 使用 BindParameters 防止无限循环
    • [BACKPORT] [SPARK-49326][SS] 对 Foreach 接收器用户函数错误的错误类进行分类
    • [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改混排
    • 操作系统安全更新。
  • 2024 年 10 月 22 日
    • [SPARK-48843] 使用 BindParameters 防止无限循环
    • [BACKPORT] [SPARK-49326][SS] 对 Foreach 接收器用户函数错误的错误类进行分类
    • [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改混排
    • 操作系统安全更新。
  • 2024 年 10 月 10 日
    • [SPARK-49743][SQL] 在修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改架构字段
  • 2024 年 9 月 25 日
    • [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
    • [SPARK-48719][SQL] 修正当第一个参数为 null 时 RegrSlope 和 RegrIntercept 的计算错误
    • [SPARK-43242][CORE] 修复了混排损坏诊断时抛出的“意外 BlockId 类型”错误
    • [SPARK-49000][SQL] 通过扩展“RewriteDistinctAggregates”修复“select count(distinct 1) from t”,其中 t 是空表。
    • 操作系统安全更新。
  • 2024 年 9 月 17 日
    • [SPARK-49526][CONNECT] 在 ArtifactManager 中支持 Windows 样式路径
    • [SPARK-48463][ML] 使 Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor 支持嵌套输入列
    • 操作系统安全更新。
  • 2024 年 8 月 29 日
  • 2024 年 8 月 14 日
    • [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
    • [SPARK-49065][SQL] 旧版格式化器/解析器中重设基准必须支持非 JVM 默认的时区
    • [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
  • 2024 年 8 月 1 日
    • 此版本包括对 Spark Java 接口中的 ColumnVectorColumnarArray 类的错误修复。 在修复之前,当其中一个类的实例包含 ArrayIndexOutOfBoundsException 值时,可能会抛出 null 或返回不正确的数据。
    • [SPARK-47202][PYTHON] 修复了由于拼写错误导致包含时区信息的日期时间损坏的问题
    • [SPARK-48896][SPARK-48909][SPARK-48883] 向后移植 Spark ML 写入器修复
    • [SPARK-48463] 使 StringIndexer 支持嵌套输入列
    • 操作系统安全更新。
  • 2024 年 7 月 11 日
    • (行为变更)如果源表被覆盖,则针对 Delta 表缓存的数据帧现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用 .checkpoint() 在 DataFrame 的整个生命周期中持久保存表状态。
    • 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
    • [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
    • [SPARK-48292][CORE] 还原 [SPARK-39195] [SQL] 当提交的文件与任务状态不一致时,Spark OutputCommitCoordinator 应中止阶段
    • [SPARK-48503][SQL] 修复由于错误允许而在非等效列上分组的无效标量子查询
    • [SPARK-48481][SQL][SS] 不要对流数据集应用 OptimizeOneRowPlan
    • [SPARK-48475][PYTHON] 优化 PySpark 中的_get_jvm_function。
    • [SPARK-48273][SQL] 修复 PlanWithUnresolvedIdentifier 的后期重写
    • [SPARK-48445][SQL] 不要将 UDF 与昂贵的子节点内联
    • 操作系统安全更新。
  • 2024 年 6 月 17 日
    • [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
    • 操作系统安全更新。
  • 2024 年 5 月 21 日
  • 2024 年 5 月 9 日
    • [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
    • [SPARK-46822][SQL] 在 jdbc 中将 jdbc 类型转换为 catalyst 类型时,遵循 spark.sql.legacy.charVarcharAsString
    • [SPARK-47895][SQL] group by all 应保持幂等性
    • [SPARK-48018][SS] 修复在引发 KafkaException.couldNotReadOffsetRange 时,由于 null groupId 导致的参数缺失错误
    • [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
    • 操作系统安全更新。
  • 2024 年 4 月 25 日
    • [SPARK-44653][SQL] 非普通数据帧联合不应中断缓存
    • 杂项漏洞修复。
  • 2024 年 4 月 11 日
    • [SPARK-47509][SQL] 阻止 lambda 和高阶函数中的子查询表达式
    • 操作系统安全更新。
  • 2024 年 4 月 1 日
    • [SPARK-47385] 修复具有 Option 输入的元组编码器的问题。
    • [SPARK-38708][SQL] 将 Hive 元存储客户端升级到适用于 Hive 3.1 的 3.1.3 版本
    • [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
    • [SPARK-47368][SQL] 移除 ParquetRowConverter 中的 inferTimestampNTZ 配置检查
    • [SPARK-44252][SS] 定义新的错误类,并适用于从 DFS 加载状态失败的情况
    • [SPARK-47135][SS] 为 Kafka 数据丢失异常实现错误类别
    • [SPARK-47300][SQL] quoteIfNeeded 应该引用以数字开头的标识符
    • [SPARK-47305][SQL] 修复 PruneFilters,现可正确标记 LocalRelation 的 isStreaming 标志(如果计划同时包含批处理和流式处理)
    • [SPARK-47070] 修复子查询重写后无效的聚合
    • 操作系统安全更新。
  • 2024 年 3 月 14 日
    • [SPARK-47145][SQL] 将表标识符传递给 V2 策略的行数据源扫描执行模块。
    • [SPARK-47167][SQL] 为 JDBC 匿名关系添加具体类
    • [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 辅助函数
    • [SPARK-47044][SQL] 为 JDBC 外部数据源添加执行的查询以解释输出
    • [SPARK-47125][SQL] 如果 Univocity 从不触发分析,则返回 null
    • 操作系统安全更新。
  • 2024 年 2 月 29 日
    • 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
    • 创建具有已定义位置的架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 权限。
    • 操作系统安全更新。
  • 2024 年 2 月 8 日
    • 不支持对 Unity Catalog 具体化视图进行更改数据馈送 (CDF) 查询,并且尝试使用 Unity Catalog 具体化视图运行 CDF 查询将返回错误。 Unity Catalog 流式处理表支持对 Databricks Runtime 14.1 及更高版本中的非 AUTO CDC 表进行 CDF 查询。 Databricks Runtime 14.0 及更早版本中的 Unity Catalog 流式处理表不支持 CDF 查询。
    • [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
    • [SPARK-46933] 将查询执行时间指标添加到使用 JDBCRDD 的连接器。
    • [SPARK-45582] 确保在输出模式下进行流式处理聚合时,调用提交后不使用存储实例。
    • [SPARK-46396] 时间戳推理不应引发异常。
    • [SPARK-46861] 避免 DAGScheduler 中的死锁。
    • [SPARK-46941] 如果包含 SizeBasedWindowFunction,则无法为 top-k 计算插入窗口组限制节点。
    • 操作系统安全更新。
  • 2024 年 1 月 31 日
    • [SPARK-46610] 当选项中没有键的值时,创建表应引发异常。
    • [SPARK-46383] 通过减少 TaskInfo.accumulables()的生命周期来减少驱动程序堆使用量。
    • [SPARK-46600] 将 SqlConf 和 SqlApiConf 之间的共享代码移动到 SqlApiConfHelper。
    • [SPARK-46676] dropDuplicatesWithinWatermark 不应在计划标准化过程中失败。
    • [SPARK-46763] 修复了 ReplaceDeduplicateWithAggregate 中重复属性的断言失败。
    • 操作系统安全更新。
  • 2024 年 1 月 17 日
    • Photon 查询返回的解释计划的 shuffle 节点将更新为在广播联接的混排期间发生内存不足错误时添加 causedBroadcastJoinBuildOOM=true 标志。
    • 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
    • [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
    • [SPARK-46173] 在日期分析期间跳过 trimAll 调用。
    • [SPARK-46370] 修复更改列默认值后从表查询时的 bug。
    • [SPARK-46370] 修复更改列默认值后从表查询时的 bug。
    • [SPARK-46370] 修复更改列默认值后从表查询时的 bug。
    • [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中出现指数级爆炸。
    • [SPARK-46132] 支持为 RPC SSL 的 JKS 密钥使用密钥密码。
    • [SPARK-46602] 在视图/表不存在时,将 allowExisting 在视图创建中进行传播。
    • [SPARK-46249] 需要实例锁来获取 RocksDB 指标,以防止与后台操作发生竞争。
    • [SPARK-46417] 调用 hive.getTable 且 throwException 为 false 时,请勿失败。
    • [SPARK-46538] 修复了ALSModel.transform中的列引用不明确问题。
    • [SPARK-46478] 将 SPARK-43049 还原为将 oracle varchar(255) 用于字符串。
    • [SPARK-46250] 对 test_parity_listener 执行 deflake 操作。
    • [SPARK-46394] 修复 spark.sql.legacy.keepCommandOutputSchema 设置为 true 时包含特殊字符的架构的 spark.catalog.listDatabases() 问题。
    • [SPARK-46056] 使用 byteArrayDecimalType 默认值修复 Parquet 矢量化读取 NPE。
    • [SPARK-46145] 找不到表或视图时,spark.catalog.listTables 不会引发异常。
    • [SPARK-46466] 矢量化 parquet 读取器永远不应对时间戳 ntz 进行变基。
  • 2023 年 12 月 14 日
    • 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误处理和解释为通配符的问题
    • [SPARK-45920] group by ordinal 应保持幂等性。
    • [SPARK-44582] 跳过 SMJ 上的迭代器(如果已遭清理)。
    • [SPARK-45433] 修复 CSV/JSON 在时间戳不符合指定的 timestampFormat 时的模式推断问题。
    • [SPARK-45655] 允许 CollectMetrics 中的 AggregateFunctions 中的非确定性表达式。
    • 操作系统安全更新。
  • 2023 年 11 月 29 日
    • 安装了一个新包 pyarrow-hotfix 以修正 PyArrow RCE 漏洞。
    • Spark-snowflake 连接器已升级到 2.12.0。
    • [SPARK-44846] 删除了之后 RemoveRedundantAggregates的复杂分组表达式。
    • [SPARK-45544] 已将 SSL 支持集成到 TransportContext.
    • [SPARK-45892] 重构优化器计划验证以分离 validateSchemaOutputvalidateExprIdUniqueness
    • [SPARK-45730] 改进了ReloadingX509TrustManagerSuite的时间限制。
    • [SPARK-45859]ml.functions 中的 UDF 对象设为惰性。
    • 操作系统安全更新。
  • 2023 年 11 月 10 日
    • 在 Delta Lake 流式处理查询中,分区筛选器将在实施速率限制前进行下推操作,以提高利用率。
    • 更改了 Unity Catalog 流式处理表和具体化视图上的数据馈送查询以显示错误消息。
    • [SPARK-45545]SparkTransportConf 在创建时继承 SSLOptions
    • [SPARK-45584] 修复了 TakeOrderedAndProjectExec 子查询运行失败的问题。
    • [SPARK-45427] 添加了 RPC SSL 设置到SSLOptionsSparkTransportConf
    • [SPARK-45541] 已添加 SSLFactory
    • [SPARK-45430]FramelessOffsetWindowFunctionIGNORE NULLSoffset > rowCount 情况下不再失败。
    • [SPARK-45429] 添加了 SSL RPC 通信的帮助程序类。
    • [SPARK-44219] 为优化重写添加了针对每个规则的额外验证。
    • [SPARK-45543] 修复了这样一个问题:当其他窗口函数的窗口帧与类似排名的函数不同,InferWindowGroupLimit 就会引发问题。
    • 操作系统安全更新。
  • 2023 年 10 月 23 日
    • [SPARK-45256] 修复了写入值超过初始容量时失败的问题 DurationWriter
    • [SPARK-45419]通过删除较大版本的文件版本映射条目,避免在不同的rocksdb sst实例中重用rocksdb文件。
    • [SPARK-45426] 添加了对 ReloadingX509TrustManager 的支持。
    • 其他修复。
  • 2023 年 10 月 13 日
    • Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
    • 对于正索引和负索引,array_insert 函数是从 1 开始的;而在以前,对于负索引,它是从于 0 开始的。 现在,它在索引 -1 的输入数组末尾插入新元素。 若要还原以前的行为,请将 spark.sql.legacy.negativeIndexInArrayInsert 设置为 true
    • 修复了在使用自动加载程序进行 CSV 架构推理期间启用 ignoreCorruptFiles 时不忽略损坏的文件的问题。
    • 还原“[SPARK-42946]”。
    • [SPARK-42205] 更新了 JSON 协议,以删除任务或阶段启动事件中的可累积日志记录。
    • [SPARK-45178] 对于具有不支持的源的 Trigger.AvailableNow,回退到运行单个批处理,而不是使用包装器。
    • [SPARK-45316]ignoreCorruptFilesignoreMissingFiles添加新参数HadoopRDD以及NewHadoopRDD
    • [SPARK-44740] 修复了 Artifacts 的元数据值。
    • [SPARK-45360]SPARK_REMOTE初始化了 Spark 会话生成器配置。
    • [SPARK-44551] 编辑了要与 OSS 同步的注释。
    • [SPARK-45346] 在合并架构时,Parquet 架构推理采用的标志现在区分大小写。
    • [SPARK-44658]ShuffleStatus.getMapStatus 现在返回None,而不是返回Some(null)
    • [SPARK-44840]array_insert() 的负索引调整为从 1 开始。
  • 2023 年 9 月 14 日
    • [SPARK-44873] 添加了对 alter view Hive 客户端中嵌套列的支持。
    • [SPARK-44878] 关闭了写入管理器的 RocksDB 严格限制,以避免缓存完成时出现插入异常。
  • 2023 年 8 月 30 日
    • dbutils cp 命令 (dbutils.fs.cp) 经过优化,可以更快地进行复制。 通过这一改进,复制操作所需的时间最多可以减少到 1/100,这取决于文件大小。 此功能可在 Databricks 中可访问的所有云和文件系统中使用,包括 Unity Catalog 卷和 DBFS 装载。
    • [SPARK-44455]SHOW CREATE TABLE 结果中引用带有反引号的标识符。
    • [SPARK-44763] 修复了在包含间隔的二进制算术中将字符串显示为双精度浮点数的问题。
    • [SPARK-44871] 修复 percentile_disc 了行为。
    • [SPARK-44714] 放宽与查询相关的 LCA 解析限制。
    • [SPARK-44818] 修复了在 taskThread 初始化之前发出的挂起任务中断的争用。
    • [SPARK-44505] 为 DSv2 扫描中的列式支持添加了替代。
    • [SPARK-44479] 修复了从空结构类型进行的 protobuf 转换。
    • [SPARK-44718] 将内存模式配置的默认值与 ColumnVector 配置值 OffHeapMemoryMode 匹配。
    • [SPARK-42941] 添加了对 StreamingQueryListener Python 的支持。
    • [SPARK-44558] 导出 PySpark 的 Spark 连接日志级别。
    • [SPARK-44464] 修复了输出行以 Null 为首列值的 applyInPandasWithStatePythonRunner 的问题。
    • [SPARK-44643] 修复了字段为空行时的Row.__repr__问题。
    • 操作系统安全更新。

Databricks Runtime 12.2 LTS

请参阅 Databricks Runtime 12.2 LTS

  • 2025 年 6 月 17 日
    • 操作系统安全更新。
  • 2025 年 6 月 3 日
    • 更新了 Python 库:
      • certifi 已从 2019.11.28、2021.10.8 升级到 2021.10.8
      • chardet 已从 3.0.4、4.0.0 升级到 4.0.0
      • idna 已从 2.8、3.3 升级到 3.3
      • requests 已从 2.22.0、2.27.1 升级到 2.27.1
      • six 已从 1.14.0、1.16.0 升级到 1.16.0
      • urllib3 从 1.25.8、1.26.9 到 1.26.9
      • 添加了 pip 21.2.4
      • 添加了 setuptools 61.2.0
      • 添加了 tomli 1.2.2
      • 添加了 wcwidth 0.2.5
      • 添加了 wheel 0.37.0
      • 已删除发行版 1.4.0
      • 已删除发行版信息 0.23+ubuntu1.1
      • 已删除 python-apt 2.0.1+ubuntu0.20.4.1
    • 更新了 Java 库:
      • software.amazon.cryptools.AmazonCorrettoCryptoProvider 从 1.6.1-linux-x86_64 到 1.6.1
    • 操作系统安全更新。
  • 2025 年 5 月 20 日
    • [SPARK-42655][SQL] 不正确的不明确列引用错误
    • 操作系统安全更新。
  • 2025 年 4 月 22 日
    • [行为变更] Vacuum 操作现在会执行类似于其他操作的 Writer 协议检查,防止在从不兼容的较旧 DBR 版本运行时对具有更新功能的表进行意外清理。
    • 操作系统安全更新。
  • 2025 年 4 月 9 日
    • 操作系统安全更新。
  • 2025 年 3 月 11 日

    • 操作系统安全更新。
  • 2024 年 12 月 10 日

    • 操作系统安全更新。
  • 2024 年 11 月 26 日

    • 杂项漏洞修复。
  • 2024 年 10 月 10 日

    • [SPARK-49743][SQL] 在修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改架构字段
  • 2024 年 9 月 25 日

    • [SPARK-49000][SQL] 通过扩展“RewriteDistinctAggregates”修复“select count(distinct 1) from t”,其中 t 是空表。
    • [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
    • 杂项漏洞修复。
  • 2024 年 9 月 17 日

    • 操作系统安全更新。
  • 2024 年 8 月 29 日

    • 杂项漏洞修复。
  • 2024 年 8 月 14 日

    • [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
    • [SPARK-49065][SQL] 旧版格式化器/解析器中重设基准必须支持非 JVM 默认的时区
    • [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
    • [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
    • [SPARK-48463][ML] 使 StringIndexer 支持嵌套输入列
    • 操作系统安全更新。
  • 2024 年 8 月 1 日

  • 2024 年 8 月 1 日

    • 为了应用所需的安全修补程序,Databricks Runtime 12.2 LTS 中的 Python 版本从 3.9.5 升级到 3.9.19。
  • 2024 年 7 月 11 日

    • (行为变更)如果源表被覆盖,则针对 Delta 表缓存的数据帧现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用 .checkpoint() 在 DataFrame 的整个生命周期中持久保存表状态。
    • [SPARK-48481][SQL][SS] 不要对流数据集应用 OptimizeOneRowPlan
    • [SPARK-47070] 修复子查询重写后无效的聚合
    • [SPARK-42741] [SQL] 当文本为 null 时,请勿在二进制比较中将转换解包
    • [SPARK-48445][SQL] 不要将 UDF 与昂贵的子节点内联
    • [SPARK-48503][SQL] 修复由于错误允许而在非等效列上分组的无效标量子查询
    • [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
    • 操作系统安全更新。
  • 2024 年 6 月 17 日

    • [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
    • 杂项漏洞修复。
  • 2024 年 5 月 21 日

    • [SPARK-48105][SS] 修复状态存储卸载和快照之间的争用条件
    • 操作系统安全更新。
  • 2024 年 5 月 9 日

    • [SPARK-44251][SQL] 在完全外部 USING 联接中的联合联接键上正确设置“可为空”
    • [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
    • [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
    • [SPARK-48018][SS] 修复在引发 KafkaException.couldNotReadOffsetRange 时,由于 null groupId 导致的参数缺失错误
    • 操作系统安全更新。
  • 2024 年 4 月 25 日

    • 操作系统安全更新。
  • 2024 年 4 月 11 日

    • 操作系统安全更新。
  • 2024 年 4 月 1 日

    • [SPARK-47305][SQL] 修复 PruneFilters,现可正确标记 LocalRelation 的 isStreaming 标志(如果计划同时包含批处理和流式处理)
    • [SPARK-44252][SS] 定义新的错误类,并适用于从 DFS 加载状态失败的情况
    • [SPARK-47135][SS] 为 Kafka 数据丢失异常实现错误类别
    • [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
    • 操作系统安全更新。
  • 2024 年 3 月 14 日

    • [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 辅助函数
    • 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中发生死锁”
    • [SPARK-47125][SQL] 如果 Univocity 从不触发分析,则返回 null
    • [SPARK-47167][SQL] 为 JDBC 匿名关系添加具体类
    • 操作系统安全更新。
  • 2024 年 2 月 29 日

    • 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
    • 创建具有已定义位置的架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 权限。
    • [SPARK-45582][SS] 确保在输出模式流式处理聚合中调用提交后不使用存储实例
    • 操作系统安全更新。
  • 2024 年 2 月 13 日

    • [SPARK-46861] 避免 DAGScheduler 中的死锁。
    • [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
    • 操作系统安全更新。
  • 2024 年 1 月 31 日

    • [SPARK-46763] 修复了 ReplaceDeduplicateWithAggregate 中重复属性的断言失败。
    • 操作系统安全更新。
  • 2023 年 12 月 25 日

    • 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
    • [SPARK-39440] 添加配置以禁用事件时间线。
    • [SPARK-46132] 支持为 RPC SSL 的 JKS 密钥使用密钥密码。
    • [SPARK-46394] 修复 spark.sql.legacy.keepCommandOutputSchema 设置为 true 时包含特殊字符的架构的 spark.catalog.listDatabases() 问题。
    • [SPARK-46417] 调用 hive.getTable 且 throwException 为 false 时,请勿失败。
    • [SPARK-43067] 更正 Kafka 连接器中错误类资源文件的位置。
    • [SPARK-46249] 需要实例锁来获取 RocksDB 指标,以防止与后台操作发生竞争。
    • [SPARK-46602] 在视图/表不存在时,将 allowExisting 在视图创建中进行传播。
    • [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
    • [SPARK-46145] 找不到表或视图时,spark.catalog.listTables 不会引发异常。
    • [SPARK-46538] 修复了ALSModel.transform中的列引用不明确问题。
    • [SPARK-42852] 还原来自 EquivalentExpressions 的 NamedLambdaVariable 相关更改。
  • 2023 年 12 月 14 日

    • 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误处理和解释为通配符的问题
    • [SPARK-44582] 跳过 SMJ 上的迭代器(如果已遭清理)。
    • [SPARK-45920] group by ordinal 应保持幂等性。
    • [SPARK-45655] 允许 CollectMetrics 中的 AggregateFunctions 中的非确定性表达式。
    • 操作系统安全更新。
  • 2023 年 11 月 29 日

    • 安装了一个新包 pyarrow-hotfix 以修正 PyArrow RCE 漏洞。
    • 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误解释为通配符的问题。
    • [SPARK-42205] 移除了 StageTask 启动事件的可累积项日志记录。
    • [SPARK-44846] 删除了之后 RemoveRedundantAggregates的复杂分组表达式。
    • [SPARK-43718] 修复了联接中的 USING 键的可为 null 性。
    • [SPARK-45544] 已将 SSL 支持集成到 TransportContext.
    • [SPARK-43973] 结构化流式处理 UI 现在正确显示失败的查询。
    • [SPARK-45730] 改进了ReloadingX509TrustManagerSuite的时间限制。
    • [SPARK-45859]ml.functions 中的 UDF 对象设为惰性。
    • 操作系统安全更新。
  • 2023 年 11 月 14 日

    • 在 Delta Lake 流式处理查询中,分区筛选器将在实施速率限制前进行下推操作,以提高利用率。
    • [SPARK-45545]SparkTransportConf 在创建时继承 SSLOptions
    • [SPARK-45427] 添加了 RPC SSL 设置到SSLOptionsSparkTransportConf
    • [SPARK-45584] 修复了 TakeOrderedAndProjectExec 子查询运行失败的问题。
    • [SPARK-45541] 已添加 SSLFactory
    • [SPARK-45430]FramelessOffsetWindowFunctionIGNORE NULLSoffset > rowCount 情况下不再失败。
    • [SPARK-45429] 添加了 SSL RPC 通信的帮助程序类。
    • 操作系统安全更新。
  • 2023 年 10 月 24 日

    • [SPARK-45426] 添加了对 ReloadingX509TrustManager 的支持。
    • 其他修复。
  • 2023 年 10 月 13 日

    • Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
    • [SPARK-42553] 确保在时间间隔之后至少有一个时间单位。
    • [SPARK-45346] Parquet 架构推理在合并架构时遵循区分大小写的标志。
    • [SPARK-45178] 对于具有不支持的源的 Trigger.AvailableNow,回退到运行单个批处理,而不是使用包装器。
    • [SPARK-45084]StateOperatorProgress 将使用准确、充足的混排分区数。
  • 2023 年 9 月 12 日

    • [SPARK-44873] 添加了对 alter view Hive 客户端中嵌套列的支持。
    • [SPARK-44718] 将内存模式配置的默认值与 ColumnVector 配置值 OffHeapMemoryMode 匹配。
    • [SPARK-43799] 向 PySpark Protobuf API 添加了描述符二进制选项。
    • 其他修复。
  • 2023 年 8 月 30 日

    • [SPARK-44485]TreeNode.generateTreeString优化。
    • [SPARK-44818] 修复了在 taskThread 初始化之前发出的挂起任务中断的争用。
    • [SPARK-44871][11.3-13.0] 修复 percentile_disc 行为。
    • [SPARK-44714] 缓解了对查询的 LCA 解析的限制。
    • 操作系统安全更新。
  • 2023 年 8 月 15 日

    • [SPARK-44504] 维护任务在出现停止错误时清理已加载的提供程序。
    • [SPARK-44464] 修复了输出行以 applyInPandasWithStatePythonRunner 为首列值的 Null 的问题。
    • 操作系统安全更新。
  • 2023 年 7 月 29 日

    • 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时 dbutils.fs.ls() 返回 INVALID_PARAMETER_VALUE.LOCATION_OVERLAP的问题。
    • [SPARK-44199]CacheManager 不再不必要地刷新fileIndex
    • 操作系统安全更新。
  • 2023 年 7 月 24 日

    • [SPARK-44337] 修复了将任何字段设置为 Any.getDefaultInstance 导致分析错误的问题。
    • [SPARK-44136] 修复了 StateManager 在执行程序中而不是 FlatMapGroupsWithStateExec 中的驱动程序中具体化的问题。
    • 操作系统安全更新。
  • 2023 年 6 月 23 日

    • 操作系统安全更新。
  • 2023 年 6 月 15 日

    • 已光子化 approx_count_distinct
    • Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
    • [SPARK-43779]ParseToDate 现在在主线程中加载EvalMode
    • [SPARK-43156][SPARK-43098] 扩展了关闭 decorrelateInnerQuery 时进行的标量子查询计数错误测试。
    • 操作系统安全更新。
  • 2023 年 6 月 2 日

    • failOnUnknownFields 模式下的 JSON 分析程序丢弃 DROPMALFORMED 模式下的记录,并在 FAILFAST 模式下直接失败。
    • 使用 SHALLOW CLONE Apache Iceberg 和 Apache Parquet 提高增量更新的性能。
    • 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
    • [SPARK-43404] 为了避免 ID 不匹配错误,跳过重用 RocksDB 状态存储同一版本的 sst 文件。
    • [SPARK-43413][11.3-13.0] 修复了子查询 INListQuery 的可空性。
    • [SPARK-43522] 修复了使用数组索引创建结构列名的问题。
    • [SPARK-43541] 在解析表达式和缺失列时传播所有 Project 标记。
    • [SPARK-43527] 已在 PySpark 中修复 catalog.listCatalogs
    • [SPARK-43123] 内部字段元数据不再泄漏到目录。
    • [SPARK-43340] 修复了事件日志中缺少的堆栈跟踪字段。
    • [SPARK-42444]DataFrame.drop 现在正确处理重复的列。
    • [SPARK-42937]PlanSubqueries 现在将 InSubqueryExec#shouldBroadcast 设置为 true。
    • [SPARK-43286] 更新了 aes_encrypt CBC 模式,使其生成随机 IV。
    • [SPARK-43378]deserializeFromChunkedBuffer中正确关闭流对象
  • 2023 年 5 月 17 日

    • 通过动态调整批大小来扫描结构异常的文件时,Parquet 扫描现在对 OOM 具有强大的性能。 对文件元数据进行分析,以预先降低批处理大小,并在任务重试时再次降低,充当最后一道安全防线。
    • 如果仅使用 failOnUnknownFields 选项或者在 failOnNewColumns 架构演化模式下使用自动加载程序读取 Avro 文件,则具有不同数据类型的列将被读取为 null,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用 rescuedDataColumn 选项。
    • 自动加载程序现在会执行以下操作。
      • 正确读取,并且不再补救 IntegerShortByte 类型(如果提供了这些类型之一),但 Avro 文件建议使用其它两种类型之一。
      • 防止将间隔类型解读为日期或时间戳类型,以避免获取错误的日期。
      • 防止读取精度较低的 Decimal 类型。
    • [SPARK-43172] 公开 Spark 连接客户端的主机和令牌。
    • [SPARK-43293]__qualified_access_only 在普通列中忽略。
    • [SPARK-43098] 修复了按子句对标量子查询进行分组时的正确性 COUNT bug。
    • [SPARK-43085] 支持多部件表名称的列 DEFAULT 分配。
    • [SPARK-43190]ListQuery.childOutput 现在与辅助输出保持一致。
    • [SPARK-43192] 删除了用户代理字符集验证。
    • 操作系统安全更新。
  • 2023 年 4 月 25 日

    • 如果仅使用 failOnUnknownFields 选项或者在 failOnNewColumns 架构演化模式下使用自动加载程序读取 Parquet 文件,则具有不同数据类型的列将被读取为 null,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用 rescuedDataColumn 选项。
    • 如果提供了其中某种数据类型,自动加载程序现在可以正确读取,而不再补救 IntegerShortByte 类型。 Parquet 文件建议使用其他两种类型之一。 如果先前已启用补救数据列,则数据类型不匹配会导致补救列,即使这些列是可读的。
    • [SPARK-43009]使用sql()常量参数化Any
    • [SPARK-42406] 通过删除字段来终止 Protobuf 递归字段
    • [SPARK-43038] 通过 aes_encrypt()/aes_decrypt() 支持 CBC 模式
    • [SPARK-42971]当工作节点处理workdir事件时,如果appDirs为 null,则更改为打印WorkDirCleanup
    • [SPARK-43018] 修复含有时间戳文本的 INSERT 命令的 bug
    • 操作系统安全更新。
  • 2023 年 4 月 11 日

    • SYNC 命令中支持旧数据源格式。
    • 修复存储库外部的笔记本中的 %autoreload 行为问题。
    • 修复了在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环的问题。
    • [SPARK-42928] 使 resolvePersistentFunction 同步。
    • [SPARK-42936] 修复当子句可以直接由其子聚合解析时的 LCan 问题。
    • [SPARK-42967] 修复了任务在阶段取消后启动时的问题。
    • 操作系统安全更新。
  • 2023 年 3 月 29 日

    • Databricks SQL 现在支持在创建表时或之后为 Delta Lake 表的列指定默认值。 后续的 INSERTUPDATEDELETEMERGE 命令可以使用显式 DEFAULT 关键字引用任何列的默认值。 此外,如果任何 INSERT 赋值具有列比目标表更少的显式列表,则相应的列默认值将替换其余列(如果未指定默认值,则替换为 NULL)。

      例如:

      CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE());
      INSERT INTO t VALUES (0, DEFAULT);
      INSERT INTO t VALUES (1, DEFAULT);
      SELECT first, second FROM t;
      > 0, 2023-03-28
      1, 2023-03-28z
      
    • 自动加载程序现在对 Trigger.AvailableNow 流启动至少一个同步 RocksDB 日志清理操作,确定可以定期清理检查点,以快速运行自动加载程序流。 这可能会导致某些流在关闭之前花费更长时间,但在未来的运行中会节省存储成本,并改善自动加载程序的体验。

    • 现在可以使用 DeltaTable.addFeatureSupport(feature_name) 修改 Delta 表以添加表功能的支持。

    • [SPARK-42794] 将 lockAcquireTimeoutMs 增加到 2 分钟以获取结构流中的 RocksDB 状态存储

    • [SPARK-42521] 使用数量少于目标表的列的用户指定列表为 INSERT 添加 NULL

    • [SPARK-42702][SPARK-42623] 支持子查询和 CTE 中的参数化查询

    • [SPARK-42668] 尝试关闭 HDFSStateStoreProvider 中的压缩流停止时捕获异常

    • [SPARK-42403] JsonProtocol 应处理 null JSON 字符串

  • 2023 年 3 月 8 日

    • 错误消息“无法初始化配置”已得到改进,将为客户提供更多上下文。
    • 使用表属性向 Delta 表添加功能的术语发生了变化。 首选语法现在是 'delta.feature.featureName'='supported' 而不是 'delta.feature.featureName'='enabled'。 为了实现后向兼容性,现在仍可使用 'delta.feature.featureName'='enabled',并且今后可继续使用。
    • 从此版本开始,可以使用附加表属性 delta.ignoreProtocolDefaults 创建/替换表,以忽略与协议相关的 Spark 配置,其中包括默认读取器和写入器版本,以及默认支持的表功能。
    • [SPARK-42070] 将 Mask 函数参数的默认值从 -1 更改为 NULL
    • [SPARK-41793] 范围子句针对较大小数定义的时间范围结果不正确
    • [SPARK-42484] UnsafeRowUtils 改进错误消息
    • [SPARK-42516] 创建视图时始终捕获会话时区配置
    • [SPARK-42635] 修复 TimestampAdd 表达式。
    • [SPARK-42622] 关闭值中的替换
    • [SPARK-42534] 修复了 DB2Dialect Limit 子句
    • [SPARK-42121] 添加内置表值函数 posexplode、posexplode_outer、json_tuple和堆栈
    • [SPARK-42045] ANSI SQL 模式::当发生微量/少量/大量整数溢出时,Round/Bround 应返回错误
    • 操作系统安全更新。

Databricks Runtime 11.3 LTS

请参阅 Databricks Runtime 11.3 LTS

  • 2025 年 6 月 17 日
    • 操作系统安全更新。
  • 2025 年 6 月 3 日
    • 更新了 Python 库:
      • certifi 已从 2019.11.28、2021.10.8 升级到 2021.10.8
      • chardet 已从 3.0.4、4.0.0 升级到 4.0.0
      • idna 已从 2.8、3.3 升级到 3.2
      • requests 已从 2.22.0、2.26.0 升级到 2.26.0
      • six 已从 1.14.0、1.16.0 升级到 1.16.0
      • urllib3 从 1.25.8、1.26.7 到 1.26.7
      • 添加了 pip 21.2.4
      • 添加了 setuptools 58.0.4
      • 添加了 tomli 2.0.1
      • 添加了 wcwidth 0.2.5
      • 添加了 wheel 0.37.0
      • 已删除发行版 1.4.0
      • 已删除发行版信息 0.23+ubuntu1.1
      • 已删除 python-apt 2.0.1+ubuntu0.20.4.1
    • 操作系统安全更新。
  • 2025 年 5 月 20 日
    • [SPARK-42655][SQL] 不正确的不明确列引用错误
    • 操作系统安全更新。
  • 2025 年 4 月 22 日
    • [行为变更] Vacuum 操作现在会执行类似于其他操作的 Writer 协议检查,防止在从不兼容的较旧 DBR 版本运行时对具有更新功能的表进行意外清理。
    • 操作系统安全更新。
  • 2025 年 4 月 9 日
    • 操作系统安全更新。
  • 2025 年 3 月 5 日
    • 操作系统安全更新。
  • 2025 年 2 月 11 日
  • 2024 年 12 月 10 日
    • 操作系统安全更新。
  • 2024 年 11 月 26 日
    • 杂项漏洞修复。
  • 2024 年 10 月 10 日
    • 杂项漏洞修复。
  • 2024 年 9 月 25 日
    • [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
    • [SPARK-49000][SQL] 通过扩展“RewriteDistinctAggregates”修复“select count(distinct 1) from t”,其中 t 是空表。
    • 杂项漏洞修复。
  • 2024 年 9 月 17 日
    • 操作系统安全更新。
  • 2024 年 8 月 29 日
  • 2024 年 8 月 14 日
    • [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
    • [SPARK-49065][SQL] 旧版格式化器/解析器中重设基准必须支持非 JVM 默认的时区
    • [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
    • [SPARK-48463][ML] 使 StringIndexer 支持嵌套输入列
    • 操作系统安全更新。
  • 2024 年 8 月 1 日
  • 2024 年 8 月 1 日
    • 为了应用所需的安全修补程序,Databricks Runtime 11.3 LTS 中的 Python 版本从 3.9.5 升级到 3.9.19。
  • 2024 年 7 月 11 日
    • [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
    • [SPARK-47070] 修复子查询重写后无效的聚合
    • 操作系统安全更新。
  • 2024 年 6 月 17 日
    • 操作系统安全更新。
  • 2024 年 5 月 21 日
    • [SPARK-48105][SS] 修复状态存储卸载和快照之间的争用条件
    • 操作系统安全更新。
  • 2024 年 5 月 9 日
    • [SPARK-48018][SS] 修复在引发 KafkaException.couldNotReadOffsetRange 时,由于 null groupId 导致的参数缺失错误
    • [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
    • [SPARK-44251][SQL] 在完全外部 USING 联接中的联合联接键上正确设置“可为空”
    • 操作系统安全更新。
  • 2024 年 4 月 25 日
    • 操作系统安全更新。
  • 2024 年 4 月 11 日
    • 操作系统安全更新。
  • 2024 年 4 月 1 日
    • [SPARK-44252][SS] 定义新的错误类,并适用于从 DFS 加载状态失败的情况
    • [SPARK-47135][SS] 为 Kafka 数据丢失异常实现错误类别
    • 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中发生死锁”
    • [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
    • 操作系统安全更新。
  • 2024 年 3 月 14 日
    • [SPARK-47167][SQL] 为 JDBC 匿名关系添加具体类
    • [SPARK-47125][SQL] 如果 Univocity 从不触发分析,则返回 null
    • 操作系统安全更新。
  • 2024 年 2 月 29 日
    • 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
    • [SPARK-45582][SS] 确保在输出模式流式处理聚合中调用提交后不使用存储实例
  • 2024 年 2 月 13 日
    • [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
    • [SPARK-46861] 避免 DAGScheduler 中的死锁。
    • 操作系统安全更新。
  • 2024 年 1 月 31 日
    • 操作系统安全更新。
  • 2023 年 12 月 25 日
    • 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
    • [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
    • [SPARK-46602] 在视图/表不存在时,将 allowExisting 在视图创建中进行传播。
    • [SPARK-46394] 修复 spark.sql.legacy.keepCommandOutputSchema 设置为 true 时包含特殊字符的架构的 spark.catalog.listDatabases() 问题。
    • [SPARK-46538] 修复了ALSModel.transform中的列引用不明确问题。
    • [SPARK-39440] 添加配置以禁用事件时间线。
    • [SPARK-46249] 需要实例锁来获取 RocksDB 指标,以防止与后台操作发生竞争。
    • [SPARK-46132] 支持为 RPC SSL 的 JKS 密钥使用密钥密码。
  • 2023 年 12 月 14 日
    • 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误处理和解释为通配符的问题
    • 操作系统安全更新。
  • 2023 年 11 月 29 日
    • 安装了一个新包 pyarrow-hotfix 以修正 PyArrow RCE 漏洞。
    • 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误解释为通配符的问题。
    • [SPARK-43973] 结构化流式处理 UI 现在正确显示失败的查询。
    • [SPARK-45730] 改进了ReloadingX509TrustManagerSuite的时间限制。
    • [SPARK-45544] 已将 SSL 支持集成到 TransportContext.
    • [SPARK-45859]ml.functions 中的 UDF 对象设为惰性。
    • [SPARK-43718] 修复了联接中的 USING 键的可为 null 性。
    • [SPARK-44846] 删除了之后 RemoveRedundantAggregates的复杂分组表达式。
    • 操作系统安全更新。
  • 2023 年 11 月 14 日
    • 在 Delta Lake 流式处理查询中,分区筛选器将在实施速率限制前进行下推操作,以提高利用率。
    • [SPARK-42205] 在阶段和任务启动事件中移除了日志累加器。
    • [SPARK-45545]SparkTransportConf 在创建时继承 SSLOptions
    • 还原 [SPARK-33861]
    • [SPARK-45541] 已添加 SSLFactory
    • [SPARK-45429] 添加了 SSL RPC 通信的帮助程序类。
    • [SPARK-45584] 修复了 TakeOrderedAndProjectExec 子查询运行失败的问题。
    • [SPARK-45430]FramelessOffsetWindowFunctionIGNORE NULLSoffset > rowCount 情况下不再失败。
    • [SPARK-45427] 添加了 RPC SSL 设置到SSLOptionsSparkTransportConf
    • 操作系统安全更新。
  • 2023 年 10 月 24 日
    • [SPARK-45426] 添加了对 ReloadingX509TrustManager 的支持。
    • 其他修复。
  • 2023 年 10 月 13 日
    • Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
    • [SPARK-45178] 对于具有不支持的源的 Trigger.AvailableNow,回退到运行单个批处理,而不是使用包装器。
    • [SPARK-45084]StateOperatorProgress 将使用准确、充足的混排分区数。
    • [SPARK-45346] 在合并架构时,Parquet 架构推理采用的标志现在区分大小写。
    • 操作系统安全更新。
  • 2023 年 9 月 10 日
    • 其他修复。
  • 2023 年 8 月 30 日
    • [SPARK-44818] 修复了在 taskThread 初始化之前发出的挂起任务中断的争用。
    • [SPARK-44871][11.3-13.0] 修复 percentile_disc 行为。
    • 操作系统安全更新。
  • 2023 年 8 月 15 日
    • [SPARK-44485]TreeNode.generateTreeString优化。
    • [SPARK-44504] 维护任务在出现停止错误时清理已加载的提供程序。
    • [SPARK-44464] 修复了输出行以 applyInPandasWithStatePythonRunner 为首列值的 Null 的问题。
    • 操作系统安全更新。
  • 2023 年 7 月 27 日
    • 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时 dbutils.fs.ls() 返回 INVALID_PARAMETER_VALUE.LOCATION_OVERLAP的问题。
    • [SPARK-44199]CacheManager 不再不必要地刷新fileIndex
    • 操作系统安全更新。
  • 2023 年 7 月 24 日
    • [SPARK-44136] 修复了 StateManager 可能会在执行程序中而不是 FlatMapGroupsWithStateExec 的驱动程序中具体化的问题。
    • 操作系统安全更新。
  • 2023 年 6 月 23 日
    • 操作系统安全更新。
  • 2023 年 6 月 15 日
    • 已光子化 approx_count_distinct
    • Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
    • [SPARK-43779]ParseToDate 现在在主线程中加载EvalMode
    • [SPARK-40862] 支持 RewriteCorrelatedScalarSubquery 中的非聚合子查询
    • [SPARK-43156][SPARK-43098] 扩展了关闭 decorrelateInnerQuery 时进行的标量子查询计数 bug 测试。
    • [SPARK-43098] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug
    • 操作系统安全更新。
  • 2023 年 6 月 2 日
    • failOnUnknownFields 模式下的 JSON 分析程序丢弃 DROPMALFORMED 模式下的记录,并在 FAILFAST 模式下直接失败。
    • 使用 SHALLOW CLONE Apache Iceberg 和 Apache Parquet 提高增量更新的性能。
    • 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
    • [SPARK-43404]避免为同一版本的 RocksDB 状态存储重用 sst 文件,以防止出现 ID 不匹配错误。
    • [SPARK-43527] 已在 PySpark 中修复 catalog.listCatalogs
    • [SPARK-43413][11.3-13.0] 修复了子查询 INListQuery 的可空性。
    • [SPARK-43340] 修复了事件日志中缺少的堆栈跟踪字段。

Databricks Runtime 10.4 LTS

请参阅 Databricks Runtime 10.4 LTS

  • 2025 年 6 月 17 日
    • 操作系统安全更新。
  • 2025 年 6 月 3 日
    • 更新了 Python 库:
      • certifi 已从 2019.11.28、2020.12.5 升级到 2020.12.5
      • chardet 已从 3.0.4、4.0.0 升级到 4.0.0
      • idna 已从 2.10、2.8 升级到 2.10
      • requests 已从 2.22.0、2.25.1 升级到 2.25.1
      • six 从 1.14.0、1.15.0 升级到 1.15.0
      • urllib3 已从 1.25.11、1.25.8 升级到 1.25.11
      • 添加了 pip 21.0.1
      • 添加了 setuptools 52.0.0
      • 添加了 wcwidth 0.2.5
      • 添加了 wheel 0.36.2
      • 已删除发行版 1.4.0
      • 已删除发行版信息 0.23+ubuntu1.1
      • 已删除 python-apt 2.0.1+ubuntu0.20.4.1
    • 操作系统安全更新。
  • 2025 年 5 月 20 日
    • 操作系统安全更新。
  • 2025 年 4 月 22 日
    • 操作系统安全更新。
  • 2025 年 4 月 9 日
    • 操作系统安全更新。
  • 2025 年 3 月 11 日
    • 操作系统安全更新。
  • 2025 年 2 月 11 日
    • 此版本修复了一个边缘情况,即增量 CLONE 可能会重新复制从源表复制到目标表的文件。 请参阅克隆 Azure Databricks 上的表
    • 操作系统安全更新。
  • 2024 年 12 月 10 日
    • 操作系统安全更新。
  • 2024 年 11 月 26 日
    • 操作系统安全更新。
  • 2024 年 11 月 5 日
    • 操作系统安全更新。
  • 2024 年 10 月 22 日
    • 操作系统安全更新。
  • 2024 年 10 月 10 日
    • 操作系统安全更新。
  • 2024 年 9 月 25 日
    • [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
    • [SPARK-49000][SQL] 通过扩展“RewriteDistinctAggregates”修复“select count(distinct 1) from t”,其中 t 是空表。
    • 操作系统安全更新。
  • 2024 年 9 月 17 日
    • 操作系统安全更新。
  • 2024 年 8 月 29 日
    • [SPARK-49065][SQL] 旧版格式化器/解析器中重设基准必须支持非 JVM 默认的时区
  • 2024 年 8 月 14 日
  • 2024 年 8 月 1 日
  • 2024 年 7 月 11 日
    • [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
    • 操作系统安全更新。
  • 2024 年 6 月 17 日
    • 操作系统安全更新。
  • 2024 年 5 月 21 日
    • [SPARK-48105][SS] 修复状态存储卸载和快照之间的争用条件
    • 操作系统安全更新。
  • 2024 年 5 月 9 日
    • [SPARK-48018][SS] 修复在引发 KafkaException.couldNotReadOffsetRange 时,由于 null groupId 导致的参数缺失错误
    • [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
    • [SPARK-44251][SQL] 在完全外部 USING 联接中的联合联接键上正确设置“可为空”
    • 操作系统安全更新。
  • 2024 年 4 月 25 日
    • 操作系统安全更新。
  • 2024 年 4 月 11 日
    • 操作系统安全更新。
  • 2024 年 4 月 1 日
    • [SPARK-47135][SS] 为 Kafka 数据丢失异常实现错误类别
    • [SPARK-44252][SS] 定义新的错误类,并适用于从 DFS 加载状态失败的情况
    • [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
    • 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中发生死锁”
    • 操作系统安全更新。
  • 2024 年 3 月 14 日
    • [SPARK-47125][SQL] 如果 Univocity 从不触发分析,则返回 null
    • 操作系统安全更新。
  • 2024 年 2 月 29 日
    • 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
    • [SPARK-45582][SS] 确保在输出模式流式处理聚合中调用提交后不使用存储实例
    • 操作系统安全更新。
  • 2024 年 2 月 13 日
    • [SPARK-46861] 避免 DAGScheduler 中的死锁。
    • 操作系统安全更新。
  • 2024 年 1 月 31 日
    • 操作系统安全更新。
  • 2023 年 12 月 25 日
    • 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
    • [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
    • [SPARK-46538] 修复了ALSModel.transform中的列引用不明确问题。
    • [SPARK-39440] 添加配置以禁用事件时间线。
    • [SPARK-46132] 支持为 RPC SSL 的 JKS 密钥使用密钥密码。
  • 2023 年 12 月 14 日
    • 操作系统安全更新。
  • 2023 年 11 月 29 日
    • 安装了一个新包 pyarrow-hotfix 以修正 PyArrow RCE 漏洞。
    • [SPARK-45544] 已将 SSL 支持集成到 TransportContext.
    • [SPARK-45859]ml.functions 中的 UDF 对象设为惰性。
    • [SPARK-43718] 修复了联接中的 USING 键的可为 null 性。
    • [SPARK-45730] 改进了ReloadingX509TrustManagerSuite的时间限制。
    • [SPARK-42205] 在阶段和任务启动事件中移除了日志累加器。
    • [SPARK-44846] 删除了之后 RemoveRedundantAggregates的复杂分组表达式。
    • 操作系统安全更新。
  • 2023 年 11 月 14 日
  • 2023 年 10 月 24 日
    • [SPARK-45426] 添加了对 ReloadingX509TrustManager 的支持。
    • 操作系统安全更新。
  • 2023 年 10 月 13 日
    • [SPARK-45084]StateOperatorProgress 将使用准确、充足的混排分区数。
    • [SPARK-45178] 对于具有不支持的源的 Trigger.AvailableNow,回退到运行单个批处理,而不是使用包装器。
    • 操作系统安全更新。
  • 2023 年 9 月 10 日
    • 其他修复。
  • 2023 年 8 月 30 日
    • [SPARK-44818] 修复了在 taskThread 初始化之前发出的挂起任务中断的争用。
    • 操作系统安全更新。
  • 2023 年 8 月 15 日
    • [SPARK-44504] 维护任务在出现停止错误时清理已加载的提供程序。
    • [SPARK-43973] 结构化流式处理 UI 现在正确显示失败的查询。
    • 操作系统安全更新。
  • 2023 年 6 月 23 日
    • 操作系统安全更新。
  • 2023 年 6 月 15 日
    • Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
    • [SPARK-43098] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug
    • [SPARK-40862] 支持 RewriteCorrelatedScalarSubquery 中的非聚合子查询
    • [SPARK-43156][SPARK-43098] 扩展了关闭 decorrelateInnerQuery 时进行的标量子查询计数测试。
    • 操作系统安全更新。
  • 2023 年 6 月 2 日
    • failOnUnknownFields 模式下的 JSON 分析程序丢弃 DROPMALFORMED 模式下的记录,并在 FAILFAST 模式下直接失败。
    • 修复了 JSON 恢复数据解析中的问题,以防止出现 UnknownFieldException
    • 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
    • [SPARK-43404] 为了避免 ID 不匹配错误,跳过重用 RocksDB 状态存储同一版本的 sst 文件。
    • [SPARK-43413] 修复了 IN 子查询 ListQuery 的为 Null 性。
    • 操作系统安全更新。
  • 2023 年 5 月 17 日
    • 通过动态调整批大小来扫描结构异常的文件时,Parquet 扫描现在对 OOM 具有强大的性能。 对文件元数据进行分析,以预先降低批处理大小,并在任务重试时再次降低,充当最后一道安全防线。
    • [SPARK-41520] 拆分 AND_OR 树模式以分隔 ANDOR
    • [SPARK-43190]ListQuery.childOutput 现在与辅助输出保持一致。
    • 操作系统安全更新。
  • 2023 年 4 月 25 日
    • [SPARK-42928] 进行 resolvePersistentFunction 同步。
    • 操作系统安全更新。
  • 2023 年 4 月 11 日
    • 修复了在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环的问题。
    • [SPARK-42937]PlanSubqueries 现在将 InSubqueryExec#shouldBroadcast 设置为 true。
    • [SPARK-42967] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId 问题。
  • 2023 年 3 月 29 日
    • [SPARK-42668] 尝试关闭 HDFSStateStoreProvider 中的压缩流停止时捕获异常
    • [SPARK-42635] 修复 ...
    • 操作系统安全更新。
  • 2023 年 3 月 14 日
    • [SPARK-41162] 修复了使用聚合的自联接的反联接和半联接
    • [SPARK-33206] 修复了对小型索引文件的混排索引缓存权重计算问题
    • [SPARK-42484]UnsafeRowUtils改进了错误消息
    • 其他修复。
  • 2023 年 2 月 28 日
    • 支持 yyyy-MM-dd date_format 的生成列。 此项更改支持在生成列中根据 yyyy-MM-dd date_format 进行分区修剪。
    • 用户现在可以使用 Databricks Runtime 9.1 LTS 或更高版本读取和写入需要读取器版本 3 和写入器版本 7 的特定 Delta 表。 要使操作成功,当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
    • 支持 yyyy-MM-dd date_format 的生成列。 此项更改支持在生成列中根据 yyyy-MM-dd date_format 进行分区修剪。
    • 操作系统安全更新。
  • 2023 年 2 月 16 日
    • [SPARK-30220] 支持在 Filter 节点外部使用 Exists/In 子查询
    • 操作系统安全更新。
  • 2023 年 1 月 31 日
    • JDBC 表的表类型现在默认为 EXTERNAL。
  • 2023 年 1 月 18 日
    • Azure Synapse 连接器会在列名称包含无效字符(例如空格或分号)时返回更具描述性的错误消息。 在这种情况下,将返回以下消息:Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
    • [SPARK-38277] 在 RocksDB 状态存储提交后清除写入批
    • [SPARK-41199] 修复了 DSv1 流式处理源和 DSv2 流式处理源共同使用时的指标问题
    • [SPARK-41198] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标。
    • [SPARK-41339] 关闭并重新创建 RocksDB 写入批而不是仅仅清除。
    • [SPARK-41732] 对 SessionWindowing 规则应用基于树模式的修剪。
    • 操作系统安全更新。
  • 2022 年 11 月 29 日
    • 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
      • csvignoreleadingwhitespace,设置为 true 时,如果 tempformat 设置为 CSVCSV GZIP,则会在写入期间从值中移除前导空格。 当 config 设置为 false 时保留空格。 默认情况下,该值为 true
      • csvignoretrailingwhitespace 设置为 true 时,如果 tempformat 被设置为 CSVCSV GZIP,在写入期间会从值中移除尾随空格。 当 config 设置为 false 时保留空格。 默认情况下,该值为 true
    • 修复了当所有列保留为字符串(cloudFiles.inferColumnTypes 未设置或设置为 false)且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析问题。
    • 操作系统安全更新。
  • 2022 年 11 月 15 日
    • 已将 Apache commons-text 升级到 1.10.0。
    • [SPARK-40646] 已修复结构、映射和数组的 JSON 分析,因此当记录的一部分与架构不匹配时,仍可以正确分析记录的其余部分,而不是返回 null。 若要选择启用改进的行为,请将 spark.sql.json.enablePartialResults 设置为 true。 默认已禁用该标志以保留原始行为。
    • [SPARK-40292] 修复了从嵌套结构中引用数组时 arrays_zip 函数中的列名
    • 操作系统安全更新。
  • 2022 年 11 月 1 日
    • 修复了以下问题:如果 Delta 表具有名为 _change_type用户定义的列,但 更改数据馈送 已在该表上关闭,则该列中的数据在运行时 MERGE会错误地填充 NULL 值。
    • 修复了自动加载程序的以下问题:启用 allowOverwrites 时,文件可能在同一个微批处理内重复出现。
    • [SPARK-40697] 添加了读取端字符填充以包括外部数据文件
    • [SPARK-40596] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
    • 操作系统安全更新。
  • 2022 年 10 月 18 日
    • 操作系统安全更新。
  • 2022 年 10 月 5 日
    • [SPARK-40468] 修复在选择_corrupt_record时 CSV 中的列修剪问题。
    • 操作系统安全更新。
  • 2022 年 9 月 22 日
    • 用户可以设置 spark.conf.set(spark.databricks.io.listKeysWithPrefix.azure.enabledtrue) 以在 ADLS 上为自动加载程序重新启用内置列表。 内置列表以前因性能问题关闭,但可能已导致客户的存储成本增加。
    • [SPARK-40315] 为 ArrayBasedMapData 的文本添加 hashCode()
    • [SPARK-40213] 支持 Latin-1 字符的 ASCII 值转换
    • [SPARK-40380] 修复了 InvokeLike 的常量折叠,以避免计划中嵌入不可序列化的文本
    • [SPARK-38404] 改进嵌套 CTE 引用外部 CTE 时的 CTE 解析
    • [SPARK-40089] 修复某些十进制类型的排序问题
    • [SPARK-39887] RemoveRedundantAliases 应保留使投影节点的输出独一无二的别名
  • 2022 年 9 月 6 日
    • [SPARK-40235] 使用中断锁,而不是在 Executor.updateDependencies()中同步。
    • [SPARK-40218] GROUPING SETS 应保留分组列。
    • [SPARK-39976] ArrayIntersect 应正确处理左表达式中的 null。
    • [SPARK-40053] 在需要 Python 运行时环境的动态取消案例中添加 assume
    • [SPARK-35542] 修复:为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载。
    • [SPARK-40079] 针对输入为空的情况添加 Imputer inputCols 验证。
  • 2022 年 8 月 24 日
    • [SPARK-39983] 不要在驱动程序上缓存未序列化的广播关系。
    • [SPARK-39775] 分析 Avro 架构时禁用验证默认值。
    • [SPARK-39962] 当组属性为空时应用投影
    • [SPARK-37643] 如果 charVarcharAsString 为 true,对于 char 数据类型谓词查询,应跳过 rpadding 规则。
    • 操作系统安全更新。
  • 2022 年 8 月 9 日
    • [SPARK-39847] 修复在调用方线程中断时 RocksDBLoader.loadLibrary() 中的争用条件
    • [SPARK-39731] 修复了在 CSV 和 JSON 数据源中使用 CORRECTED 时间解析策略解析“yyyyMMdd”格式的日期时遇到的问题
    • 操作系统安全更新。
  • 2022 年 7 月 27 日
    • [SPARK-39625] 添加 Dataset.as(StructType)。
    • [SPARK-39689]支持 CSV 数据源中的 2 个字符 lineSep
    • [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded 应实现线程安全。
    • [SPARK-39570] 内联表应允许具有别名的表达式。
    • [SPARK-39702] 使用共享 byteRawChannel 减少 TransportCipher$EncryptedMessage 的内存开销。
    • [SPARK-39575] 在 AvroDeserializer 中的 ByteBuffer#get 之后添加 ByteBuffer#rewind。
    • [SPARK-39476] 从 Long 转换为 Float/Double 或从 Integer 转换为 Float 时禁用展开强制转换优化。
    • [SPARK-38868] 优化外部联接时不要传播来自筛选器谓词的异常。
    • 操作系统安全更新。
  • 2022 年 7 月 20 日
    • 当源具有不确定性时,使 Delta MERGE 操作结果保持一致。
    • [SPARK-39355] 单列使用引号构造 UnresolvedAttribute。
    • [SPARK-39548] 具有窗口子句查询的 CreateView 命令遇到“找不到错误窗口定义”的问题。
    • [SPARK-39419] 修复 ArraySort,以在比较器返回 null 时引发异常。
    • 禁止了自动加载程序对 Azure 上的目录列表使用内置的云 API。
    • 操作系统安全更新。
  • 2022 年 7 月 5 日
    • [SPARK-39376] 隐藏展开 NATURAL/USING JOIN 子查询别名星号时出现的重复列
    • 操作系统安全更新。
  • 2022 年 6 月 15 日
    • [SPARK-39283] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁。
    • [SPARK-39285] 读取文件时,Spark 不应检查字段名称。
    • [SPARK-34096] 提高偏移窗口上 nth_value ignore nulls 的性能。
    • [SPARK-36718] 修复 CollapseProject 中的 isExtractOnly 检查。
  • 2022 年 6 月 2 日
    • [SPARK-39093] 避免在将年-月间隔或日期-时间间隔除以整数时出现 codegen 编译错误。
    • [SPARK-38990] 避免在将 date_trunc/trunc 格式作为绑定引用进行评估时出现 NullPointerException。
    • 操作系统安全更新。
  • 2022 年 5 月 18 日
    • 修复自动加载程序中潜在的内存泄漏。
    • [SPARK-38918] 嵌套列修剪应筛选出不属于当前关系的属性。
    • [SPARK-37593] 如果使用 G1GC 和 ON_HEAP,则通过 LONG_ARRAY_OFFSET 减少默认页面大小。
    • [SPARK-39084] 通过修复 df.rdd.isEmpty() 并使用 TaskContext 在任务完成时停止迭代器。
    • [SPARK-32268] 在 injectBloomFilter 中添加 ColumnPruning。
    • [SPARK-38974] 在列表函数中使用给定的数据库名称筛选已注册的函数。
    • [SPARK-38931] 为 RocksDBFileManager 在第一个检查点创建根 dfs 目录,且该检查点的键数未知。
    • 操作系统安全更新。
  • 2022 年 4 月 19 日
    • 将 Java AWS SDK 从版本 1.11.655 升级到了 1.12.1899。
    • 修复了笔记本范围的库在批处理流作业中无法正常工作的问题。
    • [SPARK-38616] 在 Catalyst TreeNode 中记录 SQL 查询文本
    • 操作系统安全更新。
  • 2022 年 4 月 6 日
    • 以下 Spark SQL 函数现已在此版本中提供:
      • timestampadd()dateadd():将指定单位的持续时间添加到时间戳表达式。
      • timestampdiff()datediff():以指定单位计算两个时间戳表达式之间的时间差。
    • Parquet-MR 已升级到 1.12.2
    • 改进了对 parquet 文件中的综合架构的支持
    • [SPARK-38631] 使用基于 Java 的实现在 Utils.unpack 中执行取消 tar 的操作。
    • [SPARK-38509][SPARK-38481] 挑拣三个 timestmapadd/diff 变更。
    • [SPARK-38523] 修复了从 CSV 引用损坏的记录列的问题。
    • [SPARK-38237] 允许 ClusteredDistribution 需要完整的群集密钥。
    • [SPARK-38437] 对数据源中的日期/时间进行宽松的序列化。
    • [SPARK-38180] 允许在相关的相等谓词中使用安全的向上强制转换表达式。
    • [SPARK-38155] 禁止在包含不受支持的谓词的横向子查询中使用非重复聚合。
    • 操作系统安全更新。

Databricks Runtime 9.1 LTS

请参阅 Databricks Runtime 9.1 LTS

  • 2025 年 4 月 9 日
    • 操作系统安全更新。
  • 2025 年 3 月 11 日
    • 操作系统安全更新。
  • 2025 年 2 月 11 日
    • 操作系统安全更新。
  • 2024 年 12 月 10 日
    • 操作系统安全更新。
  • 2024 年 11 月 26 日
    • 操作系统安全更新。
  • 2024 年 11 月 5 日
    • 操作系统安全更新。
  • 2024 年 10 月 22 日
    • 操作系统安全更新。
  • 2024 年 10 月 10 日
    • 操作系统安全更新。
  • 2024 年 9 月 25 日
    • [SPARK-49000][SQL] 通过扩展“RewriteDistinctAggregates”修复“select count(distinct 1) from t”,其中 t 是空表。
    • 操作系统安全更新。
  • 2024 年 9 月 6 日
    • 操作系统安全更新。
  • 2024 年 8 月 29 日
    • [SPARK-49065][SQL] 旧版格式化器/解析器中重设基准必须支持非 JVM 默认的时区
  • 2024 年 8 月 14 日
  • 2024 年 8 月 1 日
    • 操作系统安全更新。
  • 2024 年 7 月 11 日
    • 操作系统安全更新。
  • 2024 年 6 月 17 日
    • 操作系统安全更新。
  • 2024 年 5 月 21 日
    • [SPARK-48105][SS] 修复状态存储卸载和快照之间的争用条件
    • 操作系统安全更新。
  • 2024 年 5 月 9 日
    • [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
    • [SPARK-44251][SQL] 在完全外部 USING 联接中的联合联接键上正确设置“可为空”
    • 操作系统安全更新。
  • 2024 年 4 月 25 日
    • 杂项漏洞修复。
  • 2024 年 4 月 11 日
    • 操作系统安全更新。
  • 2024 年 4 月 1 日
    • 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中发生死锁”
    • 操作系统安全更新。
  • 2024 年 3 月 14 日
    • 操作系统安全更新。
  • 2024 年 2 月 29 日
    • 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
    • 操作系统安全更新。
  • 2024 年 2 月 13 日
    • [SPARK-46861] 避免 DAGScheduler 中的死锁。
    • 操作系统安全更新。
  • 2024 年 1 月 31 日
    • 操作系统安全更新。
  • 2023 年 12 月 25 日
    • 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
    • [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
    • [SPARK-39440] 添加配置以禁用事件时间线。
    • [SPARK-46132] 支持为 RPC SSL 的 JKS 密钥使用密钥密码。
  • 2023 年 12 月 14 日
    • 操作系统安全更新。
  • 2023 年 11 月 29 日
    • 安装了一个新包 pyarrow-hotfix 以修正 PyArrow RCE 漏洞。
    • [SPARK-45859]ml.functions 中的 UDF 对象设为惰性。
    • [SPARK-45544] 已将 SSL 支持集成到 TransportContext.
    • [SPARK-45730] 改进了ReloadingX509TrustManagerSuite的时间限制。
    • 操作系统安全更新。
  • 2023 年 11 月 14 日
    • [SPARK-45545]SparkTransportConf 在创建时继承 SSLOptions
    • [SPARK-45429] 添加了 SSL RPC 通信的帮助程序类。
    • [SPARK-45427] 添加了 RPC SSL 设置到SSLOptionsSparkTransportConf
    • [SPARK-45584] 修复了 TakeOrderedAndProjectExec 子查询运行失败的问题。
    • [SPARK-45541] 已添加 SSLFactory
    • [SPARK-42205] 在阶段和任务启动事件中移除了日志累加器。
    • 操作系统安全更新。
  • 2023 年 10 月 24 日
    • [SPARK-45426] 添加了对 ReloadingX509TrustManager 的支持。
    • 操作系统安全更新。
  • 2023 年 10 月 13 日
    • 操作系统安全更新。
  • 2023 年 9 月 10 日
    • 其他修复。
  • 2023 年 8 月 30 日
    • 操作系统安全更新。
  • 2023 年 8 月 15 日
    • 操作系统安全更新。
  • 2023 年 6 月 23 日
    • Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
    • 操作系统安全更新。
  • 2023 年 6 月 15 日
    • [SPARK-43098] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug。
    • [SPARK-43156][SPARK-43098] 扩展了关闭 decorrelateInnerQuery 时进行的标量子查询计数 bug 测试。
    • [SPARK-40862] 支持 RewriteCorrelatedScalarSubquery 中的非聚合子查询。
    • 操作系统安全更新。
  • 2023 年 6 月 2 日
    • failOnUnknownFields 模式下的 JSON 分析程序丢弃 DROPMALFORMED 模式下的记录,并在 FAILFAST 模式下直接失败。
    • 修复了 JSON 恢复数据解析中的问题,以防止出现 UnknownFieldException
    • 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
    • [SPARK-37520] 添加startswith()endswith()字符串函数
    • [SPARK-43413] 修复了 IN 子查询 ListQuery 的为 Null 性。
    • 操作系统安全更新。
  • 2023 年 5 月 17 日
    • 操作系统安全更新。
  • 2023 年 4 月 25 日
    • 操作系统安全更新。
  • 2023 年 4 月 11 日
    • 修复了在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环的问题。
    • [SPARK-42967] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId 问题。
  • 2023 年 3 月 29 日
    • 操作系统安全更新。
  • 2023 年 3 月 14 日
    • [SPARK-42484] 改进了UnsafeRowUtils的错误消息。
    • 其他修复。
  • 2023 年 2 月 28 日
    • 用户现在可以使用 Databricks Runtime 9.1 LTS 或更高版本读取和写入需要读取器版本 3 和写入器版本 7 的特定 Delta 表。 要使操作成功,当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
    • 操作系统安全更新。
  • 2023 年 2 月 16 日
    • 操作系统安全更新。
  • 2023 年 1 月 31 日
    • JDBC 表的表类型现在默认为 EXTERNAL。
  • 2023 年 1 月 18 日
    • 操作系统安全更新。
  • 2022 年 11 月 29 日
    • 修复了当所有列保留为字符串(cloudFiles.inferColumnTypes 未设置或设置为 false)且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析问题。
    • 操作系统安全更新。
  • 2022 年 11 月 15 日
    • 已将 Apache commons-text 升级到 1.10.0。
    • 操作系统安全更新。
    • 其他修复。
  • 2022 年 11 月 1 日
    • 修复了以下问题:如果 Delta 表具有名为 _change_type用户定义的列,但 更改数据馈送 已在该表上关闭,则该列中的数据在运行时 MERGE会错误地填充 NULL 值。
    • 修复了自动加载程序的以下问题:启用 allowOverwrites 时,文件可能在同一个微批处理内重复出现。
    • [SPARK-40596] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
    • 操作系统安全更新。
  • 2022 年 10 月 18 日
    • 操作系统安全更新。
  • 2022 年 10 月 5 日
    • 其他修复。
    • 操作系统安全更新。
  • 2022 年 9 月 22 日
    • 用户可以设置 spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) 以重新启用 ADLS 上的自动加载程序内置列表。 内置列表以前因性能问题关闭,但可能已导致客户的存储成本增加。
    • [SPARK-40315] 为 ArrayBasedMapData 的文本添加 hashCode()
    • [SPARK-40089] 修复某些十进制类型的排序问题
    • [SPARK-39887] RemoveRedundantAliases 应保留使投影节点的输出独一无二的别名
  • 2022 年 9 月 6 日
    • [SPARK-40235] 使用可中断锁而不是在 Executor.updateDependencies() 中同步
    • [SPARK-35542] 修复:为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
    • [SPARK-40079] 针对输入为空的情况添加 Imputer inputCols 验证
  • 2022 年 8 月 24 日
    • [SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以遵循 spark.sql.codegen.factoryMode
    • [SPARK-39962] 当组属性为空时应用投影
    • 操作系统安全更新。
  • 2022 年 8 月 9 日
    • 操作系统安全更新。
  • 2022 年 7 月 27 日
    • 当源具有不确定性时,使 Delta MERGE 操作结果保持一致。
    • [SPARK-39689] 支持在 CSV 数据源中使用 2 个字符的 lineSep
    • [SPARK-39575]ByteBuffer#rewind 中在 ByteBuffer#get 之后添加了 AvroDeserializer
    • [SPARK-37392] 修复了催化剂优化器的性能错误。
    • 操作系统安全更新。
  • 2022 年 7 月 13 日
    • [SPARK-39419]ArraySort 当比较器返回 null 时引发异常。
    • 禁止了自动加载程序对 Azure 上的目录列表使用内置的云 API。
    • 操作系统安全更新。
  • 2022 年 7 月 5 日
    • 操作系统安全更新。
    • 其他修复。
  • 2022 年 6 月 15 日
    • [SPARK-39283] 修复 TaskMemoryManagerUnsafeExternalSorter.SpillableIterator 之间的死锁。
  • 2022 年 6 月 2 日
    • [SPARK-34554]copy()中实现ColumnarMap方法。
    • 操作系统安全更新。
  • 2022 年 5 月 18 日
    • 修复了自动加载程序中潜在的内置内存泄漏。
    • 将 AWS SDK 版本从 1.11.655 升级到 1.11.678。
    • [SPARK-38918] 嵌套列修剪应筛选出不属于当前关系的属性
    • [SPARK-39084]通过使用df.rdd.isEmpty()在任务完成时停止迭代器来修复TaskContext
    • 操作系统安全更新。
  • 2022 年 4 月 19 日
    • 操作系统安全更新。
    • 其他修复。
  • 2022 年 4 月 6 日
    • [SPARK-38631] 使用基于 Java 的实现在 Utils.unpack 中执行取消 tar 的操作。
    • 操作系统安全更新。
  • 2022 年 3 月 22 日
    • 更改了高并发群集上的笔记本的当前工作目录,对用户的主目录启用表访问控制或凭据直通。 以前,活动目录是 /databricks/driver
    • [SPARK-38437] 对数据源中的日期/时间进行宽松的序列化
    • [SPARK-38180] 允许在相关的相等谓词中使用安全的向上转换表达式
    • [SPARK-38155] 禁止在包含不受支持的谓词的横向子查询中使用非重复聚合
    • [SPARK-27442] 移除了在 Parquet 中读取或写入数据时的检查字段。
  • 2022 年 3 月 14 日
    • [SPARK-38236] create/alter 表中指定的绝对文件路径被视为相对路径
    • [SPARK-34069] 如果本地属性 SPARK_JOB_INTERRUPT_ON_CANCEL 设置为 true,则中断任务线程。
  • 2022 年 2 月 23 日
    • [SPARK-37859] 使用 Spark 3.1 使用 JDBC 创建的 SQL 表不可通过 Spark 3.2 进行读取。
  • 2022 年 2 月 8 日
    • [SPARK-27442] 移除了在 Parquet 中读取或写入数据时的检查字段。
    • 操作系统安全更新。
  • 2022 年 2 月 1 日
    • 操作系统安全更新。
  • 2022 年 1 月 26 日
    • 修复了在某些极少数情况下,Delta 表上同时进行的事务可能会以非序列化顺序提交的问题。
    • 修复了启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败的问题。
  • 2022 年 1 月 19 日
    • 小问题修复和安全增强。
    • 操作系统安全更新。
  • 2021 年 11 月 4 日
    • 修复了可能导致结构化流式处理数据流失败并显示 ArrayIndexOutOfBoundsException 的问题。
    • 修复了一个争用条件,它可能会导致查询失败并显示 IOException(例如 java.io.IOException: No FileSystem for scheme),或可能导致 sparkContext.hadoopConfiguration 被修改且在查询中不生效。
    • Apache Spark Delta Sharing 连接器已升级至 0.2.0。
  • 2021 年 10 月 20 日
    • 已将 BigQuery 连接器从 0.18.1 升级为 0.22.2。 这添加了对 BigNumeric 类型的支持。