本文列出支援的 Databricks Runtime 版本的維護更新。 若要將維護更新新增至現有的叢集,請重新啟動叢集。 如需未支援的 Databricks Runtime 版本的維護更新,請參閱 Databricks Runtime 維護更新。
Note
分階段發行。 在初始發行日期之後的幾天內,您的 Azure Databricks 帳戶可能不會更新。
Databricks Runtime 發行版
每一版本的維護更新:
- Databricks Runtime 17.3 LTS
- Databricks 執行階段 17.2
- Databricks 執行階段 17.1
- Databricks 執行環境 17.0
- Databricks Runtime 16.4 LTS
- Databricks 執行環境 16.2
- Databricks Runtime 15.4 LTS
- Databricks Runtime 14.3 LTS
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 17.3 LTS
請參閱 Databricks Runtime 17.3 LTS。
- 2025年12月9日
- 已更新 Java 函式庫:
- io.delta.delta-sharing-client_2.13 從 1.3.5 到 1.3.6
- [SPARK-50906][SQL] 修正 Avro 重組結構欄位的空性檢查
- [SPARK-54180][SQL] 覆寫 BinaryFileFormat 的 toString
-
[SPARK-54427][SQL] 允許 ColumnarRow 以變體類型呼叫
copy - 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025年11月18日
- [SPARK-54047][PYTHON] 在閒置超時後終止時使用差異錯誤
- [SPARK-52762][SDP] 新增 PipelineAnalysisContext 訊息以支援 Spark Connect 查詢執行時的管線分析
- [SPARK-54156][PROTOBUF] 分類 ProtobufOptions 鑄造失敗錯誤
-
[SPARK-54078][SS] 針對
StateStoreSuite SPARK-40492: maintenance before unload的新測試,並移除舊測試的基礎設施 -
[SPARK-54015][PYTHON] 放寬 Py4J 的要求為
py4j>=0.10.9.7,<0.10.9.10 - [SPARK-54099][SQL] XML 變體解析器在十進位解析錯誤時應退回字串
- [17.3 回溯版][Spark-54191]](https://issues.apache.org/jira/browse/SPARK-54191)[SDP] 一次加入 Defineflow Proto
- 作業系統安全性更新。
- 2025 年 11 月 4 日
- [SPARK-53729][PYTHON][CONNECT] 修正 pyspark.sql.connect.window.WindowSpec 的序列化
- [SPARK-46679][SQL] 修復了使用 Parameterized 類別時無法找到 T 類型編碼器的 SparkUnsupportedOperationException 問題
- [SPARK-53973][Avro] 對 AvroOptions 布林轉換失敗進行錯誤分類
- [SPARK-53794][SS] 新增選項,以限制與 rocksdb 狀態提供者相關聯的每個維護作業的刪除次數
- [SPARK-53908][CONNECT] 修正 Spark Connect 觀察中使用計劃快取的問題
- [SPARK-53972][SS] 修正經典 PySpark 中串流查詢 recentProgress 的回歸問題
- 作業系統安全性更新。
Databricks 執行階段 17.2
- 2025年12月9日
- 分區式 Delta 表格未來將以資料 parquet 檔案形式實現分割欄。 這使得 Iceberg 和 UniForm 資料表的處理方式更具協同效應,並提高了與外部非 Delta 相容讀取器的相容性。
-
[SPARK-54427][SQL] 允許 ColumnarRow 以變體類型呼叫
copy - [SPARK-54180][SQL] 覆寫 BinaryFileFormat 的 toString
- [SPARK-50906][SQL] 修正 Avro 重組結構欄位的空性檢查
- 作業系統安全性更新。
- 2025年11月18日
-
[SPARK-54078][SS] 針對
StateStoreSuite SPARK-40492: maintenance before unload的新測試,並移除舊測試的基礎設施 - [SPARK-54047][PYTHON] 在閒置超時後終止時使用差異錯誤
- [SPARK-54099][SQL] XML 變體解析器在十進位解析錯誤時應退回字串
-
[SPARK-54015][PYTHON] 放寬 Py4J 的要求為
py4j>=0.10.9.7,<0.10.9.10 - [SPARK-52515]Approx_top_k 使用 Apache DataSketches
- 作業系統安全性更新。
-
[SPARK-54078][SS] 針對
- 2025 年 11 月 4 日
- [SPARK-53973][Avro] 對 AvroOptions 布林轉換失敗進行錯誤分類
- [SPARK-53972][SS] 修正經典 PySpark 中串流查詢 recentProgress 的回歸問題
- [SPARK-53908][CONNECT] 修正 Spark Connect 觀察中使用計劃快取的問題
- 作業系統安全性更新。
- 2025 年 10 月 21 日
- 作業系統安全性更新。
- 2025 年 10 月 8 日
- [SPARK-53555] 修正:SparkML-connect 無法載入 SparkML(舊版模式)儲存的模型
- [SPARK-53598][SQL] 在讀取大型資料表屬性之前,請先檢查 numParts 的存在
- [SPARK-53625][SS] 透過投影傳播元資料欄,以解決 ApplyCharTypePadding 的不相容性
- [SPARK-53568][CONNECT][PYTHON] 修正 Spark Connect Python 用戶端錯誤處理邏輯中的數個小錯誤
- [火花-53574] 修正在巢狀計劃解析期間抹除 AnalysisContext 的問題
- [SPARK-53623][SQL] 改善讀取大型表格屬性的性能。
-
[SPARK-53729][PYTHON][CONNECT] 修正
pyspark.sql.connect.window.WindowSpec的序列化問題 - [SPARK-53549][SS] 清單狀態要求程序完成時,一律關閉箭頭配置器
- 作業系統安全性更新。
- 2025 年 9 月 10 日
- 修正了可能導致自動載入器無限期掛起的問題。
- [SPARK-53362] [ML] [CONNECT] 修正 IDFModel 本機載入器錯誤
- [SPARK-53382][SQL] 修正格式不正確的遞迴的 rCTE 錯誤
- [SPARK-53345] 的回溯不穩定測試修正
- [SPARK-49872][核心] 移除 jackson JSON 字串長度限制
- [SPARK-53423] [SQL] 將所有單次解析器相關標籤移至 ResolverTag
- [SPARK-53431][PYTHON] 修正 DataFrame API 中具有具名資料表引數的 Python UDTF
-
[SPARK-53336] [ML] [CONNECT] 呼叫時
MLCache.totalMLCacheSizeBytes重設MLCache.clear() - [SPARK-53394][核心] UninterruptibleLock.isInterruptible 應避免重複中斷
- [SPARK-53470][SQL] ExtractValue 運算式應一律執行類型檢查
- 精選 [SPARK-53389] 在 ANSI 模式下對 Spark 上 Pandas API 的改進
- 作業系統安全性更新。
Databricks 執行階段 17.1
- 2025年12月9日
- 分區式 Delta 表格未來將以資料 parquet 檔案形式實現分割欄。 這使得 Iceberg 和 UniForm 資料表的處理方式更具協同效應,並提高了與外部非 Delta 相容讀取器的相容性。
- [SPARK-54180][SQL] 覆寫 BinaryFileFormat 的 toString
- [SPARK-50906][SQL] 修正 Avro 重組結構欄位的空性檢查
-
[SPARK-54427][SQL] 允許 ColumnarRow 以變體類型呼叫
copy - 作業系統安全性更新。
- 2025年11月18日
-
[SPARK-54015][PYTHON] 放寬 Py4J 的要求為
py4j>=0.10.9.7,<0.10.9.10 - [SPARK-52515]Approx_top_k 使用 Apache DataSketches
- [SPARK-54047][PYTHON] 在閒置超時後終止時使用差異錯誤
-
[SPARK-54078][SS] 針對
StateStoreSuite SPARK-40492: maintenance before unload的新測試,並移除舊測試的基礎設施 - [SPARK-54099][SQL] XML 變體解析器在十進位解析錯誤時應退回字串
- 作業系統安全性更新。
-
[SPARK-54015][PYTHON] 放寬 Py4J 的要求為
- 2025 年 11 月 4 日
- [SPARK-53972][SS] 修正經典 PySpark 中串流查詢 recentProgress 的回歸問題
- [SPARK-53908][CONNECT] 修正 Spark Connect 觀察中使用計劃快取的問題
- [SPARK-53973][Avro] 對 AvroOptions 布林轉換失敗進行錯誤分類
- 作業系統安全性更新。
- 2025 年 10 月 21 日
- 作業系統安全性更新。
- 2025 年 10 月 7 日
- [火花-53574] 修正在巢狀計劃解析期間抹除 AnalysisContext 的問題
- [SPARK-53549][SS] 清單狀態要求程序完成時,一律關閉箭頭配置器
- [SPARK-53568][CONNECT][PYTHON] 修正 Spark Connect Python 用戶端錯誤處理邏輯中的數個小錯誤
- [SPARK-53625][SS] 透過投影傳播元資料欄,以解決 ApplyCharTypePadding 的不相容性
- [SPARK-53598][SQL] 在讀取大型資料表屬性之前,請先檢查 numParts 的存在
- [SPARK-53623][SQL] 改善讀取大型表格屬性的性能。
- [SPARK-53555] 修正:SparkML-connect 無法載入 SparkML(舊版模式)儲存的模型
-
[SPARK-53729][PYTHON][CONNECT] 修正
pyspark.sql.connect.window.WindowSpec的序列化問題 - 作業系統安全性更新。
- 2025 年 9 月 16 日
- 作業系統安全性更新。
- 2025 年 9 月 9 日
- 修正了可能導致自動載入器無限期掛起的問題。
- [SPARK-53362] [ML] [CONNECT] 修正 IDFModel 本機載入器錯誤
- [SPARK-53394][核心] UninterruptibleLock.isInterruptible 應避免重複中斷
- [SPARK-53382][SQL] 修正格式不正確的遞迴的 rCTE 錯誤
- [SPARK-53431][PYTHON] 修正 DataFrame API 中具有具名資料表引數的 Python UDTF
-
[SPARK-53336] [ML] [CONNECT] 呼叫時
MLCache.totalMLCacheSizeBytes重設MLCache.clear() - [SPARK-49872][核心] 移除 jackson JSON 字串長度限制
- 作業系統安全性更新。
- 2025 年 8 月 25 日
- 已更新 Java 函式庫:
- io.delta.delta-sharing-client_2.13 從 1.3.3 到 1.3.5
- [SPARK-52482][SQL][CORE] 改善讀取某些損毀 zstd 檔案的例外狀況處理
- [SPARK-53192][CONNECT] 一律在 Spark Connect 計劃快取中快取 DataSource
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025 年 8 月 14 日
-
[SPARK-52833][SQL] 修正
VariantBuilder.appendFloat - [SPARK-52961][PYTHON] 修正在橫向聯結時具有 0 引數評估的箭頭最佳化 Python UDTF
- [SPARK-51505][SQL] 一律在 AQEShuffleReadExec 中顯示空白的分割區編號指標
- [SPARK-52753][SQL] 使 parseDataType 二進位檔與舊版相容
- [SPARK-52842][SQL] 單次分析器的新功能和錯誤修正
- [SPARK-52960][SQL] 在 LogicalQueryStage toString 中顯示子樹狀結構字串
- [SPARK-53054][CONNECT] 修正連線。DataFrameReader 預設格式行為
- 作業系統安全性更新。
-
[SPARK-52833][SQL] 修正
Databricks 執行環境 17.0
- 2025年12月9日
- 分區式 Delta 表格未來將以資料 parquet 檔案形式實現分割欄。 這使得 Iceberg 和 UniForm 資料表的處理方式更具協同效應,並提高了與外部非 Delta 相容讀取器的相容性。
- 對於 Snowflake 連接器和 Snowflake Lakehouse 同盟,
TIMESTAMP_NTZ[時間戳沒有時區] 常值不再向下推送至 Snowflake。 這項變更可防止因不相容的時間戳處理所造成的查詢失敗,並改善受影響查詢的可靠性。 -
[SPARK-54427][SQL] 允許 ColumnarRow 以變體類型呼叫
copy - [SPARK-54180][SQL] 覆寫 BinaryFileFormat 的 toString
- 作業系統安全性更新。
- 2025年11月18日
- [SPARK-54099][SQL] XML 變體解析器在十進位解析錯誤時應退回字串
-
[SPARK-54015][PYTHON] 放寬 Py4J 的要求為
py4j>=0.10.9.7,<0.10.9.10 -
[SPARK-54078][SS] 針對
StateStoreSuite SPARK-40492: maintenance before unload的新測試,並移除舊測試的基礎設施 - [SPARK-54047][PYTHON] 在閒置超時後終止時使用差異錯誤
- 作業系統安全性更新。
- 2025 年 11 月 4 日
- [SPARK-53908][CONNECT] 修正 Spark Connect 觀察中使用計劃快取的問題
- [SPARK-53972][SS] 修正經典 PySpark 中串流查詢 recentProgress 的回歸問題
- 作業系統安全性更新。
- 2025 年 10 月 21 日
- 作業系統安全性更新。
- 2025 年 10 月 7 日
- [SPARK-53598][SQL] 在讀取大型資料表屬性之前,請先檢查 numParts 的存在
- [SPARK-53568][CONNECT][PYTHON] 修正 Spark Connect Python 用戶端錯誤處理邏輯中的數個小錯誤
- [火花-53574] 修正在巢狀計劃解析期間抹除 AnalysisContext 的問題
- [SPARK-53549][SS] 清單狀態要求程序完成時,一律關閉箭頭配置器
- [SPARK-53623][SQL] 改善讀取大型表格屬性的性能。
-
[SPARK-53729][PYTHON][CONNECT] 修正
pyspark.sql.connect.window.WindowSpec的序列化問題 - 作業系統安全性更新。
- 2025 年 9 月 16 日
- 作業系統安全性更新。
- 2025 年 9 月 9 日
- 修正了可能導致自動載入器無限期掛起的問題。
- [SPARK-53394][核心] UninterruptibleLock.isInterruptible 應避免重複中斷
-
[SPARK-53336] [ML] [CONNECT] 呼叫時
MLCache.totalMLCacheSizeBytes重設MLCache.clear() - [SPARK-49872][核心] 移除 jackson JSON 字串長度限制
- [SPARK-53431][PYTHON] 修正 DataFrame API 中具有具名資料表引數的 Python UDTF
- [SPARK-53382][SQL] 修正格式不正確的遞迴的 rCTE 錯誤
- 作業系統安全性更新。
- 2025 年 8 月 26 日
- 已更新 Java 函式庫:
- io.delta.delta-sharing-client_2.13 從 1.3.3 到 1.3.5
- [SPARK-52482][SQL][CORE] 改善讀取某些損毀 zstd 檔案的例外狀況處理
- [SPARK-53192][CONNECT] 一律在 Spark Connect 計劃快取中快取 DataSource
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025 年 8 月 14 日
- [SPARK-51505][SQL] 一律在 AQEShuffleReadExec 中顯示空白的分割區編號指標
- [SPARK-53054][CONNECT] 修正連線。DataFrameReader 預設格式行為
- [SPARK-52961][PYTHON] 修正在橫向聯結時具有 0 引數評估的箭頭最佳化 Python UDTF
-
[SPARK-52833][SQL] 修正
VariantBuilder.appendFloat - 作業系統安全性更新。
- 2025年7月29日
- [SPARK-51889][PYTHON][SS] 修正 Python TWS 中 MapState clear() 的錯誤
- [SPARK-52753][SQL] 使 parseDataType 二進位檔與舊版相容
- [SPARK-49428][SQL] 將 Scala 用戶端從連接器移至 SQL
- 作業系統安全性更新。
- 2025年7月15日
- 已修正使用 Spark Structured Streaming 從 Pulsar 進行數據串流時,非確定性的數據遺失問題。
- [SPARK-52430][SQL] 解決 rCTE 中聯集可空性的錯誤
-
[SPARK-52503][SQL][CONNECT] 修正
drop輸入數據行不存在時 - [SPARK-52579][PYTHON] 設定 Python 工作執行緒的定期追蹤傾印
- [SPARK-52450] 改善架構深層複製的效能
- [SPARK-52599][PYTHON] 支持驅動程式端背景工作角色中的定期追蹤回復傾印
- [SPARK-52553][SS] 在讀取 v1 變更記錄時修正 NumberFormatException
- 作業系統安全性更新。
- 2025年5月28日
- 已更新 Python 函式庫:
- 從 2.40.0 到 2.40.1 的 google-auth
- mlflow-skinny 從 2.22.0 升級到 3.0.0
- opentelemetry-api 從 1.32.1 到 1.33.0
- opentelemetry-sdk 從 1.32.1 到 1.33.0
- opentelemetry-semantic-conventions,從 0.53b1 到 0.54b0
- 已更新 Java 函式庫:
- io.delta.delta-sharing-client_2.13,從 1.3.0 到 1.3.3
- ZStandard 解壓縮支援檔案數據來源讀取器(json、csv、xml 和 text。)
- 修正TVF函式無法用來跨管線讀取串流數據表檔案層級狀態的限制
cloud_files_state - 修正暫存檢視上查詢的 Unity 目錄授權問題。
- 在 17.0.1 版中切換了旗標,並對 17.0.0 版的所有工作區啟用了 SAFE 旗標。
- Delta Sharing 支援對使用預先簽署URL的查詢使用Spark Parquet I/O快取(從版本 17.0.1 開始提供)。
- ZStandard 解壓縮支援檔案數據來源讀取器(json、csv、xml 和 text。)
- Teradata 連接器現在預設會將 TMODE=ANSI 傳遞給驅動程式。 這表示透過 Lakehouse 同盟完成的所有字串比較都會區分大小寫。
- [SPARK-51921][SS][PYTHON] 在 transformWithState 中使用以毫秒為單位的 TTL 時間的 long 類型
- [SPARK-52259][ML][CONNECT] 修正 Param 類別二進位相容性
- [SPARK-52195][PYTHON][SS] 修正 Python TWS 的初始狀態欄位移除問題
- [SPARK-52057] [ML] [CONNECT] 收集給用戶端的樹狀結構大小限制警告訊息
- [SPARK-52051] [ML] [CONNECT] 在記憶體控制啟用的情況下啟用模型摘要
- [SPARK-51606][CONNECT] 停止 Spark Connect 伺服器時新增SPARK_IDENT_STRING
- [15.4-16.4][spark-52521]](https://issues.apache.org/jira/browse/SPARK-52521)[SQL]
Right#replacement不應該動態存取 SQLConf - [SPARK-52232][SQL] 修正不具決定性的查詢,以在每個步驟產生不同的結果
-
[SPARK-52013] [CONNECT] [ML] 移除
SparkConnectClient.ml_caches - [SPARK-52353][SQL] 修正 LogicalRDDs 中引用 UnionLoop 先前反覆運算限制條件的錯誤
- [SPARK-52130] [ ML] [CONNECT] 精簡錯誤訊息,並隱藏內部 Spark 組態
- [SPARK-52470][ML][CONNECT] 支援模型摘要卸載
- [SPARK-51935][SQL] 修正解譯 df.collect 中迭代器的延遲行為
- [SPARK-52482][SQL][CORE] 檔案數據源讀取器的 ZStandard 支援
- [SPARK-52159][SQL] 正確處理 JDBC 方言中表存在檢查
- [SPARK-52010] 請勿為內部類別產生 API 檔
- [SPARK-52049] 修正 XML 屬性無法剖析為 Variant 的錯誤
- [SPARK-52312][SQL] 快取 DataFrame 時忽略 V2WriteCommand
- [SPARK-52229][ML][CONNECT] 改善模型大小估計
- [SPARK-50815][PYTHON] 修復變體本地資料至 Arrow 的轉換問題
- [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 應保留計劃標識符
- [SPARK-51981][SS] 將 JobTags 新增至 queryStartedEvent
- [FIX REVERT][spark-52100]](https://issues.apache.org/jira/browse/SPARK-52100)[SQL] 啟用覆蓋語法中的遞歸層級限制
- [SPARK-52101][SQL] 停用 rCTE 的內聯強制
- [SPARK-52099][SQL] 藉由新增 LIMIT 運算符來覆寫遞歸行數限制
- 作業系統安全性更新。
- 已更新 Python 函式庫:
Databricks Runtime 16.4 LTS
請參閱 Databricks Runtime 16.4 LTS。
- 2025年12月9日
- 分區式 Delta 表格未來將以資料 parquet 檔案形式實現分割欄。 這使得 Iceberg 和 UniForm 資料表的處理方式更具協同效應,並提高了與外部非 Delta 相容讀取器的相容性。
- 對於 Snowflake 連接器和 Snowflake Lakehouse 同盟,
TIMESTAMP_NTZ[時間戳沒有時區] 常值不再向下推送至 Snowflake。 這項變更可防止因不相容的時間戳處理所造成的查詢失敗,並改善受影響查詢的可靠性。 -
[SPARK-54427][SQL] 允許 ColumnarRow 以變體類型呼叫
copy - [SPARK-54180][SQL] 覆寫 BinaryFileFormat 的 toString
- 作業系統安全性更新。
- 2025年11月18日
- [SPARK-54099][SQL] XML 變體解析器在十進位解析錯誤時應退回字串
-
[SPARK-54015][PYTHON] 放寬 Py4J 的要求為
py4j>=0.10.9.7,<0.10.9.10 -
[SPARK-54078][SS] 針對
StateStoreSuite SPARK-40492: maintenance before unload的新測試,並移除舊測試的基礎設施 - [SPARK-54156][PROTOBUF] 分類 ProtobufOptions 鑄造失敗錯誤
- [SPARK-54047][PYTHON] 在閒置超時後終止時使用差異錯誤
- 作業系統安全性更新。
- 2025 年 11 月 4 日
- 更新的 R 庫:
- 箭頭從 16.1.0 到 21.0.0
- [SPARK-53973][Avro] 對 AvroOptions 布林轉換失敗進行錯誤分類
- 作業系統安全性更新。
- 更新的 R 庫:
- 2025 年 10 月 21 日
- 作業系統安全性更新。
- 2025 年 10 月 7 日
- [SPARK-53568][CONNECT][PYTHON] 修正 Spark Connect Python 用戶端錯誤處理邏輯中的數個小錯誤
- [火花-53574] 修正在巢狀計劃解析期間抹除 AnalysisContext 的問題
- [SPARK-53623][SQL] 改善讀取大型表格屬性的性能。
- [SPARK-53598][SQL] 在讀取大型資料表屬性之前,請先檢查 numParts 的存在
- [SPARK-53549][SS] 清單狀態要求程序完成時,一律關閉箭頭配置器
- 作業系統安全性更新。
- 2025 年 9 月 16 日
- Snowflake 連接器現在使用
INFORMATION_SCHEMA資料表而不是命令SHOW SCHEMAS來列出結構描述。 這項變更會移除先前方法的10,000個架構限制,並改善對具有大量架構的資料庫支援。 - 作業系統安全性更新。
- Snowflake 連接器現在使用
- 2025 年 9 月 9 日
- 修正了可能導致自動載入器無限期掛起的問題。
- 修正 Auto Loader 中可能導致工作失敗的暫時性錯誤
- [SPARK-49872][核心] 移除 jackson JSON 字串長度限制
- [SPARK-51821][CORE] 呼叫 interrupt() 而不保留 uninterruptibleLock 以避免可能的死結
- 作業系統安全性更新。
- 2025 年 8 月 26 日
- 已更新 Java 函式庫:
- (僅限 Scala 2.12)io.delta.delta-sharing-client_2.12 從 1.2.7 到 1.2.8
- (僅限 Scala 2.13)io.delta.delta-sharing-client_2.13 從 1.2.7 到 1.2.8
- [SPARK-52482][SQL][CORE] 改善讀取某些損毀 zstd 檔案的例外狀況處理
- [SPARK-53192][CONNECT] 一律在 Spark Connect 計劃快取中快取 DataSource
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025 年 8 月 14 日
- [SPARK-51011][CORE] 新增任務在終止時是否會中斷的記錄
-
[SPARK-52833][SQL] 修正
VariantBuilder.appendFloat - [SPARK-51505][SQL] 一律在 AQEShuffleReadExec 中顯示空白的分割區編號指標
- 作業系統安全性更新。
- 2025年7月29日
- [SPARK-52753][SQL] 使 parseDataType 二進位檔與舊版相容
- 作業系統安全性更新。
- 2025年7月15日
- 已修正使用 Spark Structured Streaming 從 Pulsar 進行數據串流時,非確定性的數據遺失問題。
- [SPARK-52579][PYTHON] 設定 Python 工作執行緒的定期追蹤傾印
- [SPARK-52553][SS] 在讀取 v1 變更記錄時修正 NumberFormatException
- [SPARK-52450] 改善架構深層複製的效能
-
[SPARK-52503][SQL][CONNECT] 修正
drop輸入數據行不存在時 - [SPARK-52599][PYTHON] 支持驅動程式端背景工作角色中的定期追蹤回復傾印
- 作業系統安全性更新。
- 2025年7月1日
- ZStandard 解壓縮支援檔案數據來源讀取器(json、csv、xml 和 text。)
- [15.4-16.4][spark-52521]](https://issues.apache.org/jira/browse/SPARK-52521)[SQL]
Right#replacement不應該動態存取 SQLConf - [SPARK-52482][SQL][CORE] 檔案數據源讀取器的 ZStandard 支援
- [SPARK-52312][SQL] 快取 DataFrame 時忽略 V2WriteCommand
- 作業系統安全性更新。
- 2025年6月17日
- 已修正
cloud_files_state資料表值函式 (TVF) 無法用來跨管線讀取串流表的檔案層級狀態的限制。 - 修正了暫時視圖上查詢的 Unity Catalog 授權問題。
- [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 應保留計劃標識符
- 作業系統安全性更新。
- 已修正
- 2025年6月3日
- [SPARK-52195][PYTHON][SS] 修正 Python TWS 的初始狀態欄位移除問題
- [SPARK-52159][SQL] 正確處理 JDBC 方言中表存在檢查
- 其他錯誤修正。
- 2025 年 5 月 7 日
- 已更新 Java 函式庫:
- io.delta.delta-sharing-client_2.13,從 1.2.3 到 1.2.7
- org.apache.avro.avro 從 1.11.3 到 1.11.4
- org.apache.avro.avro-ipc 從 1.11.3 到 1.11.4
- org.apache.avro.avro-mapred 從 1.11.3 到 1.11.4
- 串流複製的會話將會用於共用叢集/無伺服器中的 foreachBatch 使用者函式內。 這與經典行為(指派的叢集)一致。
- 串流複製的會話將會用於共用叢集/無伺服器中的 foreachBatch 使用者函式內。 這與經典行為(指派的叢集)一致。
- 在這次變更之前,在 Photon 停用時,表達式中路徑的前置空格和標籤會被忽略。 例如,
select variant_get(parse_json('{"key": "value"}'), '$['key']')無法有效擷取"key"的值。 不過,用戶現在可以擷取這類密鑰。 - [SPARK-51935][SQL] 修正解譯 df.collect 中迭代器的延遲行為
- [SPARK-51921][SS][PYTHON] 在 transformWithState 中使用以毫秒為單位的 TTL 時間的 long 類型
- [SPARK-51940][SS] 新增介面來管理串流檢查點元數據
- [SPARK-52049] 修正 XML 屬性無法剖析為 Variant 的錯誤
- [SPARK-51904][SS] 移除 StateSchemaV3 的異步元數據清除,並在列出 OperatorMetadata 檔案時忽略非批處理檔
- [SPARK-51869][SS] 針對 Scala TransformWithState 的 UDF 內的使用者錯誤建立分類
- [SPARK-51889][PYTHON][SS] 修正 Python TWS 中 MapState clear() 的錯誤
- [SPARK-51922] [SS] 修正從適用於 v1 的 StateStoreChangelogReaderFactory 擲回的 UTFDataFormatException
- [SPARK-51848][SQL] 修復解析已定義之 Variant 陣列/結構體/映射的 XML 記錄
- 作業系統安全性更新。
- 已更新 Java 函式庫:
Databricks 執行環境 16.2
請參閱 Databricks Runtime 16.2 (EoS)。
- 2025 年 8 月 14 日
- [SPARK-51011][CORE] 新增任務在終止時是否會中斷的記錄
- 作業系統安全性更新。
- 2025年7月29日
- 作業系統安全性更新。
- 2025年7月15日
- 已修正使用 Spark Structured Streaming 從 Pulsar 進行數據串流時,非確定性的數據遺失問題。
- [SPARK-52553][SS] 在讀取 v1 變更記錄時修正 NumberFormatException
- 作業系統安全性更新。
- 2025年7月1日
- ZStandard 解壓縮支援檔案數據來源讀取器(json、csv、xml 和 text。)
- ZStandard 解壓縮支援檔案數據來源讀取器(json、csv、xml 和 text。)
- [15.4-16.4][spark-52521]](https://issues.apache.org/jira/browse/SPARK-52521)[SQL]
Right#replacement不應該動態存取 SQLConf - [SPARK-52312][SQL] 快取 DataFrame 時忽略 V2WriteCommand
- [SPARK-52482][SQL][CORE] 檔案數據源讀取器的 ZStandard 支援
- 作業系統安全性更新。
- 2025年6月17日
- 已修正
cloud_files_state資料表值函式 (TVF) 無法用來跨管線讀取串流表的檔案層級狀態的限制。 - [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 應保留計劃標識符
- 作業系統安全性更新。
- 已修正
- 2025年6月3日
- 已更新 Python 函式庫:
- 從 41.0.7、41.0.7、42.0.5 到 42.0.5 的密碼編譯
- 封裝從 24.0、24.1 到 24.1
- platformdirs 從 3.10.0, 4.2.2 更改為 3.10.0
- pyparsing from 3.0.9, 3.1.1 to 3.0.9
- 已新增 autocommand 2.2.2
- 已新增backports.tarfile 1.2.0
- 已新增 importlib_resources 6.4.0
- 已新增更新 7.3.1
- 已新增 jaraco.context 5.3.0
- 已新增 jaraco.functools 4.0.1
- 已新增 jaraco.text 3.12.1
- 已新增more-itertools 10.3.0
- 已新增 pip 24.2
- 已新增 setuptools 74.0.0
- 已新增 tomli 2.0.1
- 已新增 typeguard 4.3.0
- 已新增 wcwidth 0.2.5
- 已新增滾輪 0.43.0
- 已移除發行版 1.9.0
- 已移除 distro-info 1.7+build1
- 已移除 python-apt 2.7.7+ubuntu4
- [SPARK-52159][SQL] 正確處理 JDBC 方言中表存在檢查
- [SPARK-52195][PYTHON][SS] 修正 Python TWS 的初始狀態欄位移除問題
- 作業系統安全性更新。
- 已更新 Python 函式庫:
- 2025年5月20日
- 已更新 Java 函式庫:
- io.delta.delta-sharing-client_2.12,從 1.2.6 到 1.2.7
- org.apache.avro.avro 從 1.11.3 到 1.11.4
- org.apache.avro.avro-ipc 從 1.11.3 到 1.11.4
- org.apache.avro.avro-mapred 從 1.11.3 到 1.11.4
- 串流複製的會話將會用於共用叢集/無伺服器中的 foreachBatch 使用者函式內。 這與經典行為(指派的叢集)一致。
- 串流複製的會話將會用於共用叢集/無伺服器中的 foreachBatch 使用者函式內。 這與經典行為(指派的叢集)一致。
- 在這次變更之前,在 Photon 停用時,表達式中路徑的前置空格和標籤會被忽略。 例如,
select variant_get(parse_json('{"key": "value"}'), '$[' key']')無法有效擷取"key"的值。 不過,用戶現在可以擷取這類密鑰。 - [SPARK-51935][SQL] 修正解譯 df.collect 中迭代器的延遲行為
- [SPARK-51921][SS][PYTHON] 在 transformWithState 中使用以毫秒為單位的 TTL 時間的 long 類型
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025年4月22日
- [SPARK-51717][SS][RocksDB] 修正針對新查詢建立的第二個快照可能發生的 SST 不相符損毀問題
- 在 15.4、16.0、16.1、16.2 和 16.3 中,還原 "[SPARK-47895][SQL] 分組別名應為等冪元"
- 作業系統安全性更新。
2025 年 4 月 9 日
- 已更新 Java 函式庫:
- 已移除 io.starburst.openjson.openjson 1.8-e.12
- 已移除 io.starburst.openx.data.json-serde 1.3.9-e.12
- 已移除 io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-47895][SQL] 依別名分組應該具有冪等性
- [SPARK-51505][SQL] 記錄 AQE 合併中的空白分區數量計量
- [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中傳播 GetStructField 元數據
- [SPARK-51589][SQL] 修正檢查聚合函數時發生的小錯誤 |>SELECT
- 作業系統安全性更新。
- 已更新 Java 函式庫:
2025 年 3 月 11 日
- Databricks Runtime 14.3 LTS 和更新版本包含修正導致二進位不相容的問題,該問題曾在具現化
SparkListenerApplicationEnd類別並與 Apache Spark 相容的程式碼中出現。 這種不相容的原因是將SPARK-46399合併至Apache Spark。 此合併包含將預設自變數新增至SparkListenerApplicationEnd建構函式的變更。 若要還原二進位相容性,此修正程式會將單一自變數建構函式新增至SparkListenerApplicationEnd類別。 - 還原 “[SPARK-48273][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
- [SPARK-50985][SS] 將 Kafka 時間戳位移不符錯誤分類,而不是對 KafkaTokenProvider 中缺少伺服器的情況進行 assert 並擲出錯誤。
- 當使用 Avro 編碼於 TransformWithState 時,[SPARK-51065][SQL] 不允許非空的結構。
- [SPARK-51237][SS] 視需要新增 transformWithState 協助 API 的詳細數據
- [SPARK-51222][SQL] 優化 ReplaceCurrentLike 函式调用
- [SPARK-51351][SS] 不要在 TWS 的 Python 工作者中生成輸出
- [SPARK-51084][SQL] 為 negativeScaleNotAllowedError 指派適當的錯誤類別
- [SPARK-51249][SS] 修正 NoPrefixKeyStateEncoder 和 Avro 編碼,以使用正確的版本位元組數目
- 作業系統安全性更新。
- Databricks Runtime 14.3 LTS 和更新版本包含修正導致二進位不相容的問題,該問題曾在具現化
2025年2月5日
- 此版本包含一個修正,解決在序列化已獲救的 XML 資料列時,影響特定數據類型轉換的問題。 受影響的數據類型是啟用
prefersDecimal時的日期、非 NTZ 時間戳和小數點。 若要深入瞭解已獲救的數據行,請參閱 獲救的數據行是什麼?。 - [SPARK-50770][SS] 移除 transformWithState 運算符 API 的封裝範圍
- 作業系統安全性更新。
- 此版本包含一個修正,解決在序列化已獲救的 XML 資料列時,影響特定數據類型轉換的問題。 受影響的數據類型是啟用
Databricks Runtime 15.4 LTS
請參閱 Databricks Runtime 15.4 LTS。
- 2025年12月9日
- 已更新 Java 函式庫:
- io.delta.delta-sharing-client_2.12 從 1.1.7 到 1.1.9
-
[SPARK-54427][SQL] 允許 ColumnarRow 以變體類型呼叫
copy - [SPARK-52579][PYTHON] 設定 Python 工作執行緒的定期追蹤傾印
- [SPARK-54180][SQL] 覆寫 BinaryFileFormat 的 toString
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025年11月18日
-
[SPARK-54078][SS] 針對
StateStoreSuite SPARK-40492: maintenance before unload的新測試,並移除舊測試的基礎設施 - [SPARK-54047][PYTHON] 在閒置超時後終止時使用差異錯誤
- 作業系統安全性更新。
-
[SPARK-54078][SS] 針對
- 2025 年 11 月 4 日
- 更新的 R 庫:
- 箭頭由 14.0.0.2 指向 21.0.0
- 作業系統安全性更新。
- 更新的 R 庫:
- 2025 年 10 月 21 日
- 掃描光化準則已更新,允許在需要校驗碼驗證時進行掃描光化。
判斷是否需要校驗和驗證現在來自 hadoop conf 而不是 SQLConf。 - 作業系統安全性更新。
- 掃描光化準則已更新,允許在需要校驗碼驗證時進行掃描光化。
- 2025 年 10 月 7 日
- [SPARK-53568][CONNECT][PYTHON] 修正 Spark Connect Python 用戶端錯誤處理邏輯中的數個小錯誤
- [火花-53574] 修正在巢狀計劃解析期間抹除 AnalysisContext 的問題
- 其他錯誤修正。
- 2025 年 9 月 16 日
- Snowflake 連接器現在使用
INFORMATION_SCHEMA資料表而不是命令SHOW SCHEMAS來列出結構描述。 這項變更會移除先前方法的10,000個架構限制,並改善對具有大量架構的資料庫支援。 - [SPARK-50870][SQL] 在 V2ScanRelationPushDown 中將轉換至時間戳記時新增時區
- 作業系統安全性更新。
- Snowflake 連接器現在使用
- 2025 年 9 月 9 日
- 修正了可能導致自動載入器無限期掛起的問題。
- 修正 Auto Loader 中可能導致工作失敗的暫時性錯誤
- [SPARK-51821][CORE] 呼叫 interrupt() 而不保留 uninterruptibleLock 以避免可能的死結
- [SPARK-49872][核心] 移除 jackson JSON 字串長度限制
- 作業系統安全性更新。
- 2025 年 8 月 26 日
- 已更新 Java 函式庫:
- io.delta.delta-sharing-client_2.12 從 1.1.6 變更為 1.1.7
- [SPARK-52482][SQL][CORE] 改善讀取某些損毀 zstd 檔案的例外狀況處理
- [SPARK-53192][CONNECT] 一律在 Spark Connect 計劃快取中快取 DataSource
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025 年 8 月 14 日
- [SPARK-51011][CORE] 新增任務在終止時是否會中斷的記錄
- 作業系統安全性更新。
- 2025年7月29日
- 作業系統安全性更新。
2025 年 7 月 21 日
- 針對已啟用 Photon 或使用 Arm64 型 CPU
mlflow-skinny的計算,已升級至 2.19.0、ray升級至 2.37.0,並databricks-feature-engineering升級至 0.8.0。
- 針對已啟用 Photon 或使用 Arm64 型 CPU
2025年7月15日
- 已修正使用 Spark Structured Streaming 從 Pulsar 進行數據串流時,非確定性的數據遺失問題。
-
[SPARK-52503][SQL][CONNECT] 修正
drop輸入數據行不存在時
- 2025年7月1日
- 已更新 Java 函式庫:
- org.mlflow.mlflow-spark_2.12,從 2.9.1 到 2.11.3
- 已移除 com.fasterxml.jackson.dataformat.jackson-dataformat-yaml 2.15.2
- 已移除 org.slf4j.slf4j-simple 1.7.25
- ZStandard 解壓縮支援檔案數據來源讀取器(json、csv、xml 和 text。)
- ZStandard 解壓縮支援檔案數據來源讀取器(json、csv、xml 和 text。)
- [15.4-16.4][spark-52521]](https://issues.apache.org/jira/browse/SPARK-52521)[SQL]
Right#replacement不應該動態存取 SQLConf - [SPARK-52482][SQL][CORE] 檔案數據源讀取器的 ZStandard 支援
- [SPARK-52312][SQL] 快取 DataFrame 時忽略 V2WriteCommand
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025年6月17日
- 已修正
cloud_files_state資料表值函式 (TVF) 無法用來跨管線讀取串流表的檔案層級狀態的限制。 - [SPARK-49646][SQL] 修正聯集/集合作業的子查詢去相關化問題,當 parentOuterReferences 包含在 collectedChildOuterReferences 中未涵蓋的參考時。
- [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 應保留計劃標識符
- 已修正
- 2025年6月3日
- 已更新 Python 函式庫:
- 密碼學從 3.4.8、41.0.3 更新至 41.0.3
- filelock 從版本 3.13.4、3.15.4 變更為版本 3.13.4
- importlib-metadata 從 4.6.4 到 6.0.0
- platformdirs 從 3.10.0, 3.11.0 變更為 3.10.0
- pyparsing 從版本 2.4.7、3.0.9 更新到 3.0.9
- zipp 從版本 1.0.0 更新至 3.11.0
- 已新增 pip 23.2.1
- 已新增 setuptools 68.0.0
- 已新增 wcwidth 0.2.5
- 已新增滾輪 0.38.4
- 已移除发行版 1.7.0
- 已移除 distro-info 1.1+ubuntu0.2
- 已移除 python-apt 2.4.0+ubuntu4
- 已更新 Java 函式庫:
- com.github.fommil.netlib.native_ref-java 從 1.1、1.1 到 1.1、1.1 的轉換
- com.github.fommil.netlib.native_system-java 從 1.1、1.1-natives 到 1.1、1.1
- com.github.fommil.netlib.netlib-native_ref-linux-x86_64從 1.1 原生到 1.1
- com.github.fommil.netlib.netlib-native_system-linux-x86_64從 1.1 原生到 1.1
- io.netty.netty-tcnative-boringssl-static from 2.0.61.Final-db-r16-linux-aarch_64, 2.0.61.Final-db-r16-linux-x86_64, 2.0.61.Final-db-r16-osx-aarch_64, 2.0.61.Final-db-r16-osx-x86_64, 2.0.61.Final-db-r16-windows-x86_64 至 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16
- io.netty.netty-transport-native-epoll 從 4.1.96.Final、4.1.96.Final-linux-aarch_64、4.1.96.Final-linux-x86_64 更新到 4.1.96.Final、4.1.96.Final、4.1.96.Final
- io.netty.netty-transport-native-kqueue,從 4.1.96.Final-osx-aarch_64、4.1.96.Final-osx-x86_64 到 4.1.96.Final、4.1.96.Final
- org.apache.orc.orc-core,從 1.9.2-shaded-protobuf 到 1.9.2
- org.apache.orc.orc-mapreduce 從版本 1.9.2-shaded-protobuf 跟換到版本 1.9.2
- software.amazon.cryptools.AmazonCorrettoCryptoProvider,從 1.6.2-linux-x86_64 到 1.6.2
- [SPARK-52159][SQL] 正確處理 JDBC 方言中表存在檢查
- 作業系統安全性更新。
- 已更新 Python 函式庫:
- 2025年5月20日
- 已更新 Java 函式庫:
- io.delta.delta-sharing-client_2.12,從 1.1.5 到 1.1.6
- 串流複製的會話將會用於共用叢集/無伺服器中的 foreachBatch 使用者函式內。 這與經典行為(指派的叢集)一致。
- 在這次變更之前,在 Photon 停用時,表達式中路徑的前置空格和標籤會被忽略。 例如,
select variant_get(parse_json('{"key": "value"}'), '$['key']')無法有效擷取"key"的值。 不過,用戶現在可以擷取這類密鑰。 - [SPARK-51935][SQL] 修正解譯 df.collect 中迭代器的延遲行為
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025年4月22日
- 已更新 Java 函式庫:
- org.apache.avro.avro 從 1.11.3 到 1.11.4
- org.apache.avro.avro-ipc 從 1.11.3 到 1.11.4
- org.apache.avro.avro-mapred 從 1.11.3 到 1.11.4
- 在 15.4、16.0、16.1、16.2 和 16.3 中,還原 "[SPARK-47895][SQL] 分組別名應為等冪元"
- [SPARK-50682][SQL] 內部別名應正式化
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025年4月9日
- (行為改變)若要套用重要的安全性修補程式,預設 Python 版本會從 Python 3.11.0rc1 更新為 Python 3.11.11。 此更新可能會影響 Databricks Runtime 15.4 LTS 上執行的一些工作負載,例如使用 Python 序列化來儲存和還原狀態在多次執行之間的工作負載,或者釘選到 3.11.0 Python 版本的工作負載。
- 已更新 Java 函式庫:
- 已移除 io.starburst.openjson.openjson 1.8-e.12
- 已移除 io.starburst.openx.data.json-serde 1.3.9-e.12
- 已移除 io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-47895][SQL] 依別名分組應該具有冪等性
- [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中傳播 GetStructField 元數據
- 作業系統安全性更新。
- 2025年3月31日
- 未啟用 Photon 的計算,
databricks-feature-engineering會升級至 0.8.0。 針對已啟用 Photon 的計算,databricks-feature-engineering維持在 0.6.0。
- 未啟用 Photon 的計算,
2025 年 3 月 11 日
- Databricks Runtime 14.3 LTS 和更新版本包含修正導致二進位不相容的問題,該問題曾在具現化
SparkListenerApplicationEnd類別並與 Apache Spark 相容的程式碼中出現。 這種不相容的原因是將SPARK-46399合併至Apache Spark。 此合併包含將預設自變數新增至SparkListenerApplicationEnd建構函式的變更。 若要還原二進位相容性,此修正程式會將單一自變數建構函式新增至SparkListenerApplicationEnd類別。 - [SPARK-50985][SS] 將 Kafka 時間戳位移不符錯誤分類,而不是對 KafkaTokenProvider 中缺少伺服器的情況進行 assert 並擲出錯誤。
- [SPARK-50791][SQL] 修正 State Store 錯誤處理中的 NPE
- [SPARK-50310][PYTHON] 停用 DQC 時改善資料列效能
- [SPARK-51222][SQL] 優化 ReplaceCurrentLike 函式调用
- [SPARK-49525][SS][CONNECT] 伺服器端串流查詢接聽總線監聽器的日誌小幅改善
- [SPARK-51084][SQL] 為 negativeScaleNotAllowedError 指派適當的錯誤類別
- 作業系統安全性更新。
- Databricks Runtime 14.3 LTS 和更新版本包含修正導致二進位不相容的問題,該問題曾在具現化
2025年2月11日
- 此版本包含一個修正,解決在序列化已獲救的 XML 資料列時,影響特定數據類型轉換的問題。 受影響的數據類型是啟用
prefersDecimal時的日期、非 NTZ 時間戳和小數點。 若要深入瞭解已獲救的數據行,請參閱 獲救的數據行是什麼?。 - [SPARK-50492][SS] 修正在 dropDuplicatesWithinWatermark 之後刪除事件時間欄位時引發的 java.util.NoSuchElementException。
- 作業系統安全性更新。
- 針對未啟用 Photon 的計算,
mlflow-skinny會升級至 2.19.0。 針對已啟用 Photon 的計算,mlflow-skinny維持在 2.13.1。
- 此版本包含一個修正,解決在序列化已獲救的 XML 資料列時,影響特定數據類型轉換的問題。 受影響的數據類型是啟用
- 2024 年 12 月 10 日
-
USE CATALOG語句現在支援IDENTIFIER子句。 透過這項支援,您可以根據字串變數或參數標記來參數化目前目錄。 - 此版本包含一項修正,解決在某些與背景自動壓縮相關的特定情況下,Delta 表的主鍵可能會被移除的問題。
- 在此版本中,Databricks 計算節點中的 SSD 所使用的快取大小會動態擴充至 SSD 的初始大小,並在必要時縮小至
spark.databricks.io.cache.maxDiskUsage限制。 請參閱 在 Azure Databricks 上使用快取優化效能。 - pyodbc 套件會從 4.0.38 版更新為 4.0.39 版。 這項變更是必要的,因為已在 4.0.38 版中找到 Bug,且該版本已從 PyPI 中移除。
- [SPARK-50329][SQL] 修正 InSet$toString
- [SPARK-47435][SQL] 修正 MySQL UNSIGNED TINYINT 的溢位問題
- [SPARK-49757][SQL] 支援 IDENTIFIERSET 語句中的 CATALOG 表達式
- [SPARK-50426][PYTHON] 使用內建或 Java 數據源時避免靜態 Python 數據源查閱
- [SPARK-48863][SQL] 修正了在啟用 “spark.sql.json.enablePartialResults” 時剖析 JSON 出現的 ClassCastException 錯誤。
- [SPARK-50310][PYTHON] 新增旗標以停用 PySpark 的 DataFrameQueryContext
- [15.3-15.4] [SPARK-50034][CORE] 修正將致命錯誤錯誤報告為未捕捉的異常的問題在
SparkUncaughtExceptionHandler中 - 作業系統安全性更新。
-
- 2024 年 11 月 26 日
- 在此版本中,您現在可以使用
vector_search來查詢文字輸入功能或使用query_text來查詢內嵌輸入功能。 - 您現在可以透過 Spark 組態屬性
spark.databricks.execution.timeout來設定 Spark Connect 查詢的超時。 對於在無伺服器運算上執行的筆記型電腦,預設值為9000(秒)。 在無伺服器計算和具有標準存取模式的計算上執行的作業,除非設定此組態屬性,否則不會有逾時。 持續超過指定逾時的執行會導致QUERY_EXECUTION_TIMEOUT_EXCEEDED錯誤。 - [SPARK-50322][SQL] 修正子查詢中的參數化標識符
- [SPARK-49615] [ML] 讓所有 ML 功能轉換器數據集架構驗證都符合 “spark.sql.caseSensitive” 設定。
- [SPARK-50124][SQL] LIMIT/OFFSET 應保留數據排序
- 作業系統安全性更新。
- 在此版本中,您現在可以使用
- 2024 年 11 月 5 日
- (重大變更)在 Databricks Runtime 15.4 LTS 和更新版本中,Photon 中的正則運算式處理會更新,以符合 Apache Spark 正則運算式處理的行為。 先前,Photon 執行的正則表示式函式,例如
split()和regexp_extract(),能接受一些被 Spark 解析器拒絕的正則表示式。 為了保持與 Apache Spark 的一致性,Photon 查詢將會因為那些被 Apache Spark 認為無效的正則表達式而導致失敗。 由於這項變更,如果您的Spark程式代碼包含無效的正規表示式,您可能會看到錯誤。 例如,先前被 Photon 接受的表達式split(str_col, '{'),其中包含不匹配的括號,現在會失敗。 若要修正此表示式,您可以跳脫大括號字元:split(str_col, '\\{')。 Photon 和 Spark 行為也因非 ASCII 字元的一些正則表達式比對而有所不同。 此系統也已更新,以確保 Photon 系統符合 Apache Spark 的運作方式。 - [SPARK-49782][SQL] ResolveDataFrameDropColumns 規則會透過子項目輸出來解析 UnresolvedAttribute
- [SPARK-49867][SQL]在呼叫 GetColumnByOrdinal 時,改善索引超出界限時的錯誤訊息
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [SPARK-49829] 修正優化,將輸入新增到流-流聯結中的狀態存儲(正確性修正)
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態的運算元,以防止 shuffle 被 AQE 修改
- [SPARK-46632][SQL] 修正當對等三元表達式具有不同子項時的子表達式消除問題
- [SPARK-49443][SQL][PYTHON] 實作 to_variant_object 表示式,並讓 schema_of_variant 表示式將 Variant 物件列印為 OBJECT。
-
[SPARK-49615] Bugfix:讓 ML 資料行架構驗證符合 Spark 配置
spark.sql.caseSensitive。
- (重大變更)在 Databricks Runtime 15.4 LTS 和更新版本中,Photon 中的正則運算式處理會更新,以符合 Apache Spark 正則運算式處理的行為。 先前,Photon 執行的正則表示式函式,例如
- 2024年10月22日
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 規則會透過子項目輸出來解析 UnresolvedAttribute
- [SPARK-49867][SQL]在呼叫 GetColumnByOrdinal 時,改善索引超出界限時的錯誤訊息
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [SPARK-49829] 修正優化,將輸入新增到流-流聯結中的狀態存儲(正確性修正)
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態的運算元,以防止 shuffle 被 AQE 修改
- [SPARK-46632][SQL] 修正當對等三元表達式具有不同子項時的子表達式消除問題
- [SPARK-49443][SQL][PYTHON] 實作 to_variant_object 表示式,並讓 schema_of_variant 表示式將 Variant 物件列印為 OBJECT。
-
[SPARK-49615] Bugfix:讓 ML 資料行架構驗證符合 Spark 配置
spark.sql.caseSensitive。
- 2024年10月10日
- [SPARK-49743][SQL] OptimizeCsvJsonExpr 不應該在剪除 GetArrayStructFields 時變更架構字段
- [SPARK-49688][CONNECT]修正中斷與執行計劃之間的資料競爭
- [BACKPORT] [SPARK-49474][SS] 將 FlatMapGroupsWithState 使用者函式中的錯誤分類到錯誤類別中
- [SPARK-49460][SQL]後續修正:修正潛在的 NPE 風險
- 2024年9月25日
- [SPARK-49628][SQL]ConstantFolding 應該先複製具狀態表示式,再評估
- [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
- [SPARK-49492][CONNECT]嘗試在「ExecutionHolder」非活動狀態下重新連接
- [SPARK-49458][CONNECT][PYTHON]透過 ReattachExecute 提供伺服器端會話標識碼
- [SPARK-49017][SQL] Insert 語句在使用多個參數時失敗
- [SPARK-49451] 允許parse_json中的重複索引鍵。
- 其他錯誤修正。
- 2024 年 9 月 17 日
- [SPARK-48463][ML] 讓 Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor 支援巢狀輸入列
- [SPARK-49409][CONNECT] 調整 CONNECT_SESSION_PLAN_CACHE_SIZE 的預設值
- [SPARK-49526][CONNECT][HOTFIX-15.4.2] 支援 ArtifactManager 中的 Windows 樣式路徑
- 還原 “[SPARK-48482][PYTHON] dropDuplicates 和 dropDuplicatesWithinWatermark 應該接受可變長度參數”
- [SPARK-43242][CORE] 修正在隨機偵測損毀診斷中擲回 「非預期的 BlockId 類型」
- [SPARK-49366][CONNECT] 將聯集節點視為數據框架數據行解析中的分葉
- [SPARK-49018][SQL] 修正 approx_count_distinct 在使用排序規則時無法正常工作
-
[SPARK-49460][SQL] 從 EmptyRelationExec 移除
cleanupResource() - [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理空值
- [SPARK-49336][CONNECT] 在截斷 protobuf 訊息時限制巢狀層級
- 2024 年 8 月 29 日
-
SHOW CREATE TABLE語句的輸出現在包含在實體化檢視或串流表上定義的任何資料列篩選或欄位遮罩。 請參閱 SHOW CREATE TABLE。 若要了解數據列篩選和數據行遮罩,請參閱 數據列篩選和數據行遮罩。 - 在以共用存取模式設定的計算上,Kafka 批次讀取和寫入現在有與結構化串流所記載相同的限制。 請參閱 串流限制。
- [SPARK-48941][SPARK-48970] 回移植 ML 寫入模組/讀取模組修正
-
[SPARK-49074][SQL] 修正具有
df.cache()的變異版本 - [SPARK-49263][CONNECT] Spark Connect Python 用戶端:一致地處理布林型「DataFrame」讀取器選項
- [SPARK-48955][SQL] 將 ArrayCompact 的變更納入 15.4 版本中
- [SPARK-48937][SQL] 新增 StringToMap 字串運算式的定序支援
- [SPARK-48929] 修正檢視內部錯誤並清除剖析器例外狀況內容
- [SPARK-49125][SQL] 允許 CSV 寫入中重複的數據行名稱
- [SPARK-48934][SS] 在 applyInPandasWithState 中設定逾時時,Python 的日期時間類型轉換不正確
- [SPARK-48843] 使用 BindParameters 防止無限迴圈
- [SPARK-48981] 修正 pyspark 中 StringType 的 simpleString 方法,以進行定序
- [SPARK-49065][SQL] 舊版格式器/剖析器中的重新基準化必須支援非 JVM 預設時區
- [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML 寫入器修正
- [SPARK-48725][SQL] 將 CollationAwareUTF8String.lowerCaseCodePoints 整合到字串運算式中
- [SPARK-48978][SQL] 在定序支援中實作 ASCII 快速路徑,以支援 UTF8_LCASE
- [SPARK-49047][PYTHON][CONNECT] 截斷訊息以進行記錄
- [SPARK-49146][SS] 將與追加模式串流查詢中水印遺失有關的斷言錯誤移至錯誤處理框架
- [SPARK-48977][SQL] 在 UTF8_LCASE定序下優化字串搜尋
- [SPARK-48889][SS] testStream 在完成之前卸載狀態存放區
- [SPARK-48463] 讓 StringIndexer 支援巢狀輸入數據行
- [SPARK-48954] try_mod() 取代 try_remainder()
- 作業系統安全性更新。
-
Databricks Runtime 14.3 LTS
請參閱 Databricks Runtime 14.3 LTS。
- 2025年12月9日
- [SPARK-52579][PYTHON] 設定 Python 工作執行緒的定期追蹤傾印
- [SPARK-54180][SQL] 覆寫 BinaryFileFormat 的 toString
- 作業系統安全性更新。
- 2025年11月18日
-
[SPARK-54078][SS] 針對
StateStoreSuite SPARK-40492: maintenance before unload的新測試,並移除舊測試的基礎設施 - [SPARK-54047][PYTHON] 在閒置超時後終止時使用差異錯誤
- 作業系統安全性更新。
-
[SPARK-54078][SS] 針對
- 2025 年 11 月 4 日
- 更新的 R 庫:
- 箭頭從 12.0.1 到 21.0.0
- 作業系統安全性更新。
- 更新的 R 庫:
- 2025 年 10 月 21 日
- 作業系統安全性更新。
- 2025 年 10 月 7 日
- [SPARK-53568][CONNECT][PYTHON] 修正 Spark Connect Python 用戶端錯誤處理邏輯中的數個小錯誤
- [火花-53574] 修正在巢狀計劃解析期間抹除 AnalysisContext 的問題
- 其他錯誤修正。
- 2025 年 9 月 16 日
- 作業系統安全性更新。
- 2025 年 9 月 9 日
- 修正了可能導致自動載入器無限期掛起的問題。
- [SPARK-49872][核心] 移除 jackson JSON 字串長度限制
- 作業系統安全性更新。
- 2025 年 8 月 26 日
- 已更新 Java 函式庫:
- io.delta.delta-sharing-client_2.12 從 1.1.6 變更為 1.1.7
- [SPARK-52482][SQL][CORE] 改善讀取某些損毀 zstd 檔案的例外狀況處理
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025 年 8 月 14 日
- 作業系統安全性更新。
- 2025年7月29日
- 作業系統安全性更新。
- 2025年7月15日
-
[SPARK-52503][SQL][CONNECT] 修正
drop輸入數據行不存在時 - 其他錯誤修正。
-
[SPARK-52503][SQL][CONNECT] 修正
- 2025年7月1日
- ZStandard 解壓縮支援檔案數據來源讀取器(json、csv、xml 和 text。)
- ZStandard 解壓縮支援檔案數據來源讀取器(json、csv、xml 和 text。)
-
[SPARK-52521][SQL]
Right#replacement不應該動態存取 SQLConf - [SPARK-52482][SQL][CORE] 檔案數據源讀取器的 ZStandard 支援
- 作業系統安全性更新。
- 2025年6月17日
- 已修正
cloud_files_state資料表值函式 (TVF) 無法用來跨管線讀取串流表的檔案層級狀態的限制。 - [SPARK-49646][SQL] 修正聯集/集合作業的子查詢去相關化問題,當 parentOuterReferences 包含在 collectedChildOuterReferences 中未涵蓋的參考時。
- 已修正
- 2025年6月3日
- 已更新 Python 函式庫:
- 從3.4.8、39.0.1到39.0.1的密碼編譯
- platformdirs 從 2.5.2、2.6.2 變更至 2.5.2
- pyparsing 從版本 2.4.7、3.0.9 更新到 3.0.9
- 已新增 pip 22.3.1
- 已新增 setuptools 65.6.3
- 已新增 tomli 2.0.1
- 已新增 wcwidth 0.2.5
- 已新增滾輪 0.38.4
- 已移除发行版 1.7.0
- 已移除 distro-info 1.1+ubuntu0.2
- 已移除 python-apt 2.4.0+ubuntu4
- 已更新 Java 函式庫:
- com.github.fommil.netlib.native_ref-java 從 1.1、1.1 到 1.1、1.1 的轉換
- com.github.fommil.netlib.native_system-java 從 1.1、1.1-natives 到 1.1、1.1
- com.github.fommil.netlib.netlib-native_ref-linux-x86_64從 1.1 原生到 1.1
- com.github.fommil.netlib.netlib-native_system-linux-x86_64從 1.1 原生到 1.1
- io.netty.netty-tcnative-boringssl-static from 2.0.61.Final-db-r16-linux-aarch_64, 2.0.61.Final-db-r16-linux-x86_64, 2.0.61.Final-db-r16-osx-aarch_64, 2.0.61.Final-db-r16-osx-x86_64, 2.0.61.Final-db-r16-windows-x86_64 至 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16
- io.netty.netty-transport-native-epoll 從 4.1.96.Final、4.1.96.Final-linux-aarch_64、4.1.96.Final-linux-x86_64 更新到 4.1.96.Final、4.1.96.Final、4.1.96.Final
- io.netty.netty-transport-native-kqueue,從 4.1.96.Final-osx-aarch_64、4.1.96.Final-osx-x86_64 到 4.1.96.Final、4.1.96.Final
- org.apache.orc.orc-core,從 1.9.2-shaded-protobuf 到 1.9.2
- org.apache.orc.orc-mapreduce 從版本 1.9.2-shaded-protobuf 跟換到版本 1.9.2
- software.amazon.cryptools.AmazonCorrettoCryptoProvider,從 1.6.1-linux-x86_64 到 1.6.1
- [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 應保留計劃標識符
- [SPARK-52159][SQL] 正確處理 JDBC 方言中表存在檢查
- 作業系統安全性更新。
- 已更新 Python 函式庫:
- 2025年5月20日
- 已更新 Java 函式庫:
- io.delta.delta-sharing-client_2.12,從 1.1.5 到 1.1.6
- [SPARK-51935][SQL] 修正解譯 df.collect 中迭代器的延遲行為
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025年4月22日
- 作業系統安全性更新。
2025 年 4 月 9 日
- [行為改變]Vacuum 作業現在執行類似於其他作業的 Writer 協定檢查,在不相容的舊版 Databricks 執行環境中執行時,防止對擁有新功能的資料表進行意外清理。
- [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中傳播 GetStructField 元數據
- 作業系統安全性更新。
2025 年 3 月 11 日
- Databricks Runtime 14.3 LTS 和更新版本包含修正導致二進位不相容的問題,該問題曾在具現化
SparkListenerApplicationEnd類別並與 Apache Spark 相容的程式碼中出現。 這種不相容的原因是將SPARK-46399合併至Apache Spark。 此合併包含將預設自變數新增至SparkListenerApplicationEnd建構函式的變更。 若要還原二進位相容性,此修正程式會將單一自變數建構函式新增至SparkListenerApplicationEnd類別。 - [SPARK-50791][SQL] 修正 State Store 錯誤處理中的 NPE
-
[SPARK-50705][SQL] 使
QueryPlan無需鎖定 - [SPARK-49525][SS][CONNECT] 伺服器端串流查詢接聽總線監聽器的日誌小幅改善
- 作業系統安全性更新。
- Databricks Runtime 14.3 LTS 和更新版本包含修正導致二進位不相容的問題,該問題曾在具現化
2025年2月11日
- 此版本包含一個修正,解決在序列化已獲救的 XML 資料列時,影響特定數據類型轉換的問題。 受影響的數據類型是啟用
prefersDecimal時的日期、非 NTZ 時間戳和小數點。 若要深入瞭解已獲救的數據行,請參閱 獲救的數據行是什麼?。 - [SPARK-50492][SS] 修正在 dropDuplicatesWithinWatermark 之後刪除事件時間欄位時引發的 java.util.NoSuchElementException。
- [SPARK-51084][SQL] 為 negativeScaleNotAllowedError 指派適當的錯誤類別
- 作業系統安全性更新。
- 此版本包含一個修正,解決在序列化已獲救的 XML 資料列時,影響特定數據類型轉換的問題。 受影響的數據類型是啟用
- 2024 年 12 月 10 日
- 此版本包含一項修正,解決在某些與背景自動壓縮相關的特定情況下,Delta 表的主鍵可能會被移除的問題。
- [SPARK-50329][SQL] 修正 InSet$toString
- 作業系統安全性更新。
- 2024 年 11 月 26 日
- [SPARK-49615] [ML] 讓所有 ML 功能轉換器數據集架構驗證都符合 “spark.sql.caseSensitive” 設定。
- 作業系統安全性更新。
- 2024 年 11 月 5 日
- [SPARK-48843] 使用 BindParameters 防止無限迴圈
- [SPARK-49829] 修正優化,將輸入新增到流-流聯結中的狀態存儲(正確性修正)
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [BACKPORT] [SPARK-49326][SS] 將 Foreach 接收器使用者函數錯誤的錯誤類別進行歸類
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 規則會透過子項目輸出來解析 UnresolvedAttribute
- [SPARK-46632][SQL] 修正當對等三元表達式具有不同子項時的子表達式消除問題
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態的運算元,以防止 shuffle 被 AQE 修改
- 作業系統安全性更新。
- 2024年10月22日
- [SPARK-48843] 使用 BindParameters 防止無限迴圈
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態的運算元,以防止 shuffle 被 AQE 修改
- [SPARK-46632][SQL] 修正當對等三元表達式具有不同子項時的子表達式消除問題
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 規則會透過子項目輸出來解析 UnresolvedAttribute
- [BACKPORT] [SPARK-49326][SS] 將 Foreach 接收器使用者函數錯誤的錯誤類別進行歸類
- [SPARK-49829] 修正優化,將輸入新增到流-流聯結中的狀態存儲(正確性修正)
- 作業系統安全性更新。
- 2024年10月10日
- [BACKPORT] [SPARK-49474][SS] 將 FlatMapGroupsWithState 使用者函式中的錯誤分類到錯誤類別中
- [SPARK-49743][SQL] OptimizeCsvJsonExpr 不應該在剪除 GetArrayStructFields 時變更架構字段
- [SPARK-49688][CONNECT]修正中斷與執行計劃之間的資料競爭
- 2024年9月25日
- [SPARK-48810][CONNECT] Session stop() API 應具有等冪性;如果工作階段已經被伺服器關閉,則停止不應該失敗。
- [SPARK-48719][SQL]修正 'RegrS... 的計算錯誤...
- [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
- [SPARK-49628][SQL]ConstantFolding 應該先複製具狀態表示式,再評估
- [SPARK-49492][CONNECT]嘗試在「ExecutionHolder」非活動狀態下重新連接
- 作業系統安全性更新。
- 2024 年 9 月 17 日
- [SPARK-49336][CONNECT] 在截斷 protobuf 訊息時限制巢狀層級
- [SPARK-43242][CORE] 修正在隨機偵測損毀診斷中擲回 「非預期的 BlockId 類型」
- [SPARK-48463][ML] 讓 Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor 支援巢狀輸入列
- [SPARK-49526][CONNECT] 支援 ArtifactManager 中的 Windows 樣式路徑
- [SPARK-49409][CONNECT] 調整 CONNECT_SESSION_PLAN_CACHE_SIZE 的預設值
- [SPARK-49366][CONNECT] 將聯集節點視為數據框架數據行解析中的分葉
- 2024 年 8 月 29 日
- [SPARK-49146][SS] 將與追加模式串流查詢中水印遺失有關的斷言錯誤移至錯誤處理框架
-
[SPARK-48862][PYTHON][CONNECT] 避免在未啟用 INFO 層級時呼叫
_proto_to_string - [SPARK-49263][CONNECT] Spark Connect Python 用戶端:一致地處理布林型「DataFrame」讀取器選項
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 回移植 ML 寫入模組/讀取模組修正
- [SPARK-48706][PYTHON] 高階函式的 Python UDF 不應擲回內部錯誤
- [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理空值
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中加入 isStreaming 屬性的標記
- [SPARK-49065][SQL] 舊版格式器/剖析器中的重新基準化必須支援非 JVM 預設時區
- [SPARK-48934][SS] 在 applyInPandasWithState 中設定逾時時,Python 的日期時間類型轉換不正確
- 2024 年 8 月 1 日
- 此版本包含 Spark Java 介面中
ColumnVector和ColumnarArray類別的錯誤修正。 在此修正之前,當其中一個類別的實例包含ArrayIndexOutOfBoundsException值時,可能會擲回null或傳回不正確的數據。 - 在筆記本和作業的無伺服器計算上,預設啟用 ANSI SQL 模式。 請參閱 支援的 Spark 組態參數。
- 在以共用存取模式設定的計算上,Kafka 批次讀取和寫入現在有與結構化串流所記載相同的限制。 請參閱 串流限制。
-
SHOW CREATE TABLE語句的輸出現在包含在實體化檢視或串流表上定義的任何資料列篩選或欄位遮罩。 請參閱 SHOW CREATE TABLE。 若要了解數據列篩選和數據行遮罩,請參閱 數據列篩選和數據行遮罩。 - 在以共用存取模式設定的計算上,Kafka 批次讀取和寫入現在有與結構化串流所記載相同的限制。 請參閱 串流限制。
-
SHOW CREATE TABLE語句的輸出現在包含在實體化檢視或串流表上定義的任何資料列篩選或欄位遮罩。 請參閱 SHOW CREATE TABLE。 若要了解數據列篩選和數據行遮罩,請參閱 數據列篩選和數據行遮罩。 - [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML 寫入器修正
- [SPARK-48889][SS] testStream 在完成之前卸載狀態存放區
- [SPARK-48705][PYTHON] 當程序以 pyspark 開始時,請明確使用 worker_main。
- [SPARK-48047][SQL] 降低空白 TreeNode 標籤的記憶體壓力
- [SPARK-48544][SQL] 降低空白 TreeNode BitSets 的記憶體壓力
- [SPARK-46957][CORE] 停用已移轉的重排檔案應該能夠從執行個體清除
- [SPARK-48463] 讓 StringIndexer 支援巢狀輸入數據行
- [SPARK-47202][PYTHON] 修正因錯字導致 tzinfo 處理日期時間錯誤的問題
- [SPARK-47713][SQL][CONNECT] 修正自連接失敗
- 作業系統安全性更新。
- 此版本包含 Spark Java 介面中
- 2024 年 7 月 11 日
- (行為變更)如果覆寫來源表,則針對 Delta 表來源快取的 DataFrames 現在會失效。 這項變更表示 Delta 數據表的所有狀態變更現在都會使快取的結果失效。 使用
.checkpoint()在 DataFrame 的存留期內保存數據表狀態。 - Snowflake JDBC 驅動程式已更新為 3.16.1 版。
- 此版本包含修正了在 Databricks 容器服務中執行時,Spark UI 環境標籤無法正確顯示的問題。
- 在筆記本和作業的無伺服器計算上,預設啟用 ANSI SQL 模式。 請參閱 支援的 Spark 組態參數。
- 若要在讀取數據時忽略無效的數據分割,檔案型數據源,例如 Parquet、ORC、CSV 或 JSON,可以將 ignoreInvalidPartitionPaths 數據源選項設定為 true。 例如:spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)。 您也可使用 SQL 組態 spark.sql.files.ignoreInvalidPartitionPaths。 不過,資料來源選項的優先順序高於 SQL 組態。 預設的設定為 false。
- [SPARK-48648][PYTHON][CONNECT] 將 SparkConnectClient.tags 正確設定為 threadlocal
- [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
- [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
- [SPARK-48383][SS] 為 Kafka 的 startOffset 選項中不符的分區拋出更好的錯誤信息
- [SPARK-48503][SQL] 修正錯誤允許對非等效欄位執行 group-by 時所出現的無效純量子查詢問題
- [SPARK-48100][SQL] 修正略過架構中未選取的巢狀結構字段的問題
- [SPARK-48273][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
- [SPARK-48252][SQL] 視需要更新 CommonExpressionRef
- [SPARK-48475][PYTHON] 在 PySpark 中優化 _get_jvm_function。
- [SPARK-48292][CORE] 還原 [SPARK-39195][SQL] 當認可的檔案與任務狀態不一致時,Spark OutputCommitCoordinator 應該中止執行階段。
- 作業系統安全性更新。
- (行為變更)如果覆寫來源表,則針對 Delta 表來源快取的 DataFrames 現在會失效。 這項變更表示 Delta 數據表的所有狀態變更現在都會使快取的結果失效。 使用
- 2024 年 6 月 17 日
-
applyInPandasWithState()可在具有標準存取模式的計算上使用。 - 修正了 Photon TopK 在排名窗口的優化中不正確處理包含結構體的分區的問題。
- [SPARK-48310][PYTHON][CONNECT] 快取的屬性必須傳回副本
-
[SPARK-48276][PYTHON][CONNECT] 添加缺少的
__repr__方法到SQLExpression - [SPARK-48294][SQL] 處理 nestedTypeMissingElementTypeError 中的字母小寫問題
- 作業系統安全性更新。
-
- 2024 年 5 月 21 日
- (功能變更)
dbutils.widgets.getAll()現在支援 在筆記本中取得所有小工具值。 - 修正了 try_divide() 函式中的 Bug,其中包含小數點的輸入會導致非預期的例外狀況。
- [SPARK-48056][CONNECT][PYTHON] 如果引發 SESSION_NOT_FOUND 錯誤且未收到任何部分回應,請重新執行計劃
- [SPARK-48146][SQL] 修正 With expression 斷言中的彙總函式
- [SPARK-47986][CONNECT][PYTHON] 伺服器關閉預設工作階段時,無法建立新的工作階段
- [SPARK-48180][SQL] 改善當 UDTF 呼叫時,由於 TABLE 參數在多個 PARTITION/ORDER BY 表達式周圍未加上括號而導致的錯誤。
- [SPARK-48016][SQL] 修正使用小數時 try_divide 函式中的錯誤
- [SPARK-48197][SQL] 避免無效的 Lambda 函式的斷言錯誤
- [SPARK-47994][SQL] 修正 SQLServer 中 "CASE WHEN" 欄位篩選下推的錯誤
- [SPARK-48173][SQL] CheckAnalysis 應該會看到整個查詢計劃
- [SPARK-48105][SS] 修正狀態存儲卸載和快照之間的競態條件
- 作業系統安全性更新。
- (功能變更)
- 2024 年 5 月 9 日
- (行為改變)
applyInPandas和mapInPandasUDF 類型現在支援執行 Databricks Runtime 14.3 LTS 和更新版本的共用存取模式計算。 - [SPARK-47739][SQL] 註冊邏輯 Avro 類型
- [SPARK-47941] [SS] [Connect] 將 ForeachBatch 工作者初始化錯誤傳播向 PySpark 的使用者
- [SPARK-48010][SQL] 避免在 resolveExpression 中重複呼叫 conf.resolver
-
[SPARK-48044][PYTHON][CONNECT] 緩存
DataFrame.isStreaming - [SPARK-47956][SQL] 未解析 LCA 參考的合理性確認
- [SPARK-47543][CONNECT][PYTHON] 將字典從 Pandas DataFrame 推斷為 MapType,以便建立 DataFrame。
- [SPARK-47819][CONNECT][Cherry-pick-14.3] 使用非同步回呼來進行執行階段清理
- [SPARK-47764][CORE][SQL] 根據 ShuffleCleanupMode 清除 shuffle 相依性
- [SPARK-48018][SS] 修正由於 groupId 是 null,當擲回 KafkaException.couldNotReadOffsetRange 時導致參數遺漏的錯誤
- [SPARK-47839][SQL] 修正 RewriteWithExpression 中的彙總錯誤
- [SPARK-47371] [SQL] XML:忽略 CDATA 中找到的資料列標籤
- [SPARK-47895][SQL] 全部分組應是等冪操作的
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- 作業系統安全性更新。
- (行為改變)
- 2024 年 4 月 25 日
-
[SPARK-47543][CONNECT][PYTHON] 從 Pandas DataFrame 推斷
dict為MapType,以允許建立 DataFrame - [SPARK-47694][CONNECT] 在用戶端上設定訊息大小上限
- [SPARK-47664][PYTHON][CONNECT][Cher-pick-14.3] 使用快取架構驗證數據行名稱
- [SPARK-47862][PYTHON][CONNECT] 修正 proto 檔案的產生
- 還原「[SPARK-47543][CONNECT][PYTHON] 從 Pandas DataFrame 將
dict推斷為MapType,以允許建立 DataFrame」 - [SPARK-47704][SQL] 啟用 spark.sql.json.enablePartialResults 時,JSON 剖析會失敗並出現 “java.lang.ClassCastException”
- [SPARK-47812][CONNECT] 支援 ForEachBatch 工作者的 SparkSession 的序列化
- [SPARK-47818][CONNECT][Cherry-pick-14.3] 在 SparkConnectPlanner 中引進計畫快取,以改善分析要求的效能
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite失敗且計畫無效 - 作業系統安全性更新。
-
[SPARK-47543][CONNECT][PYTHON] 從 Pandas DataFrame 推斷
- 2024 年 4 月 11 日
- (行為變更)為了確保跨計算類型的行為一致,具有標準存取模式之計算上的 PySpark UDF 現在符合無隔離和指派叢集上的 UDF 行為。 此更新包含下列可能會中斷現有程式代碼的變更:
- 具有
string傳回類型的 UDF 不再隱含地將非string值轉換成string值。 先前,不論傳回值的實際資料類型為何,具有str傳回型別的 UDF 都會使用str()函式包裝傳回值。 - 具有
timestamp傳回型別的 UDF 不再自動對timestamp套用timezone的轉換。 - Spark 叢集組態
spark.databricks.sql.externalUDF.*不再套用至使用標準存取模式計算的 PySpark UDF。 - Spark 叢集設定
spark.databricks.safespark.externalUDF.plan.limit不再影響 PySpark UDF,從而移除了在公開預覽階段每個查詢僅限 5 個 UDF 的限制。 - Spark 叢集組態
spark.databricks.safespark.sandbox.size.default.mib不再套用至使用標準存取模式計算的 PySpark UDF。 相反,使用的是系統上可用的記憶體。 若要限制 PySpark UDF 的記憶體,請使用spark.databricks.pyspark.udf.isolation.memoryLimit,且最小值為100m。
- 具有
-
TimestampNTZ數據類型現在支援作為液態叢集功能的叢集欄位。 請參閱 針對數據表使用液體叢集。 - [SPARK-47511][SQL] 透過重新指派 ID 來正規化 With 表達式
- [SPARK-47509][SQL] 封鎖 Lambda 和高階函式中的子查詢運算式
- [SPARK-46990][SQL] 修正載入由事件中心發出的空無內容的 Avro 檔案
- [SPARK-47638][PS][CONNECT] 略過 PS 中的欄位名稱驗證
- 作業系統安全性更新。
- (行為變更)為了確保跨計算類型的行為一致,具有標準存取模式之計算上的 PySpark UDF 現在符合無隔離和指派叢集上的 UDF 行為。 此更新包含下列可能會中斷現有程式代碼的變更:
- 2024 年 3 月 14 日
- [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
- [SPARK-47176][SQL] 提供 ResolveAllExpressionsUpWithPruning 輔助函式
- [SPARK-47145][SQL] 將數據表標識碼傳遞給 V2 策略的數據列數據源掃描執行程式。
- [SPARK-47044][SQL] 新增 JDBC 外部數據源的執行查詢,以說明輸出
- [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
- [SPARK-47070] 修正無效聚合,該問題發生於子查詢重寫之後
- [SPARK-47121][CORE] 避免在 StandaloneSchedulerBackend 關閉的過程中發生 RejectedExecutionExceptions
- 回復「[SPARK-46861][CORE] 防止 DAGScheduler 中的死鎖」
- [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
- [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier 應該在運算式樹狀架構中包含其他運算式
-
[SPARK-47129][CONNECT][SQL] 適當地設置
ResolveRelations快取連線計劃 - [SPARK-47241][SQL] 修正 ExtractGenerator 的規則順序問題
- [SPARK-47035][SS][CONNECT] 用戶端接聽程式的通訊協定
- 作業系統安全性更新。
- 2024 年 2 月 29 日
- 已修正了一個問題,即在 MERGE 命令中使用本機集合作為來源時,可能會導致操作指標 numSourceRows 報告的資料列數量是正確數量的兩倍。
- 使用者現在需要具有 SELECT 和 ANY FILE 的 MODIFY 許可權,才能在已定義的位置建立架構。
- [SPARK-47071][SQL] 如果包含特殊運算式,則內嵌 With 表達式
- [SPARK-47059][SQL] 為 ALTER COLUMN v1 命令附加錯誤上下文
- [SPARK-46993][SQL] 修正工作階段變數的常數展開
- 作業系統安全性更新。
- 2024 年 1 月 3 日
- [SPARK-46933] 將查詢執行時間計量新增至使用 JDBCRDD 的連接器。
- [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中出現斷言失敗的問題。
- [SPARK-46954] XML:將 InputStreamReader 包裝成 BufferedReader。
-
[SPARK-46655] 略過
DataFrame方法中的查詢內容攔截。 - [SPARK-44815] 緩存 df.schema 以避免額外的 RPC。
- [SPARK-46952] XML:限制損毀記錄的大小。
- [SPARK-46794] 從 LogicalRDD 條件約束中移除子查詢。
- [SPARK-46736] 保留 protobuf 連接器中的空白訊息欄位。
- [SPARK-45182] 重試由檢查碼決定的父不確定階段後,略過舊階段的任務完成。
- [SPARK-46414] 使用 prependBaseUri 來轉譯 javascript 匯入。
-
[SPARK-46383] 藉由減少
TaskInfo.accumulables()的生命週期來減少驅動程式堆積使用量。 - [SPARK-46861] 避免 DAGScheduler 中的死結。
- [SPARK-46954] XML: 優化結構索引查閱。
- [SPARK-46676] dropDuplicatesWithinWatermark 不應該在計劃標準化過程中失敗。
- [SPARK-46644] 修改 SQLMetric 中的新增和合併,改用 isZero。
- [SPARK-46731] 透過狀態資料來源來管理狀態存放區提供者的實例 - 讀取者。
-
[SPARK-46677] 修正
dataframe["*"]解析度。 - [SPARK-46610] 當選項中的索引鍵沒有對應值時,建立表應該拋出例外。
- [SPARK-46941] 如果包含 SizeBasedWindowFunction,則無法在 top-k 計算中插入視窗群組的限制節點。
- [SPARK-45433] 修正時間戳不符合指定 timestampFormat 時的 CSV/JSON 架構推斷。
- [SPARK-46930] 新增對 Avro 中 Union 類型欄位的自訂前置詞支援。
- [SPARK-46227] 回移至 14.3。
- [SPARK-46822] 在 JDBC 中將 JDBC 類型轉換為 Catalyst 類型時,遵循 spark.sql.legacy.charVarcharAsString。
- 作業系統安全性更新。
Databricks Runtime 13.3 LTS
請參閱 Databricks Runtime 13.3 LTS。
- 2025年12月9日
- [SPARK-54180][SQL] 覆寫 BinaryFileFormat 的 toString
- [SPARK-52579][PYTHON] 設定 Python 工作執行緒的定期追蹤傾印
- 作業系統安全性更新。
- 2025年11月18日
- [SPARK-54047][PYTHON] 在閒置超時後終止時使用差異錯誤
- 作業系統安全性更新。
- 2025 年 11 月 4 日
- 更新的 R 庫:
- 箭頭從 10.0.1 到 21.0.0
- 作業系統安全性更新。
- 更新的 R 庫:
- 2025 年 10 月 21 日
- 作業系統安全性更新。
- 2025 年 10 月 7 日
- 作業系統安全性更新。
- 2025 年 9 月 24 日
- 作業系統安全性更新。
- 2025 年 9 月 9 日
- 作業系統安全性更新。
- 2025 年 8 月 26 日
- 已更新 Java 函式庫:
- io.delta.delta-sharing-spark_2.12 從 0.7.12 變更為 0.7.13
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025 年 8 月 14 日
- 作業系統安全性更新。
- 2025年7月29日
- 作業系統安全性更新。
2025年7月15日
- 作業系統安全性更新。
2025年7月1日
- 作業系統安全性更新。
- 2025年6月17日
- 已修正
cloud_files_state資料表值函式 (TVF) 無法用來跨管線讀取串流表的檔案層級狀態的限制。 - 作業系統安全性更新。
- 已修正
- 2025年6月3日
- 已更新 Python 函式庫:
- 從3.4.8、37.0.1到37.0.1的密碼編譯
- platformdirs 從 2.5.2、2.6.2 變更至 2.5.2
- pyparsing 從版本 2.4.7、3.0.9 更新到 3.0.9
- 已新增 pip 22.2.2
- 已新增 setuptools 63.4.1
- 已新增 tomli 2.0.1
- 已新增 wcwidth 0.2.5
- 已新增滾輪 0.37.1
- 已移除发行版 1.7.0
- 已移除 distro-info 1.1+ubuntu0.2
- 已移除 python-apt 2.4.0+ubuntu4
- 已更新 Java 函式庫:
- com.github.fommil.netlib.native_ref-java 從 1.1、1.1 到 1.1、1.1 的轉換
- com.github.fommil.netlib.native_system-java 從 1.1、1.1-natives 到 1.1、1.1
- com.github.fommil.netlib.netlib-native_ref-linux-x86_64從 1.1 原生到 1.1
- com.github.fommil.netlib.netlib-native_system-linux-x86_64從 1.1 原生到 1.1
- 從 4.1.87.Final、4.1.87.Final-linux-aarch_64、4.1.87.Final-linux-x86_64 到 4.1.87.Final、4.1.87.Final、4.1.87.Final
- io.netty.netty-transport-native-kqueue 從 4.1.87.Final-osx-aarch_64、4.1.87.Final-osx-x86_64 到 4.1.87.Final、4.1.87.Final
- org.apache.orc.orc-core,版本從 1.8.4-shaded-protobuf 更新到 1.8.4
- org.apache.orc.orc-mapreduce 從 1.8.4-shaded-protobuf 升級至 1.8.4
- software.amazon.cryptools.AmazonCorrettoCryptoProvider,從 1.6.1-linux-x86_64 到 1.6.1
- [SPARK-52159][SQL] 正確處理 JDBC 方言中表存在檢查
- 作業系統安全性更新。
- 已更新 Python 函式庫:
- 2025年5月20日
- 已更新 Java 函式庫:
- io.delta.delta-sharing-spark_2.12,從 0.7.11 到 0.7.12
- 作業系統安全性更新。
- 已更新 Java 函式庫:
- 2025年4月22日
- [行為改變] 真空操作現在執行類似於其他操作的寫入協定檢查程序,防止當從舊版不相容的 Databricks 執行環境版本執行時,對具備新功能的資料表發生意外清理。
- 作業系統安全性更新。
- 2025年4月9日
- [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中傳播 GetStructField 元數據
- 作業系統安全性更新。
- 2025 年 3 月 11 日
- 作業系統安全性更新。
- 2025年2月11日
- [SPARK-50492][SS] 修正在 dropDuplicatesWithinWatermark 之後刪除事件時間欄位時引發的 java.util.NoSuchElementException。
- [SPARK-45915][SQL] 處理 decimal(x, 0) 與 PromoteStrings 中的 IntegralType 相同
- 作業系統安全性更新。
- 2024 年 12 月 10 日
- 作業系統安全性更新。
- 2024 年 11 月 26 日
- [SPARK-49615] [ML] 讓所有 ML 功能轉換器數據集架構驗證都符合 “spark.sql.caseSensitive” 設定。
- 作業系統安全性更新。
- 2024 年 11 月 5 日
- [SPARK-48843] 使用 BindParameters 防止無限迴圈
- [BACKPORT] [SPARK-49326][SS] 將 Foreach 接收器使用者函數錯誤的錯誤類別進行歸類
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態的運算元,以防止 shuffle 被 AQE 修改
- 作業系統安全性更新。
- 2024年10月22日
- [SPARK-48843] 使用 BindParameters 防止無限迴圈
- [BACKPORT] [SPARK-49326][SS] 將 Foreach 接收器使用者函數錯誤的錯誤類別進行歸類
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態的運算元,以防止 shuffle 被 AQE 修改
- 作業系統安全性更新。
- 2024年10月10日
- [SPARK-49743][SQL] OptimizeCsvJsonExpr 不應該在剪除 GetArrayStructFields 時變更架構字段
- 2024年9月25日
- [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
- [SPARK-48719][SQL]修正第一個參數為 Null 時 RegrSlope 和 RegrIntercept 的計算錯誤
- [SPARK-43242][CORE] 修正在隨機偵測損毀診斷中擲回 「非預期的 BlockId 類型」
- [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
- 作業系統安全性更新。
- 2024 年 9 月 17 日
- [SPARK-49526][CONNECT] 支援 ArtifactManager 中的 Windows 樣式路徑
- [SPARK-48463][ML] 讓 Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor 支援巢狀輸入列
- 作業系統安全性更新。
- 2024 年 8 月 29 日
- 2024 年 8 月 14 日
- [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理空值
- [SPARK-49065][SQL] 舊版格式器/剖析器中的重新基準化必須支援非 JVM 預設時區
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中加入 isStreaming 屬性的標記
- 2024 年 8 月 1 日
- 此版本包含 Spark Java 介面中
ColumnVector和ColumnarArray類別的錯誤修正。 在此修正之前,當其中一個類別的實例包含ArrayIndexOutOfBoundsException值時,可能會擲回null或傳回不正確的數據。 - [SPARK-47202][PYTHON] 修正因錯字導致 tzinfo 處理日期時間錯誤的問題
- [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML 寫入器修正
- [SPARK-48463] 讓 StringIndexer 支援巢狀輸入數據行
- 作業系統安全性更新。
- 此版本包含 Spark Java 介面中
- 2024 年 7 月 11 日
- (行為變更)如果覆寫來源表,則針對 Delta 表來源快取的 DataFrames 現在會失效。 這項變更表示 Delta 數據表的所有狀態變更現在都會使快取的結果失效。 使用
.checkpoint()在 DataFrame 的存留期內保存數據表狀態。 - 此版本包含修正了在 Databricks 容器服務中執行時,Spark UI 環境標籤無法正確顯示的問題。
- [SPARK-48383][SS] 為 Kafka 的 startOffset 選項中不符的分區拋出更好的錯誤信息
- [SPARK-48292][CORE] 還原 [SPARK-39195][SQL] 當認可的檔案與任務狀態不一致時,Spark OutputCommitCoordinator 應該中止執行階段。
- [SPARK-48503][SQL] 修正錯誤允許對非等效欄位執行 group-by 時所出現的無效純量子查詢問題
- [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
- [SPARK-48475][PYTHON] 在 PySpark 中優化 _get_jvm_function。
- [SPARK-48273][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
- [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
- 作業系統安全性更新。
- (行為變更)如果覆寫來源表,則針對 Delta 表來源快取的 DataFrames 現在會失效。 這項變更表示 Delta 數據表的所有狀態變更現在都會使快取的結果失效。 使用
- 2024 年 6 月 17 日
- [SPARK-48277] 改善 ErrorClassesJsonReader.getErrorMessage 的錯誤訊息
- 作業系統安全性更新。
- 2024 年 5 月 21 日
- (功能變更)
dbutils.widgets.getAll()現在支援 在筆記本中取得所有小工具值。 - [SPARK-48105][SS] 修正狀態存儲卸載和快照之間的競態條件
- [SPARK-47994][SQL] 修正 SQLServer 中 "CASE WHEN" 欄位篩選下推的錯誤
- 作業系統安全性更新。
- (功能變更)
- 2024 年 5 月 9 日
- [SPARK-47956][SQL] 未解析 LCA 參考的合理性確認
- [SPARK-46822][SQL] 在 JDBC 中將 JDBC 類型轉換為 Catalyst 類型時,遵循 spark.sql.legacy.charVarcharAsString 設定
- [SPARK-47895][SQL] 全部分組應是等冪操作的
- [SPARK-48018][SS] 修正由於 groupId 是 null,當擲回 KafkaException.couldNotReadOffsetRange 時導致參數遺漏的錯誤
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- 作業系統安全性更新。
- 2024 年 4 月 25 日
- [SPARK-44653][SQL] 非簡單 DataFrame 合併不應中斷快取
- 其他錯誤修正。
- 2024 年 4 月 11 日
- [SPARK-47509][SQL] 封鎖 Lambda 和高階函式中的子查詢運算式
- 作業系統安全性更新。
- 2024 年 4 月 1 日
- [SPARK-47385] 修正具有 Option 輸入的元組編碼器。
- [SPARK-38708][SQL] 針對 Hive 3.1,將 Hive 中繼存放區用戶端升級至 3.1.3
- [SPARK-47200][SS] Foreach 批次匯流接收器用戶函數錯誤的錯誤類別
- [SPARK-47368][SQL] 移除 ParquetRowConverter 中的 inferTimestampNTZ 設定檢查
- [SPARK-44252][SS] 定義新的錯誤類別,並適用於從 DFS 載入狀態失敗的情況
- [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
-
[SPARK-47300][SQL]
quoteIfNeeded應引用以數字開頭的標識符 - [SPARK-47305][SQL] 修正 PruneFilters,以在計劃同時具有批次和串流時,正確標記 LocalRelation 中的 isStreaming 旗標。
- [SPARK-47070] 修正無效聚合,該問題發生於子查詢重寫之後
- 作業系統安全性更新。
- 2024 年 3 月 14 日
- [SPARK-47145][SQL] 將數據表標識碼傳遞給 V2 策略的數據列數據源掃描執行程式。
- [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
- [SPARK-47176][SQL] 提供 ResolveAllExpressionsUpWithPruning 輔助函式
- [SPARK-47044][SQL] 新增 JDBC 外部數據源的執行查詢,以說明輸出
- [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
- 作業系統安全性更新。
- 2024 年 2 月 29 日
- 已修正了一個問題,即在 MERGE 命令中使用本機集合作為來源時,可能會導致操作指標 numSourceRows 報告的資料列數量是正確數量的兩倍。
- 使用者現在需要具有 SELECT 和 ANY FILE 的 MODIFY 許可權,才能在已定義的位置建立架構。
- 作業系統安全性更新。
- 2024 年 2 月 8 日
- 不支援在 Unity 目錄具象化檢視上執行變更資料饋送(CDF)查詢,並且嘗試使用 Unity 目錄具象化檢視執行 CDF 查詢會返回錯誤。 Unity Catalog 串流數據表在 Databricks Runtime 14.1 和更新版本中支持對非 AUTO CDC 資料表的 CDF 查詢。 Databricks Runtime 14.0 和更早版本中的 Unity 目錄串流數據表不支援 CDF 查詢。
- [SPARK-46794] 從 LogicalRDD 條件約束中移除子查詢。
- [SPARK-46933] 將查詢執行時間計量新增至使用 JDBCRDD 的連接器。
- [SPARK-45582] 確保在輸出模式下的串流聚合中,呼叫提交後不再使用儲存實例。
- [SPARK-46396] 時間戳記推斷不應拋出例外。
- [SPARK-46861] 避免 DAGScheduler 中的死結。
- [SPARK-46941] 如果包含 SizeBasedWindowFunction,則無法在 top-k 計算中插入視窗群組的限制節點。
- 作業系統安全性更新。
- 2024 年 1 月 31 日
- [SPARK-46610] 當選項中的索引鍵沒有對應值時,建立表應該拋出例外。
- [SPARK-46383] 藉由減少 TaskInfo.accumulables() 的生命週期來減少驅動程式堆積使用量。
- [SPARK-46600] 將 SqlConf 和 SqlApiConf 之間的共用程式碼移至 SqlApiConfHelper。
- [SPARK-46676] dropDuplicatesWithinWatermark 不應該在計劃標準化過程中失敗。
- [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中出現斷言失敗的問題。
- 作業系統安全性更新。
- 2024 年 1 月 17 日
- 當廣播聯結中的資料重新排列時發生記憶體不足錯誤,Photon 查詢所返回的解釋計劃的
shuffle節點會更新,並新增causedBroadcastJoinBuildOOM=true旗標。 - 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
- [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
- [SPARK-46173] 在日期剖析期間略過 trimAll 呼叫。
- [SPARK-46370] 在變更數據行預設值之後從數據表查詢時修正錯誤。
- [SPARK-46370] 在變更數據行預設值之後從數據表查詢時修正錯誤。
- [SPARK-46370] 在變更數據行預設值之後從數據表查詢時修正錯誤。
- [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中出現的演算法指數膨脹問題。
- [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
- 當視圖或資料表不存在時,[SPARK-46602] 在建立視圖時傳播
allowExisting。 - [SPARK-46249] 需要執行個體鎖定才能取得 RocksDB 計量,以防止與背景作業競爭。
- [SPARK-46417] 當呼叫 hive.getTable 且 throwException 為 false 時,不會導致失敗。
-
[SPARK-46538] 修正
ALSModel.transform中模稜兩可的欄位參考問題。 - [SPARK-46478] 將 SPARK-43049 回退以使用 oracle varchar(255) 作為字串類型。
- [SPARK-46250] 減少 test_parity_listener 的不穩定性。
-
[SPARK-46394] 修正 spark.catalog.listDatabases() 在
spark.sql.legacy.keepCommandOutputSchema設為 true 時,具有特殊字元的結構問題。 - [SPARK-46056] 使用 byteArrayDecimalType 預設值來修正 Parquet 向量化讀取 NPE。
- [SPARK-46145] spark.catalog.listTables 在找不到數據表或檢視表時不會擲回例外狀況。
- [SPARK-46466] 向量化的 parquet 讀取器不應對 ntz 類型的時間戳記進行基準重設。
- 當廣播聯結中的資料重新排列時發生記憶體不足錯誤,Photon 查詢所返回的解釋計劃的
- 2023 年 12 月 14 日
- 已修正了一個問題,即來自 JDBC 或 ODBC 用戶端的 getColumns 作業中的被特殊字符化的底線()被錯誤處理並被解譯為通配符。
- [SPARK-45920] 序數分組應具有等冪性。
- [SPARK-44582] 當 SMJ 上的迭代器已清理時,則略過它。
- [SPARK-45433] 修正時間戳不符合指定 timestampFormat 時的 CSV/JSON 架構推斷。
- [SPARK-45655] 允許 CollectMetrics 中 AggregateFunctions 內的不具決定性運算式。
- 作業系統安全性更新。
- 2023 年 11 月 29 日
- 已安裝了新的套件
pyarrow-hotfix,以補救 PyArrow RCE 弱點。 - Spark-snowflake 連接器已升級至 2.12.0。
-
[SPARK-44846] 移除了
RemoveRedundantAggregates之後的複雜群組運算式。 -
[SPARK-45544] 向
TransportContext中整合了 SSL 支援。 -
[SPARK-45892] 重構最佳化器計畫驗證以分離
validateSchemaOutput和validateExprIdUniqueness。 -
[SPARK-45730] 改善了
ReloadingX509TrustManagerSuite的時間限制。 -
[SPARK-45859] 將
ml.functions中的 UDF 物件設為惰性。 - 作業系統安全性更新。
- 已安裝了新的套件
- 2023 年 11 月 10 日
- 在 Delta Lake 串流查詢中,分割區篩選會先於速率限制下推,以達到更佳的使用效率。
- 已將 Unity Catalog 的流式資料表與具現化檢視中的資料提要查詢進行變更,以顯示錯誤訊息。
-
[SPARK-45545]
SparkTransportConf會在建立時繼承SSLOptions。 -
[SPARK-45584] 修正了
TakeOrderedAndProjectExec的子查詢執行失敗的問題。 -
[SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions和SparkTransportConf。 -
[SPARK-45541] 新增了
SSLFactory。 -
[SPARK-45430] 在
FramelessOffsetWindowFunction和IGNORE NULLS時offset > rowCount不再失敗。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- [SPARK-44219] 新增了額外的逐條規則的驗證,以用於最佳化重寫。
-
[SPARK-45543] 已修正一個問題:如果其他視窗函式的視窗框架與類似排名的函式不同,則會引發問題
InferWindowGroupLimit。 - 作業系統安全性更新。
- 2023 年 10 月 23 日
-
[SPARK-45256] 修正寫入超過初始容量的值時
DurationWriter失敗的問題。 -
[SPARK-45419] 為了防止在不同
rocksdb sst執行個體中重複使用rocksdb檔案,應移除較大版本的檔案版本對應記錄。 -
[SPARK-45426] 新增了對
ReloadingX509TrustManager的支援。 - 各種各樣的修復。
-
[SPARK-45256] 修正寫入超過初始容量的值時
- 2023 年 10 月 13 日
- Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
- 針對正和負索引,
array_insert函式是以 1 為基底,而在之前針對負索引,它以 0 為基底。 它現在會在輸入陣列的末尾(用索引 -1 表示)插入新元素。 若要還原先前的行為,請將spark.sql.legacy.negativeIndexInArrayInsert設定為true。 - 修正了在進行 CSV 架構推斷時,啟用
ignoreCorruptFiles的情況下,自動載入器未能忽略損毀檔案的問題。 - 還原 「[SPARK-42946]」。
- [SPARK-42205] 更新 JSON 通訊協定,以移除任務或階段啟動事件中的 Accumulables 紀錄。
-
[SPARK-45178] 對於不支援的來源
Trigger.AvailableNow,改為執行單一批次程序,而不是使用包裝器。 -
[SPARK-45316] 將新的參數
ignoreCorruptFiles和ignoreMissingFiles新增至HadoopRDD和NewHadoopRDD。 - [SPARK-44740] 修正工件的元數據值。
-
[SPARK-45360] 從
SPARK_REMOTE初始化了 Spark 工作階段建立器設定。 - [SPARK-44551] 編輯評論以與 OSS 同步。
- [SPARK-45346] 現在 Parquet 架構推斷在合併架構時會遵守區分大小寫的標誌。
-
[SPARK-44658]
ShuffleStatus.getMapStatus現在會傳回None,而不是Some(null)。 -
[SPARK-44840] 讓
array_insert()在負索引時以 1 為基底。
- 2023 年 9 月 14 日
-
[SPARK-44873] 已新增對Hive用戶端中的巢狀欄位
alter view的支援。 -
[SPARK-44878] 關閉
RocksDB寫入管理員的嚴格限制,以避免快取完成時插入例外狀況。
-
[SPARK-44873] 已新增對Hive用戶端中的巢狀欄位
- 2023 年 8 月 30 日
- dbutils
cp命令 (dbutils.fs.cp) 已針對更快速的複製進行最佳化。 透過這項改進,複製作業所需的時間最多可減少 100,視檔案大小而定。 此功能可在所有可於 Databricks 中存取的雲端和檔案系統中使用,範圍包括 Unity Catalog 磁碟區和 DBFS 掛載點。 -
[SPARK-44455] 在
SHOW CREATE TABLE結果中將識別符用反引號括住。 - [SPARK-44763] 修正了在包含間隔的二進位運算中,字串顯示為雙精度浮點數的問題。
-
[SPARK-44871] 修正了
percentile_disc行為。 - [SPARK-44714] 簡化了有關查詢的 LCA 解析限制。
-
[SPARK-44818] 修正了在初始化
taskThread之前發出的擱置中斷之工作競態。 - [SPARK-44505] 在 DSv2 掃描中新增了欄式儲存格式支援的覆蓋實作。
- [SPARK-44479] 修正了空結構類型的 Protobuf 轉換問題。
-
[SPARK-44718] 將
ColumnVector記憶體模式組態預設值與OffHeapMemoryMode組態值比對。 -
[SPARK-42941] 新增了對 Python 中
StreamingQueryListener的支援。 - [SPARK-44558] 匯出 PySpark 的 Spark Connect 記錄層級。
-
[SPARK-44464] 已修正
applyInPandasWithStatePythonRunner以輸出第一個欄位值為 Null 的資料列。 -
[SPARK-44643] 修正了當欄位為空的資料列時出現的錯誤
Row.__repr__。 - 作業系統安全性更新。
- dbutils
Databricks Runtime 12.2 LTS
請參閱 Databricks Runtime 12.2 LTS。
- 2025年12月9日
- 作業系統安全性更新。
- 2025年11月18日
- 作業系統安全性更新。
- 2025 年 11 月 4 日
- 更新的 R 庫:
- 箭頭從 10.0.0 到 21.0.0
- 作業系統安全性更新。
- 更新的 R 庫:
- 2025 年 10 月 21 日
- 將 Python 從 2.7.18 更新至 2.7.18.1
- 作業系統安全性更新。
- 2025 年 10 月 7 日
- 作業系統安全性更新。
- 2025 年 9 月 24 日
- 作業系統安全性更新。
- 2025 年 9 月 9 日
- 作業系統安全性更新。
- 2025 年 8 月 26 日
- 作業系統安全性更新。
- 2025 年 8 月 14 日
- 作業系統安全性更新。
- 2025年7月29日
- 作業系統安全性更新。
- 2025年7月15日
- 作業系統安全性更新。
- 2025年7月1日
- 作業系統安全性更新。
- 2025年6月17日
- 作業系統安全性更新。
- 2025年6月3日
- 已更新 Python 函式庫:
- 證書從 2019/11/28,2021/10/8 到 2021/10/8
- chardet 從 3.0.4、4.0.0 更新到 4.0.0
- idna 從版本 2.8 和 3.3 變更至 3.3
- 要求從 2.22.0、2.27.1 到 2.27.1
- 6 從 1.14.0、1.16.0 到 1.16.0
- urllib3 從 1.25.8、1.26.9 到 1.26.9
- 已新增 pip 21.2.4
- 已新增 setuptools 61.2.0
- 已新增 tomli 1.2.2
- 已新增 wcwidth 0.2.5
- 已新增滾輪 0.37.0
- 已移除發行版本 1.4.0
- 已移除發行版資訊 0.23+ubuntu1.1
- 已移除 python-apt 2.0.1+ubuntu0.20.4.1
- 已更新 Java 函式庫:
- software.amazon.cryptools.AmazonCorrettoCryptoProvider,從 1.6.1-linux-x86_64 到 1.6.1
- 作業系統安全性更新。
- 已更新 Python 函式庫:
- 2025年5月20日
- [SPARK-42655][SQL] 模棱兩可的欄位引用錯誤
- 作業系統安全性更新。
- 2025年4月22日
- [行為變更] 真空操作現在會執行類似其他操作的寫入協議檢查,以防止在使用不相容的舊版 Databricks 執行時間時,對具有新功能的資料表進行意外清理。
- 作業系統安全性更新。
- 2025年4月9日
- 作業系統安全性更新。
2025 年 3 月 11 日
- 作業系統安全性更新。
2024 年 12 月 10 日
- 作業系統安全性更新。
2024 年 11 月 26 日
- 其他錯誤修正。
2024年10月10日
- [SPARK-49743][SQL] OptimizeCsvJsonExpr 不應該在剪除 GetArrayStructFields 時變更架構字段
2024年9月25日
- [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
- [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
- 其他錯誤修正。
2024 年 9 月 17 日
- 作業系統安全性更新。
2024 年 8 月 29 日
- 其他錯誤修正。
2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 回移植 ML 寫入模組/讀取模組修正
- [SPARK-49065][SQL] 舊版格式器/剖析器中的重新基準化必須支援非 JVM 預設時區
- [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理空值
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中加入 isStreaming 屬性的標記
- [SPARK-48463][ML] 讓 StringIndexer 支援巢狀輸入數據行
- 作業系統安全性更新。
2024 年 8 月 1 日
- [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML 寫入器修正
2024 年 8 月 1 日
- 若要套用必要的安全性修補程式,Databricks Runtime 12.2 LTS 中的 Python 版本會從 3.9.5 升級至 3.9.19。
2024 年 7 月 11 日
- (行為變更)如果覆寫來源表,則針對 Delta 表來源快取的 DataFrames 現在會失效。 這項變更表示 Delta 數據表的所有狀態變更現在都會使快取的結果失效。 使用
.checkpoint()在 DataFrame 的存留期內保存數據表狀態。 - [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
- [SPARK-47070] 修正無效聚合,該問題發生於子查詢重寫之後
- [SPARK-42741][SQL] 在二進位比較中,當常值為 null 時,請勿取消類型轉換
- [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
- [SPARK-48503][SQL] 修正錯誤允許對非等效欄位執行 group-by 時所出現的無效純量子查詢問題
- [SPARK-48383][SS] 為 Kafka 的 startOffset 選項中不符的分區拋出更好的錯誤信息
- 作業系統安全性更新。
- (行為變更)如果覆寫來源表,則針對 Delta 表來源快取的 DataFrames 現在會失效。 這項變更表示 Delta 數據表的所有狀態變更現在都會使快取的結果失效。 使用
2024 年 6 月 17 日
- [SPARK-48277] 改善 ErrorClassesJsonReader.getErrorMessage 的錯誤訊息
- 其他錯誤修正。
2024年5月21日
- [SPARK-48105][SS] 修正狀態存儲卸載和快照之間的競態條件
- 作業系統安全性更新。
2024年5月9日
- [SPARK-44251][SQL] 在全外部 USING 連接中正確設置聚合聯結鍵的可為 Null 性属性
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- [SPARK-47956][SQL] 未解析 LCA 參考的合理性確認
- [SPARK-48018][SS] 修正由於 groupId 是 null,當擲回 KafkaException.couldNotReadOffsetRange 時導致參數遺漏的錯誤
- 作業系統安全性更新。
2024年4月25日
- 作業系統安全性更新。
2024年4月11日
- 作業系統安全性更新。
2024 年 4 月 1 日
- [SPARK-47305][SQL] 修正 PruneFilters,以在計劃同時具有批次和串流時,正確標記 LocalRelation 中的 isStreaming 旗標。
- [SPARK-44252][SS] 定義新的錯誤類別,並適用於從 DFS 載入狀態失敗的情況
- [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
- [SPARK-47200][SS] Foreach 批次匯流接收器用戶函數錯誤的錯誤類別
- 作業系統安全性更新。
2024 年 3 月 14 日
- [SPARK-47176][SQL] 提供 ResolveAllExpressionsUpWithPruning 輔助函式
- 回復「[SPARK-46861][CORE] 防止 DAGScheduler 中的死鎖」
- [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
- [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
- 作業系統安全性更新。
2024年2月29日
- 已修正了一個問題,即在 MERGE 命令中使用本機集合作為來源時,可能會導致操作指標 numSourceRows 報告的資料列數量是正確數量的兩倍。
- 使用者現在需要具有 SELECT 和 ANY FILE 的 MODIFY 許可權,才能在已定義的位置建立架構。
- [SPARK-45582][SS] 確保在輸出模式的串流聚合中呼叫 commit 後不會使用儲存體實例
- 作業系統安全性更新。
2024年2月13日
- [SPARK-46861] 避免 DAGScheduler 中的死結。
- [SPARK-46794] 從 LogicalRDD 條件約束中移除子查詢。
- 作業系統安全性更新。
2024 年 1 月 31 日
- [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中出現斷言失敗的問題。
- 作業系統安全性更新。
2023年12月25日
- 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
- [SPARK-39440] 新增組態以停用事件時間軸。
- [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
-
[SPARK-46394] 修正 spark.catalog.listDatabases() 在
spark.sql.legacy.keepCommandOutputSchema設為 true 時,具有特殊字元的結構問題。 - [SPARK-46417] 當呼叫 hive.getTable 且 throwException 為 false 時,不會導致失敗。
- [SPARK-43067] 更正 Kafka 連接器中錯誤類別資源檔案的位置。
- [SPARK-46249] 需要執行個體鎖定才能取得 RocksDB 計量,以防止與背景作業競爭。
- 當視圖或資料表不存在時,[SPARK-46602] 在建立視圖時傳播
allowExisting。 - [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
- [SPARK-46145] spark.catalog.listTables 在找不到數據表或檢視表時不會擲回例外狀況。
-
[SPARK-46538] 修正
ALSModel.transform中模稜兩可的欄位參考問題。 - [SPARK-42852] 將 NamedLambdaVariable 相關的變更從 EquivalentExpressions 回復。
2023年12月14日
- 已修正了一個問題,即來自 JDBC 或 ODBC 用戶端的 getColumns 作業中的被特殊字符化的底線()被錯誤處理並被解譯為通配符。
- [SPARK-44582] 當 SMJ 上的迭代器已清理時,則略過它。
- [SPARK-45920] 序數分組應具有等冪性。
- [SPARK-45655] 允許 CollectMetrics 中 AggregateFunctions 內的不具決定性運算式。
- 作業系統安全性更新。
2023年11月29日
- 已安裝了新的套件
pyarrow-hotfix,以補救 PyArrow RCE 弱點。 - 修正了來自 JDBC 或 ODBC 用戶端的作業中逸出的底線被錯誤解譯為通配符的問題。
-
[SPARK-42205] 移除了
Stage和Task啟動事件中的日誌累積量。 -
[SPARK-44846] 移除了
RemoveRedundantAggregates之後的複雜群組運算式。 -
[SPARK-43718] 修正了
USING聯結中鍵的可空性問題。 -
[SPARK-45544] 向
TransportContext中整合了 SSL 支援。 - [SPARK-43973] 結構化串流 UI 現在正確地顯示失敗的查詢。
-
[SPARK-45730] 改善了
ReloadingX509TrustManagerSuite的時間限制。 -
[SPARK-45859] 將
ml.functions中的 UDF 物件設為惰性。 - 作業系統安全性更新。
- 已安裝了新的套件
2023年11月14日
- 在 Delta Lake 串流查詢中,分割區篩選會先於速率限制下推,以達到更佳的使用效率。
-
[SPARK-45545]
SparkTransportConf會在建立時繼承SSLOptions。 -
[SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions和SparkTransportConf。 -
[SPARK-45584] 修正了
TakeOrderedAndProjectExec的子查詢執行失敗的問題。 -
[SPARK-45541] 新增了
SSLFactory。 -
[SPARK-45430] 在
FramelessOffsetWindowFunction和IGNORE NULLS時offset > rowCount不再失敗。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- 作業系統安全性更新。
2023年10月24日
-
[SPARK-45426] 新增了對
ReloadingX509TrustManager的支援。 - 各種各樣的修復。
-
[SPARK-45426] 新增了對
2023 年 10 月 13 日
- Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
- [SPARK-42553] 確保在間隔之後至少有一個時間單位。
- [SPARK-45346] Parquet 架構推斷在合併模式時會遵循大小寫敏感標誌。
-
[SPARK-45178] 對於不支援的來源
Trigger.AvailableNow,改為執行單一批次程序,而不是使用包裝器。 -
[SPARK-45084]
StateOperatorProgress使用精確且適當的重新分配分區數量。
2023年9月12日
-
[SPARK-44873] 已新增Hive用戶端對巢狀欄位的
alter view支援。 -
[SPARK-44718] 將
ColumnVector記憶體模式組態預設值與OffHeapMemoryMode組態值比對。 -
[SPARK-43799] 將描述項二進位選項新增至 PySpark
ProtobufAPI。 - 各種各樣的修復。
-
[SPARK-44873] 已新增Hive用戶端對巢狀欄位的
2023 年 8 月 30 日
-
[SPARK-44485] 最佳化了
TreeNode.generateTreeString。 -
[SPARK-44818] 修正了在初始化
taskThread之前發出的擱置中斷之工作競態。 -
[SPARK-44871][11.3-13.0] 修正了
percentile_disc行為。 - [SPARK-44714] 簡化了有關查詢的 LCA 解析限制。
- 作業系統安全性更新。
-
[SPARK-44485] 最佳化了
2023 年 8 月 15 日
- [SPARK-44504] 維護任務會在發生停止錯誤時清除已載入的服務提供者。
-
[SPARK-44464] 已修正
applyInPandasWithStatePythonRunner以輸出將Null作為第一列值的列。 - 作業系統安全性更新。
2023 年 7 月 29 日
- 修正當呼叫與其他外部或受控儲存位置衝突的儲存位置路徑時,
dbutils.fs.ls()傳回INVALID_PARAMETER_VALUE.LOCATION_OVERLAP的問題。 -
[SPARK-44199]
CacheManager不再無謂地刷新fileIndex。 - 作業系統安全性更新。
- 修正當呼叫與其他外部或受控儲存位置衝突的儲存位置路徑時,
2023年7月24日
-
[SPARK-44337] 修正了一個問題,即當任何欄位被設為
Any.getDefaultInstance時會造成解析錯誤。 -
[SPARK-44136] 修正了在
StateManager中,FlatMapGroupsWithStateExec會在執行器中具體化而不是在驅動程序中的問題。 - 作業系統安全性更新。
-
[SPARK-44337] 修正了一個問題,即當任何欄位被設為
2023年6月23日
- 作業系統安全性更新。
2023年6月15日
- 光子化
approx_count_distinct。 - Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
-
[SPARK-43779]
ParseToDate現在會在主執行緒中載入EvalMode。 -
[SPARK-43156][SPARK-43098] 擴充了在關閉
decorrelateInnerQuery時的純量子查詢計數錯誤測試。 - 作業系統安全性更新。
- 光子化
2023 年 6 月 2 日
-
failOnUnknownFields模式中的 JSON 剖析器會在DROPMALFORMED模式下丟棄記錄,並在FAILFAST模式中直接失敗。 - 使用
SHALLOW CLONEApache Iceberg 和 Apache Parquet 改善累加式更新的效能。 - 已修正 Auto Loader 中因提供的架構未包含推斷的分割而導致不同來源檔格式不一致的問題。 讀取推斷數據分割架構中遺漏數據行的檔案時,此問題可能會導致非預期的失敗。
- [SPARK-43404] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
-
[SPARK-43413][11.3-13.0] 修正了
IN子查詢ListQuery的空值屬性。 - [SPARK-43522] 修正了建立具有陣列索引的結構欄位名稱的問題。
-
[SPARK-43541] 傳播所有
Project標籤,以解析表達式和遺漏欄位。 -
[SPARK-43527] 修正了 PySpark 中的
catalog.listCatalogs。 - [SPARK-43123] 內部欄位元數據不再外泄至目錄。
- [SPARK-43340] 修正了事件記錄檔中遺漏的堆疊追蹤欄位。
-
[SPARK-42444]
DataFrame.drop現在正確地處理重複的數據行。 -
[SPARK-42937]
PlanSubqueries現在會將InSubqueryExec#shouldBroadcast設定為 true。 -
[SPARK-43286] 更新
aes_encryptCBC 模式以產生隨機初始化向量 (IV)。 -
[SPARK-43378] 正確地關閉
deserializeFromChunkedBuffer中的串流物件。
-
2023 年 5 月 17 日
- 當掃描結構異常的檔案時,Parquet 掃描現在能透過動態調整批次大小,有效防止記憶體不足問題 (OOM)。 分析檔案中繼資料,以預先降低批次大小,並在任務重試時再次降低,以作最後的安全措施。
- 如果 Avro 檔案只使用
failOnUnknownFields選項或failOnNewColumns架構演進模式中的自動載入器讀取,則具有不同數據類型的數據行會讀取為null,而不是擲回錯誤,指出無法讀取檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn選項。 - 自動載入器現在會執行下列動作。
-
- 如果提供其中一個資料類型,則正確讀取且不再修復
Integer、Short和Byte類型,但 Avro 檔案建議其他兩種類型之一。
- 如果提供其中一個資料類型,則正確讀取且不再修復
-
- 防止將間隔類型讀取為日期或時間戳類型,以避免獲得錯誤的日期。
-
- 防止讀取精確度較低的
Decimal類型。
- 防止讀取精確度較低的
- [SPARK-43172] 將 Spark 連線用戶端的主機和權杖暴露出來。
-
[SPARK-43293]
__qualified_access_only會在一般欄中忽略。 - [SPARK-43098] 修正了標量子查詢在 GROUP BY 子句中使用時出現的正確性錯誤。
- [SPARK-43085] 支援多段欄位名稱的指派。
-
[SPARK-43190]
ListQuery.childOutput現在與次要輸出相符。 - [SPARK-43192] 移除了使用者代理程式字元集驗證。
- 作業系統安全性更新。
2023年4月25日
- 如果只使用
failOnUnknownFields選項或failOnNewColumns架構演進模式中的自動載入器讀取 Parquet 檔案,則具有不同數據類型的數據行會讀取為null,而不是擲回錯誤,指出無法讀取檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn選項。 - 如果提供下列其中一個資料類型,自動載入器現在會正確讀取,且不再修復
Integer、Short和Byte類型。 Parquet 檔案指出其他兩種類型之一。 在已啟用獲救資料行的情況下,如果數據類型不匹配,會導致資料行被儲存,即便這些資料行是可讀的。 -
[SPARK-43009] 使用
sql()進行了常數Any的參數化 - [SPARK-42406] 透過移除欄位來終止 Protobuf 的遞迴欄位
-
[SPARK-43038] 透過
aes_encrypt()/aes_decrypt()支援 CBC 模式 -
[SPARK-42971] 當工作者處理
workdir事件時,如果appDirs為空,則變更為列印WorkDirCleanup標記 - [SPARK-43018] 修正含有時間戳常值的 INSERT 命令的錯誤
- 作業系統安全性更新。
- 如果只使用
2023年4月11日
- 在
SYNC命令中支援舊版資料來源格式。 - 修正了在存放庫外部的筆記本中,%autoreload 行為的問題。
- 已修正在巢狀 JSON 物件架構中偵測到新數據行時,自動載入器架構演進可能會進入無限失敗循環的問題。
-
[SPARK-42928] 同步處理
resolvePersistentFunction。 - [SPARK-42936] 修正當子彙總可以直接解析該子句時出現的 LCan 問題。
- [SPARK-42967] 修正了在階段被取消後任務開始的問題。
- 作業系統安全性更新。
- 在
2023 年 3 月 29 日
Databricks SQL 現在支援指定 Delta Lake 數據表數據行的預設值,不論是在數據表建立時間或之後。 後續
INSERT、UPDATE、DELETE和MERGE命令可以使用明確的DEFAULT關鍵詞來參考任何欄位的預設值。 此外,如果任何INSERT指派具有比目標數據表少之數據行的明確清單,則對應的數據行預設值會取代其餘數據行(如果沒有指定預設值則為 NULL)。例如:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z自動載入器現在會為
Trigger.AvailableNow數據流啟動至少一次同步的 RocksDB 日誌清理,確保檢查點可以定期清除,以適應快速運行的自動載入器數據流。 這可能會導致某些串流需要更長的時間才能關閉,但它會節省儲存體成本,並改善自動載入器在未來執行時的體驗。您現在可以修改 Delta 資料表,使用
DeltaTable.addFeatureSupport(feature_name)為資料表功能新增支援。[SPARK-42794] 將「lockAcquireTimeoutMs」增加到 2 分鐘,以便獲取 Structured Streaming 中的 RocksDB 狀態存儲區
[SPARK-42521] 在 INSERT 操作中,當使用者指定的欄位數少於目標表時,新增 NULL 值。
[SPARK-42702][SPARK-42623] 支援子查詢與 CTE 中的參數化查詢
[SPARK-42668] 在停止 HDFSStateStoreProvider 時,捕捉嘗試關閉壓縮串流的例外狀況
[SPARK-42403] JsonProtocol 應處理 Null JSON 字串
2023 年 3 月 8 日
- 錯誤訊息「無法初始化組態」已得到改善,以提供更多內容給客戶。
- 使用資料表屬性將功能特性新增至 Delta 表格時有術語變更。 慣用的語法現在是
'delta.feature.featureName'='supported',而不是'delta.feature.featureName'='enabled'。 為了保持回溯相容性,使用'delta.feature.featureName'='enabled'仍可運作,並且會繼續運作。 - zh-TW: 從這個版本開始,您可以在建立或取代數據表時,加入額外的屬性
delta.ignoreProtocolDefaults,以忽略與通訊協定相關的 Spark 組態,包括預設的讀取器和寫入器版本,以及預設支持的表格功能。 - [SPARK-42070] 將 Mask 函式引數的預設值從 -1 變更為 NULL
- [SPARK-41793] 以具有效小數的範圍子句定義的視窗框結果不正確
- [SPARK-42484] UnsafeRowUtils 改善的錯誤訊息
- [SPARK-42516] 在建立檢視時一律擷取會話時區設定
- [SPARK-42635] 修正 TimestampAdd 運算式。
- [SPARK-42622] 關閉值中的替換
- [SPARK-42534] 修正 DB2 方言限制子句
- [SPARK-42121] 新增內建數據表值函式 posexplode、posexplode_outer、json_tuple 和堆棧
- [SPARK-42045] ANSI SQL 模式:Round/Bround 應該在發生微小、小或重大整數溢位時返回錯誤
- 作業系統安全性更新。
Databricks Runtime 9.1 LTS
請參閱 Databricks Runtime 9.1 LTS。
- 2025年4月9日
- 作業系統安全性更新。
- 2025 年 3 月 11 日
- 作業系統安全性更新。
- 2025年2月11日
- 作業系統安全性更新。
- 2024 年 12 月 10 日
- 作業系統安全性更新。
- 2024 年 11 月 26 日
- 作業系統安全性更新。
- 2024 年 11 月 5 日
- 作業系統安全性更新。
- 2024年10月22日
- 作業系統安全性更新。
- 2024年10月10日
- 作業系統安全性更新。
- 2024年9月25日
- [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
- 作業系統安全性更新。
- 2024年9月6日
- 作業系統安全性更新。
- 2024 年 8 月 29 日
- [SPARK-49065][SQL] 舊版格式器/剖析器中的重新基準化必須支援非 JVM 預設時區
- 2024 年 8 月 14 日
- 2024 年 8 月 1 日
- 作業系統安全性更新。
- 2024 年 7 月 11 日
- 作業系統安全性更新。
- 2024 年 6 月 17 日
- 作業系統安全性更新。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 修正狀態存儲卸載和快照之間的競態條件
- 作業系統安全性更新。
- 2024 年 5 月 9 日
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- [SPARK-44251][SQL] 在全外部 USING 連接中正確設置聚合聯結鍵的可為 Null 性属性
- 作業系統安全性更新。
- 2024 年 4 月 25 日
- 其他錯誤修正。
- 2024 年 4 月 11 日
- 作業系統安全性更新。
- 2024 年 4 月 1 日
- 回復「[SPARK-46861][CORE] 防止 DAGScheduler 中的死鎖」
- 作業系統安全性更新。
- 2024 年 3 月 14 日
- 作業系統安全性更新。
- 2024 年 2 月 29 日
- 已修正了一個問題,即在 MERGE 命令中使用本機集合作為來源時,可能會導致操作指標 numSourceRows 報告的資料列數量是正確數量的兩倍。
- 作業系統安全性更新。
- 2024 年 2 月 13 日
- [SPARK-46861] 避免 DAGScheduler 中的死結。
- 作業系統安全性更新。
- 2024 年 1 月 31 日
- 作業系統安全性更新。
- 2023 年 12 月 25 日
- 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
- [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
- [SPARK-39440] 新增組態以停用事件時間軸。
- [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
- 2023 年 12 月 14 日
- 作業系統安全性更新。
- 2023 年 11 月 29 日
- 已安裝了新的套件
pyarrow-hotfix,以補救 PyArrow RCE 弱點。 -
[SPARK-45859] 將
ml.functions中的 UDF 物件設為惰性。 -
[SPARK-45544] 向
TransportContext中整合了 SSL 支援。 -
[SPARK-45730] 改善了
ReloadingX509TrustManagerSuite的時間限制。 - 作業系統安全性更新。
- 已安裝了新的套件
- 2023 年 11 月 14 日
-
[SPARK-45545]
SparkTransportConf會在建立時繼承SSLOptions。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
-
[SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions和SparkTransportConf。 -
[SPARK-45584] 修正了
TakeOrderedAndProjectExec的子查詢執行失敗的問題。 -
[SPARK-45541] 新增了
SSLFactory。 - [SPARK-42205] 移除了階段和任務啟動事件中的日誌累加器。
- 作業系統安全性更新。
-
[SPARK-45545]
- 2023 年 10 月 24 日
-
[SPARK-45426] 新增了對
ReloadingX509TrustManager的支援。 - 作業系統安全性更新。
-
[SPARK-45426] 新增了對
- 2023 年 10 月 13 日
- 作業系統安全性更新。
- 2023 年 9 月 10 日
- 各種各樣的修復。
- 2023 年 8 月 30 日
- 作業系統安全性更新。
- 2023 年 8 月 15 日
- 作業系統安全性更新。
- 2023 年 6 月 23 日
- Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- 作業系統安全性更新。
- 2023 年 6 月 15 日
- [SPARK-43098] 修正當純量子查詢含有 GROUP BY 子句時的 COUNT 正確性錯誤。
-
[SPARK-43156][SPARK-43098] 在關閉
decorrelateInnerQuery時,擴展了涉及純量子查詢計數錯誤的測試。 - [SPARK-40862] 支援 RewriteCorrelatedScalarSubquery 中的非彙總子查詢。
- 作業系統安全性更新。
- 2023 年 6 月 2 日
-
failOnUnknownFields模式中的 JSON 剖析器會在DROPMALFORMED模式下丟棄記錄,並在FAILFAST模式中直接失敗。 - 修正了 JSON 恢復的資料剖析中的問題,以防止
UnknownFieldException。 - 已修正 Auto Loader 中因提供的架構未包含推斷的分割而導致不同來源檔格式不一致的問題。 讀取推斷數據分割架構中遺漏數據行的檔案時,此問題可能會導致非預期的失敗。
-
[SPARK-37520] 新增
startswith()和endswith()字串函式 -
[SPARK-43413] 修正了
IN子查詢ListQuery的空值屬性。 - 作業系統安全性更新。
-
- 2023 年 5 月 17 日
- 作業系統安全性更新。
- 2023 年 4 月 25 日
- 作業系統安全性更新。
- 2023 年 4 月 11 日
- 已修正在巢狀 JSON 物件架構中偵測到新數據行時,自動載入器架構演進可能會進入無限失敗循環的問題。
- [SPARK-42967] 在取消階段之後啟動工作時修正 SparkListenerTaskStart.stageAttemptId。
- 2023 年 3 月 29 日
- 作業系統安全性更新。
- 2023 年 3 月 14 日
-
[SPARK-42484] 改善了
UnsafeRowUtils的錯誤訊息。 - 各種各樣的修復。
-
[SPARK-42484] 改善了
- 2023 年 2 月 28 日
- 用戶現在可以使用 Databricks Runtime 9.1 LTS 或更新版本,讀取和寫入需要閱讀器版本 3 和寫入器版本 7 的特定 Delta 表格。 若要成功,數據表通訊協定中列出的數據表功能必須由目前版本的 Databricks Runtime 支援。
- 作業系統安全性更新。
- 2023 年 2 月 16 日
- 作業系統安全性更新。
- 2023 年 1 月 31 日
- JDBC 數據表的數據表類型現在預設為 EXTERNAL。
- 2023 年 1 月 18 日
- 作業系統安全性更新。
- 2022 年 11 月 29 日
- 已修正自動載入器中的 JSON 剖析問題,該問題會在 JSON 包含巢狀物件,且所有欄位皆為字串形式(
cloudFiles.inferColumnTypes未設定或設定為false)時發生。 - 作業系統安全性更新。
- 已修正自動載入器中的 JSON 剖析問題,該問題會在 JSON 包含巢狀物件,且所有欄位皆為字串形式(
- 2022 年 11 月 15 日
- 將 Apache commons-text 升級至 1.10.0。
- 作業系統安全性更新。
- 各種各樣的修復。
- 2022 年 11 月 1 日
- 已修正一個問題,當 Delta 數據表中有一個使用者定義的數據行名為
_change_type,並且在該數據表上未啟用 變更數據摘要 時,當執行MERGE時,該數據行中的數據會錯誤地被填入 NULL 值。 - 已修正自動載入器的問題,啟用
allowOverwrites時,檔案可能會在相同的微批次中被重複複製。 - [SPARK-40596] 在 ExecutorDecommissionInfo 中填入 ExecutorDecommission 的訊息
- 作業系統安全性更新。
- 已修正一個問題,當 Delta 數據表中有一個使用者定義的數據行名為
- 2022 年 10 月 18 日
- 作業系統安全性更新。
- 2022 年 10 月 5 日
- 各種各樣的修復。
- 作業系統安全性更新。
- 2022 年 9 月 22 日
- 用戶可以設定spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) 以重新啟用 ADLS 上的自動載入器內建清單。 內建清單先前因效能問題而被關閉,這可能導致客戶的儲存成本增加。
- [SPARK-40315] 為 ArrayBasedMapData 的字面值新增 hashCode()
- [SPARK-40089] 修正一些小數類型的排序
- [SPARK-39887] RemoveRedundantAliases 應保留使投影節點輸出保持唯一性的別名
- 2022 年 9 月 6 日
- [SPARK-40235] 使用可中斷鎖,而不是在 Executor.updateDependencies() 中使用同步鎖
- [SPARK-35542] 修正:以 splitsArray、inputCols 和 outputCols 參數建立的多欄位分箱器,儲存後無法載入
- [SPARK-40079] 新增 Imputer inputCols 的空輸入情形驗證
- 2022 年 8 月 24 日
-
[SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以遵循
spark.sql.codegen.factoryMode - [SPARK-39962] 當群組屬性為空時套用投影
- 作業系統安全性更新。
-
[SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以遵循
- 2022 年 8 月 9 日
- 作業系統安全性更新。
- 2022 年 7 月 27 日
- 當來源不具決定性時,讓 Delta MERGE 作業的結果保持一致。
-
[SPARK-39689] 支援 CSV 資料來源中的雙字元
lineSep -
[SPARK-39575] 在
ByteBuffer#rewind中ByteBuffer#get之後新增AvroDeserializer。 - [SPARK-37392] 修正了催化劑最佳化工具的效能錯誤。
- 作業系統安全性更新。
- 2022 年 7 月 13 日
-
[SPARK-39419] 當比較子傳回 Null 時,
ArraySort會擲回例外狀況。 - 已關閉自動載入器針對 Azure 上的目錄清單使用內建雲端 API。
- 作業系統安全性更新。
-
[SPARK-39419] 當比較子傳回 Null 時,
- 2022 年 7 月 5 日
- 作業系統安全性更新。
- 各種各樣的修復。
- 2022 年 6 月 15 日
-
[SPARK-39283] 修正
TaskMemoryManager和UnsafeExternalSorter.SpillableIterator之間的死結。
-
[SPARK-39283] 修正
- 2022 年 6 月 2 日
-
[SPARK-34554] 在
copy()中實作ColumnarMap方法。 - 作業系統安全性更新。
-
[SPARK-34554] 在
- 2022 年 5 月 18 日
- 修正了自動載入器中潛在的內建記憶體洩漏。
- 將 AWS SDK 從 1.11.655 版升級為 1.11.678。
- [SPARK-38918] 巢狀欄位修剪應過濾掉不屬於當前資料關係的屬性。
-
[SPARK-39084] 使用
df.rdd.isEmpty()在工作完成時停止迭代器來修正TaskContext - 作業系統安全性更新。
- 2022 年 4 月 19 日
- 作業系統安全性更新。
- 各種各樣的修復。
- 2022 年 4 月 6 日
- [SPARK-38631] 使用基於 Java 的實作在 Utils.unpack 中解壓 tar 文件。
- 作業系統安全性更新。
- 2022 年 3 月 22 日
- 在具有數據表訪問控制或憑證傳遞功能的高並行叢集上,筆記本的工作目錄已變更為使用者的主目錄。 先前,Active Directory 為
/databricks/driver。 - [SPARK-38437] 資料來源中日期時間的寬鬆序列化
- [SPARK-38180] 允許在相關相等條件中的安全向上轉型表示式
- [SPARK-38155] 不允許在橫向子查詢中使用具有不支援述詞的相異聚合函式
- [SPARK-27442] 在 parquet 中讀取或寫入資料時,移除了檢查欄位。
- 在具有數據表訪問控制或憑證傳遞功能的高並行叢集上,筆記本的工作目錄已變更為使用者的主目錄。 先前,Active Directory 為
- 2022 年 3 月 14 日
- [SPARK-38236] 建立/改變數據表中指定的絕對檔案路徑會被視為相對
-
[SPARK-34069] 如果本機屬性
SPARK_JOB_INTERRUPT_ON_CANCEL設為 true,則中斷任務執行緒。
- 2022 年 2 月 23 日
- [SPARK-37859] 使用 Spark 3.1 使用 JDBC 建立的 SQL 數據表無法使用 Spark 3.2 讀取。
- 2022 年 2 月 8 日
- [SPARK-27442] 在 parquet 中讀取或寫入資料時,移除了檢查欄位。
- 作業系統安全性更新。
- 2022 年 2 月 1 日
- 作業系統安全性更新。
- 2022 年 1 月 26 日
- 已修正一個問題:在某些罕見情況下,Delta 資料表上的並發交易可能會以非序列化的順序完成提交。
- 已修正啟用 ANSI SQL 方言時,
OPTIMIZE命令可能會失敗的問題。
- 2022 年 1 月 19 日
- 次要修正與安全增強。
- 作業系統安全性更新。
- 2021 年 11 月 4 日
- 修正了一個可能導致結構化串流因
ArrayIndexOutOfBoundsException而失敗的問題。 - 修正了一種競爭狀態,可能會導致查詢因
java.io.IOException: No FileSystem for scheme等 IOException 而失敗,或導致對sparkContext.hadoopConfiguration的修改在查詢中不生效。 - 適用於 Delta Sharing 的 Apache Spark 連接器已升級至 0.2.0。
- 修正了一個可能導致結構化串流因
- 2021 年 10 月 20 日
- 將 BigQuery 連接器從 0.18.1 升級至 0.22.2。 這會新增對 BigNumeric 類型的支援。