Azure Databricks 上的優化建議

Azure Databricks 提供多項優化，支援湖屋上各種工作負載，從大規模 ETL 處理到臨時且互動式的查詢皆有涵蓋。其中許多優化都會自動進行。你只要使用 Azure Databricks 就能獲得這些好處。此外，大多數 Databricks 執行時功能都需要 Delta Lake，這是 Azure Databricks 中建立資料表的預設格式。

Azure Databricks 會設定預設值以優化大多數工作負載。但在某些情況下，變更組態設定可改善效能。

Databricks 執行時效能改進

注意

使用最新的 Databricks Runtime 來利用最新的效能增強功能。這裡記載的所有行為預設都會在 Databricks Runtime 10.4 LTS 和更新版本中啟用。

磁碟快取將數據載入至連接至計算叢集的磁碟區，加速對 Parquet 資料檔的重複讀取。
動態檔案剪除會略過不包含符合查詢述詞之數據文件的目錄，以改善查詢效能。
低洗牌合併減少了由 MERGE 操作導致重寫的資料檔案數量，並減少了合併後需要重執行 OPTIMIZE 的需求。
Apache Spark 3.0 引進自適應查詢執行，可為許多操作提供增強的效能。

Databricks 增強效能的建議

你可以在 Azure Databricks 上clone 表格，來製作來源資料集的深度或淺層複製。
成本型優化器利用數據表統計數據來加速查詢效能。
您可以使用 Spark SQL 與 JSON 字串互動，而不剖析字串。
高階函式可為許多沒有常見 Spark 運算元的作業，提供內建的優化性能。較高順序的函式比用戶定義的函式提供效能優勢。
Azure Databricks 提供多種內建運算子與特殊語法，用於處理複雜資料型別，包括陣列、結構體與 JSON 字串。
您可以手動調整範圍聯結的設定。請參閱範圍聯結優化。

選擇加入行為

Azure Databricks預設提供可序列化的隔離保證;將隔離層級設定為序列化可能會降低並行操作的吞吐量，但當需要讀取序列化時可能是必要的。
Azure Databricks已棄用bloom filter索引。改用預測式 I/O 或液體聚類。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-04-11