將 Azure Databricks 中的聯結效能優化

透過 Azure Databricks，您可以跨批次或串流數據表建立聯結。有些聯結可能很昂貴。下列項目可協助您優化聯結。

如需有關聯接的詳細資訊，請參閱在 Azure Databricks 上處理聯接。

啟用 Photon 的計算一律會選取最佳聯結類型。請參閱什麼是 Photon？。使用最近啟用 Photon 的 Databricks Runtime 版本通常會提供良好的聯結效能，但您也應該考慮下列建議：

交叉聯結所費不貲。從需要低延遲或頻繁重新計算的工作負載和查詢中移除交叉聯結。
聯結順序很重要。執行多個聯結時，請一律先聯結最小的數據表，然後將結果與較大的數據表聯結。
最佳化工具可能難以處理包含許多聯結和彙總的查詢。儲存中繼結果可以加速查詢計劃和計算結果。
保留全新的統計資料以改善效能。預測優化會自動更新和維護統計數據。請參閱 Unity Catalog 管理資料表的預測性優化。

您也可以執行查詢 ANALYZE TABLE table_name COMPUTE STATISTICS 來更新查詢規劃工具中的統計數據。

備註

在 Databricks Runtime 14.3 LTS 和更新版本中，您可以修改 Delta Lake 針對略過的數據收集統計數據的數據行，然後重新計算 Delta 記錄中的現有統計數據。請參閱「指定統計欄位」。

意見反應

此頁面對您有幫助嗎？