共用方式為


將 Azure Databricks 中的聯結效能優化

透過 Azure Databricks,您可以跨批次或串流數據表建立聯結。 有些聯結可能很昂貴。 下列項目可協助您優化聯結。

如需有關聯接的詳細資訊,請參閱 在 Azure Databricks 上處理聯接

啟用 Photon 的計算一律會選取最佳聯結類型。 請參閱什麼是 Photon?。 使用最近啟用 Photon 的 Databricks Runtime 版本通常會提供良好的聯結效能,但您也應該考慮下列建議:

  • 交叉聯結所費不貲。 從需要低延遲或頻繁重新計算的工作負載和查詢中移除交叉聯結。

  • 聯結順序很重要。 執行多個聯結時,請一律先聯結最小的數據表,然後將結果與較大的數據表聯結。

  • 最佳化工具可能難以處理包含許多聯結和彙總的查詢。 儲存中繼結果可以加速查詢計劃和計算結果。

  • 保留全新的統計資料以改善效能。 預測優化會自動更新和維護統計數據。 請參閱 Unity Catalog 管理資料表的預測性優化

    您也可以執行查詢 ANALYZE TABLE table_name COMPUTE STATISTICS 來更新查詢規劃工具中的統計數據。

備註

在 Databricks Runtime 14.3 LTS 和更新版本中,您可以修改 Delta Lake 針對略過的數據收集統計數據的數據行,然後重新計算 Delta 記錄中的現有統計數據。 請參閱指定 Delta 統計資料欄