資料跳過

注意

在 Databricks 執行 13.3 及以上版本中，Databricks 建議使用液態叢集來進行資料表佈局。叢集與 Z 順序不相容。請參閱針對數據表使用液體叢集。

當您將資料寫入資料表時，資料跳過資訊會自動被收集。 Azure Databricks 利用這些資訊（最小值與最大值、空值計數及每個檔案的總紀錄）在查詢時提供更快的查詢速度。

您必須收集用於 ZORDER 語句的欄位統計資訊。請參閱什麼是 Z 排序？。

指定統計欄位

對於 Unity Catalog 外部資料表，統計資料預設會收集在你資料表結構中定義的前 32 欄。對於 Unity Catalog 管理的資料表，跳檔統計數據透過預測優化進行智能選擇，並且不受 32 欄的限制。預測最佳化會自動執行 ANALYZE，這是收集統計資料的指令。 Databricks 建議為所有 Unity 目錄受控數據表啟用預測優化，以簡化數據維護並減少記憶體成本。請參閱 Unity Catalog 管理資料表的預測性優化。

如果您未使用預測性優化，您可以藉由設定下列其中一個數據表屬性來修改將統計數據集合限制為 32 個數據行的行為：

表格屬性	支援 Databricks Runtime	描述
`dataSkippingNumIndexedCols`	所有支援的 Databricks 執行時間版本	可增加或減少統計資料收集欄位的數量。取決於數據行順序。
`dataSkippingStatsColumns`	Databricks Runtime 13.3 LTS 和更新版本	指定一個清單，其中包含要收集統計資料的欄位名稱。由`dataSkippingNumIndexedCols`取代。

數據表屬性可以在數據表建立時設定，或使用 ALTER TABLE 語句來設定。詳見資料表屬性參考。下列範例會覆寫默認統計數據集合行為，以在具名數據行上設定統計數據集合：

-- For Delta tables
ALTER TABLE table_name SET TBLPROPERTIES('delta.dataSkippingStatsColumns' = 'col1, col2, col3')

-- For Iceberg tables
ALTER TABLE table_name SET TBLPROPERTIES('iceberg.dataSkippingStatsColumns' = 'col1, col2, col3')

更新這些屬性不會自動重新計算現有數據的統計數據。相反地，它會在加入或更新數據表中的數據時影響未來統計數據集合的行為。統計數據不會用於未包含在目前統計欄位列表中的欄位。

在 Databricks Runtime 14.3 LTS 及以上版本中，如果您已更改資料表屬性或更改統計欄位，您可以使用以下指令手動觸發資料表的統計重算：

ANALYZE TABLE table_name COMPUTE DELTA STATISTICS

注意

在統計數據收集期間，會截斷長字串。您可以選擇從統計數據集合中排除長字串數據行，特別是當數據行不常用於篩選查詢時。

什麼是 Z 排序？

注意

Databricks 建議所有新增資料表都使用 liquid 叢集。您不能使用 ZORDER 與液體群集結合。請參閱針對數據表使用液體叢集。

Z 排序是一種技術，用來將相關資訊共置在同一組檔案中。 Azure Databricks 的資料跳過演算法會自動利用這種共在地性。這種行為減少了需要讀取的資料量。進行 Z 順序排列資料時，請在 ZORDER BY 語句中指定排序的欄位：

OPTIMIZE events
WHERE date >= current_timestamp() - INTERVAL 1 day
ZORDER BY (eventType)

如果您預期在查詢條件中通常會使用某個資料行，並且該資料行具有高基數（也就是相異的值數量很多），請使用 ZORDER BY。

您可以將多個欄位指定為 ZORDER BY，並以逗號分隔。不過，局部性的有效性會隨著每增加一個額外欄位而降低。對沒有收集統計數據的數據行進行 Z 排序將會無效，而且浪費資源。這是因為跳過數據需要欄位本地統計數據，例如最小值、最大值和計數。您可以藉由重新排序架構中的數據行來設定特定數據行的統計數據收集，也可以增加要收集統計數據的數據行數目。

注意

Z 排序 不是等冪， 而是要做為累加作業。 Z 排序所需的時間不能確定會在多次執行中減少。不過，如果未將任何新數據新增至只是 Z 排序的數據分割，該分割區的另一個 Z 順序將不會有任何作用。
Z 順序的目標是針對 Tuple 數目產生平均平衡的數據檔，但不一定是磁碟上的數據大小。這兩個量值最常相互關聯，但在某些情況下，情況並非如此，導致優化工作時間發生扭曲。

例如，如果您 ZORDER BY日期和最近的記錄全都比過去更寬（例如數位或字串值較長），則預期 OPTIMIZE 作業的工作工期將會扭曲，以及產生的檔案大小。不過，這隻是命令本身的問題 OPTIMIZE ;它不應該對後續查詢產生任何負面影響。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-03-06

資料跳過

指定統計欄位

什麼是 Z 排序？

意見反應

其他資源