了解 Microsoft Fabric Warehouse 的 V 順序
適用於✅:Microsoft Fabric 的倉儲
Microsoft Fabric 儲存體中的倉儲會針對所有使用者資料使用 Delta Lake 資料表格式。 除了差異格式提供的最佳化之外,倉儲也會將最佳化套用至儲存體,以在分析案例上提供更快的查詢效能,同時保持遵守 Parquet 格式。 本文涵蓋 V 順序寫入最佳化、其優點,以及如何進行控制。
什麼是 V 順序?
V 順序是對 Parquet 檔案格式的寫入時間最佳化,可在 Microsoft Fabric 計算引擎 (例如 Power BI、SQL、Spark 等) 下實現如閃電般迅速的讀取。
Power BI 和 SQL 引擎利用 Microsoft Verti-Scan 技術和 V 排序的 Parquet 檔案,以實現類似記憶體中的資料存取時間。 Spark 和其他非 Verti-Scan 計算引擎也受益於 V 順序檔案,其讀取時間平均加快 10%,在某些情況下高達 50%。
V-Order 的運作方式是對 Parquet 檔案套用特殊排序、資料列群組散發、字典編碼和壓縮。 因此,計算引擎需要更少的網路、磁碟和 CPU 資源來從儲存體讀取資料,從而提供成本效益和效能。 完全符合開放原始碼 Parquet 格式;所有 Parquet 引擎都可以將其作為一般 Parquet 檔案進行讀取。
效能考量
在決定停用 V 順序之前,請考慮下列事項:
- Microsoft Fabric Direct Lake 模式取決於 V 順序。
- 在倉儲中,V 順序對效能的影響可能會因資料表結構描述、資料磁碟區、查詢和擷取模式而異。
- 在決定停用資料之前,務必先測試 V 順序如何影響資料擷取和查詢的效能。 請考慮使用原始檔控制建立測試倉儲的複本、對複本停用 V 順序,以及執行資料擷取和查詢工作,以測試效能影響。
V 順序可能沒有好處的案例
在決定停用 V 順序是否適合您之前,請考慮 V 順序對效能的影響。
警告
目前,停用 V 順序只能在倉儲層級完成,而且無法復原:一旦停用,就無法再次啟用。 如果使用者選擇在 Fabric Warehouse 中停用 V 順序,則必須考慮效能。
停用 V 順序對於寫入密集型倉儲可能非常有用,例如專門用於在資料擷取過程中暫存資料的倉儲。 暫存資料表通常會卸除並重新建立 (或截斷),以處理新的資料。 然後,這些暫存資料表可能只讀取一次或兩次,這可能無法證明透過套用 V 順序所新增的擷取時間是合理的。 透過停用 V 順序並減少擷取資料的時間,可能會減少擷取作業期間處理資料的整體時間。 在這種情況下,您應將暫存倉儲與使用者面向的主要倉儲分開,以便分析查詢和 Power BI 可以從 V 順序中受益。