使用資料表維護功能來管理 Fabric 中的差異資料表
Microsoft Fabric 中的 Lakehouse 提供資料表維護功能,以有效率地管理差異資料表,並讓它們隨時準備好進行分析。 本指南說明 Lakehouse 中的資料表維護功能及其功能。
Lakehouse 資料表維護功能的主要功能:
- 使用 Lakehouse 總管內差異資料表的內容右鍵動作來執行臨機操作資料表維護。
- 套用 bin-compaction、V-Order 和未參考的舊檔案清除。
注意
對於進階維護工作,例如將多個資料表維護命令分組、根據排程進行協調,建議選擇以程式碼為中心的方法。 要深入瞭解,請參閱 Delta Lake 資料表最佳化和 V-Order 文章。 您也可以使用 Lakehouse API 將資料表維護作業自動化,以深入瞭解 如何使用Microsoft網狀架構 REST API 管理 Lakehouse。
支援的檔案類型
Lakehouse 資料表維護 僅適用於 Delta Lake 資料表。 不支援使用 PARQUET、ORC、AVRO、CSV 和其他格式的舊版 Hive 資料表。
資料表維護作業
資料表維護功能提供三項作業。
- 最佳化:將多個小型 Parquet 檔案合併成大型檔案。 巨量資料處理引擎和所有網狀架構引擎都受益於擁有較大的檔案大小。 檔案大小超過 128 MB,並以最佳方式接近 1 GB,可改善叢集節點之間的壓縮和資料散發。 這可減少掃描許多小型檔案以執行有效率的讀取作業的需求。 載入大型資料表之後,執行最佳化策略是一般最佳做法。
- V 順序:將最佳化的排序、編碼和壓縮套用至 Delta parquet 檔案,以在所有網狀架構引擎上啟用快速讀取作業。 V 順序會在最佳化命令期間發生,並在使用者體驗中顯示為命令群組的選項。 若要了解有關 V-Order 的更多資訊,請參閱 Delta Lake 資料表最佳化和 V-Order。
- 真空:移除 Delta 資料表記錄不再參考的舊檔案。 檔案必須早於保留閾值,且預設檔案保留閾值為七天。 OneLake 中的所有差異資料表都有相同的保留期間。 不論您使用的網狀架構計算引擎為何,檔案保留期間都相同。 這項維護對於最佳化儲存體成本很重要。 設定較短的保留期間會影響 Delta 的時間移動功能。 一般的最佳做法是將保留間隔設定為至少 7 天,因為舊快照和未提交的檔案仍然可以被並並行資料表讀取器和寫入器使用。 使用 VACUUM 命令清除使用中檔案可能會導致讀取器失敗,或甚至是移除未認可的檔案時資料表損毀。
使用 Lakehouse 在 Delta 資料表上執行臨機操作資料表維護
功能使用方式:
從您的 Microsoft Fabric 帳戶,流覽至所需的 Lakehouse。
從 Lakehouse 總管的資料表區段,以滑鼠右鍵按鍵表,或使用省略號來存取內容功能表。
選取 維護 功能表項。
根據您的需求檢查對話框中的維護選項。 如需詳細資訊,請參閱本文的資料表維護作業一節。
選取 立即 執行 以執行資料表維護作業。
依通知 窗格或監視中樞 追蹤維護作業執行。
資料表維護如何運作?
選取立即執行 之後,會提交Spark維護作業來執行。
- Spark 作業會使用使用者身分識別和資料表許可權來提交。
- Spark 作業會取用提交作業之工作區/使用者的 Fabric 容量。
- 如果在資料表上執行另一個維護作業,則會拒絕新的維護作業。
- 不同資料表上的作業可以平行執行。
- 您可以在監視中樞輕鬆追蹤資料表維護作業。 在監視中樞主頁面的活動名稱資料行內尋找 「TableMaintenance」 文字。