了解重複資料刪除

適用於:Windows Server 2022、Windows Server 2019、Windows Server 2016、Azure Stack HCI,版本 21H2 和 20H2

本文件說明重複資料刪除的運作方式。

重複資料刪除如何運作?

Windows Server 中的重複資料刪除是以下列兩個原則建立:

  1. 最佳化不應該以寫入磁碟重複資料刪除的方式,使用後處理模型來最佳化資料。 所有資料都會在未經最佳化的情況下寫入磁碟,並在稍後由重複資料刪除最佳化。

  2. 最佳化不應變更存取語意這表示使用者和應用程式在存取已最佳化磁碟區上的資料時,會完全不知道他們存取的檔案已經過重複刪除處理。

針對磁碟區啟用之後,重複資料刪除就會在背景執行,以:

  • 找出該磁碟區上檔案的重複模式。
  • 使用稱為重新分析點並指向該區塊唯一複本的特殊指標,順暢地移動這些部分或區塊。

這會在下列四個步驟中發生︰

  1. 掃描檔案系統以尋找符合最佳化原則的檔案。
    Scan file system
  2. 將檔案分成可變更大小的區塊。
    Break files into chunks
  3. 識別唯一的區塊。
    Identify unique chunks
  4. 將區塊放入區塊存放區,並選擇性壓縮。
    Move to Chunk Store
  5. 使用重新分析點將區塊存放區中的原始檔案資料流取代為現在已最佳化的檔案。
    Replace file stream with reparse point

讀取最佳化檔案時,檔案系統會使用重新分析點將檔案傳送給重複資料刪除檔案系統篩選器 (Dedup.sys)。 篩選器會將讀取作業重新導向至區塊存放區中構成該檔案資料流的適當區塊。 修改某個範圍內已經過重複資料刪除處理的檔案,會在未經最佳化的情況下寫入磁碟,並在下一次執行最佳化工作時進行最佳化。

使用類型

下列使用類型針對一般工作負載提供合理的重複資料刪除功能組態︰

使用類型 理想的工作負載 不同的地方
預設 一般用途檔案伺服器︰
  • 小組共用
  • 工作資料夾
  • 資料夾重新導向
  • 軟體開發共用
  • 背景最佳化
  • 預設的最佳化原則︰
    • 最短檔案存在時間 = 3 天
    • 最佳化使用中檔案 = 否
    • 最佳化部分檔案 = 否
Hyper-V 虛擬桌面基礎結構 (VDI) 伺服器
  • 背景最佳化
  • 預設的最佳化原則︰
    • 最短檔案存在時間 = 3 天
    • 最佳化使用中檔案 = 是
    • 最佳化部分檔案 = 是
  • Hyper-V Interop 的內部調整
備份 虛擬備份應用程式,例如 Microsoft Data Protection Manager (DPM)
  • 優先順序最佳化
  • 預設的最佳化原則︰
    • 最短檔案存在時間 = 0 天
    • 最佳化使用中檔案 = 是
    • 最佳化部分檔案 = 否
  • 使用 DPM/DPM 型解決方案針對 Interop 的內部調整

工作

重複資料刪除會使用後置處理策略來最佳化及維護磁碟區的空間效率。

作業名稱 工作描述 預設排程
最佳化 最佳化工作會透過根據磁碟區原則設定將磁碟區上的資料分成區塊、(選擇性) 壓縮這些區塊,並在區塊存放區中儲存唯一的區塊,來進行重複資料刪除。 重複資料刪除使用的最佳化程序已在重複資料刪除如何運作?詳細說明。 每小時一次
記憶體回收行程 記憶體回收工作可透過將最近已修改或刪除的檔案已經不再參考的不必要區塊移除,來回收磁碟空間。 每個星期六上午 2:35
完整性清除 完整性清除工作可識別區塊存放區中因為磁碟失敗或磁區損毀所造成的損毀。 可能的話,重複資料刪除可以自動利用磁碟區功能 (例如儲存空間磁碟區上的鏡像或同位檢查) 來重建損毀的資料。 此外,當常用區塊被參考 100 次以上後,重複資料刪除會將它們的備份副本保存在稱為作用區的地方。 每個星期六上午 3:35
取消最佳化 取消最佳化是只能手動執行的特殊工作,可以復原重複資料刪除所完成的最佳化,以及停用該磁碟區的重複資料刪除。 限依需求

重複資料刪除術語

詞彙 定義
區塊 區塊是已由重複資料刪除區塊化演算法選取的檔案區塊,就像其他類似檔案會發生的一樣。
區塊存放區 區塊存放區是 [系統磁碟區資訊] 資料夾中有組織的一系列容器檔案,重複資料刪除會用來儲存唯一的區塊。
Dedup 重複資料刪除的縮寫,一般會在 PowerShell、Windows Server API 和元件,以及 Windows Server 社群中使用。
檔案中繼資料 每個檔案都會包含中繼資料,說明與檔案有關但與檔案主要內容無關的有趣屬性。 例如,建立日期、上次讀取日期、作者等。
檔案資料流 檔案資料流是檔案的主要內容。 這是重複資料刪除執行最佳化的檔案部分。
檔案系統 檔案系統是儲存媒體上的軟體與磁碟上資料結構,讓作業系統用來在儲存媒體上儲存檔案。 NTFS 格式化磁碟區支援重複資料刪除。
檔案系統篩選器 檔案系統篩選器是修改檔案系統預設行為的外掛程式。 為了保留存取語意,重複資料刪除會使用檔案系統篩選器 (Dedup.sys) 將讀取重新導向至已經完全最佳化,且可供提出讀取要求的使用者或應用程式讀取的內容。
最佳化 如果檔案已經過區塊處理且其唯一區塊已經儲存在區塊存放區中,重複資料刪除會認為檔案已最佳化 (或是已進行重複資料刪除)。
最佳化原則 最佳化原則會指定要將哪些檔案視為應該要進行重複資料刪除。 例如,如果檔案是全新、已開啟、位於磁碟區上的特定路徑或特定檔案類型,就會被視為是違反原則。
重新分析點 重新分析點是特殊的標記,會通知檔案系統將 I/O 交給指定的檔案系統篩選器。 當檔案的檔案資料流已最佳化時,重複資料刪除會以重新分析點取代檔案資料流,這可以讓重複資料刪除保留對該檔案的存取語意。
磁碟區 磁碟區是邏輯儲存體磁碟機的 Windows 建構,可以會跨一或多部伺服器上的多個實體存放裝置。 重複資料刪除是以磁碟區為依據,在磁碟區上啟用。
工作負載 工作負載是在 Windows Server 上執行的應用程式。 範例工作負載包括一般用途的檔案伺服器、Hyper-V 和 SQL Server。

警告

除非已獲授權的 Microsoft 支援人員另有指示,否則請勿嘗試以手動方式修改區塊存放區。 因為這樣做可能會導致資料損毀或遺失。

常見問題集

重複資料刪除和其他最佳化產品有何不同? 重複資料刪除和其他常見的存放裝置最佳化產品之間有幾個重要差異︰

  • 重複資料刪除和儲存單一版本有何不同? 儲存單一版本 (或 SIS) 是重複資料刪除的前身技術,於 Windows Storage Server 2008 R2 中首度引進。 為了將磁碟區最佳化,儲存單一版本已識別完全相同的檔案,並以 SIS 一般存放區中所儲存之單一檔案複本的邏輯連結取代那些檔案。 不同於儲存單一版本,重複資料刪除可以從沒有完全相同但是共用許多常見模式的檔案,以及本身包含許多重複模式的檔案,取得空間以節省空間。 儲存單一版本已在 Windows Server 2012 R2 中淘汰,並在 Windows Server 2016 中移除以改用重複資料刪除。

  • 重複資料刪除和 NTFS 壓縮有何不同? NTFS 壓縮是一項 NTFS 功能,可於磁碟區層級選擇性啟用。 使用 NTFS 壓縮,每個檔案都會在寫入時透過壓縮來個別最佳化。 不同於 NTFS 壓縮,重複資料刪除可以在磁碟區上的所有檔案間取得空間以節省空間。 這一點優於 NTFS 壓縮,因為檔案可能會同時有內部重複資料刪除 (由 NTFS 壓縮解決) 並且與磁碟區上的其他檔案有相似點 (不會由 NTFS 壓縮解決)。 此外,重複資料刪除擁有後置處理模組,這表示新檔案或修改過的檔案 都會以未最佳化的方式寫入磁碟,之後再由重複資料刪除進行最佳化。

  • 重複資料刪除和封存檔案格式,如 zip、rar、7z、cab 等有何不同? zip、rar、7z、cab 等封存檔案格式是對一組指定檔案執行壓縮。 與重複資料刪除類似,會最佳化檔案內的重複模式與跨檔案的重複模式。 不過,您必須選擇要包含在封存中的檔案。 存取語意也會不同。 若要存取封存內的特定檔案,您必須開啟封存,並選取特定檔案,然後解壓縮該檔案以供使用。 重複資料刪除會針對使用者與系統管理員,以透明的方式運作,且不需要任何手動執行。 此外,重複資料刪除會保留存取語意:已最佳化的檔案會在最佳化之後維持不變。

我可以針對我所選的使用類型,變更重複資料刪除設定嗎? 是。 雖然重複資料刪除會針對建議的工作負載提供合理的預設值,但是您仍然可能會想要調整重複資料刪除設定,以充分利用您的存放裝置。 此外,其他工作負載將需要一些調整,以確保重複資料刪除不會干擾工作負載

我可以透過手動方式執行重複資料刪除工作嗎? 可以,所有的重複資料刪除工作都可以手動執行。 如果排程的工作因為系統資源不足,或是因為發生錯誤而未執行,就可能需要手動執行。 此外,取消最佳化工作僅能手動執行。

我可以監視重複資料刪除工作的歷程記錄結果嗎? 可以,所有的重複資料刪除工作都會在 Windows 事件日誌中產生項目

我可以針對我系統上的重複資料刪除工作變更預設排程嗎? 可以,所有的排程都可以設定。 建議您最好修改預設的重複資料刪除排程,以確保重複資料刪除工作有足夠時間完成,且不會與工作負載競用資源。