定義重複資料刪除的架構、元件和功能

已完成

大部分組織和企業 (包括 Contoso) 都必須處理和儲存日益增加的資料量。 雖然有解決方案可讓您將資料卸載並封存至原端,但在許多情況下,您必須在內部部署資料中心進行維護。 有效率管理儲存這類資料需要正確的工具。 使用 Windows Server 時,您可以選擇使用資料重複刪除功能。

什麼是重複資料刪除?

重複資料刪除是 Windows Server 的角色服務,可在不影響完整性的前提下,識別和移除資料中的重複項目。 這可達成儲存更多資料並使用較少實體磁碟空間的目標。

為了減少磁碟使用量,重複資料刪除會掃描檔案,然後將這些檔案分割成區塊,每個區塊只保留一個複本。 重複資料刪除之後,檔案就不會再儲存為獨立的資料串流。 相反地,重複資料刪除會以虛設常式取代檔案,其指向儲存在通用區塊存放區中的資料區塊。 存取已刪除重複項之資料的流程對使用者和應用程式而言是透明的。

在許多情況下,資料複製會提高整體磁碟效能,因為多個檔案可以共用一個在記憶體中快取的區塊。 這樣做,您就可以藉由執行較少的讀取操作從這些檔案擷取資料,這在讀取去重的檔案時能夠補償輕微的效能影響。 重複資料刪除不會影響磁碟寫入的效能,因為會套用到已在磁碟上的資料。

資料重複消除的概念是將相同資料的多個副本使用指向區塊存儲的指針替代,其中只包含一個資料實例。

資料重複消除有哪些元件?

「重複資料刪除」角色服務是由下列元件所組成:

  • 篩選器驅動程式。 此元件會將讀取要求重新導向至屬於所要求檔案的區塊。 每個磁碟區都有一個篩選器驅動程式。
  • 重複資料刪除服務。 此元件會管理下列作業:
    • 重複資料刪除和壓縮。 這些作業會根據磁碟區的重複資料刪除原則來處理檔案。 在檔案的初始最佳化之後,如果檔案接著經過修改並符合最佳化的重複資料刪除原則閾值,則會再次最佳化檔案。
    • 垃圾收集。 這項作業會在磁碟區上處理已刪除或已修改的資料,如此就會清除任何不再參考的資料區塊,並產生可用的磁碟空間。 預設情況下,垃圾回收機制每週執行一次,不過,您也可以考慮在刪除許多檔案之後執行該機制。
    • 清除。 這項作業依賴例如校驗碼驗證和中繼資料一致性檢查等彈性功能,以識別並盡可能自動解決資料完整性問題。

備註

由於有額外的驗證功能,重複資料刪除可以偵測並回報資料損毀的早期徵兆。

  • 取消最佳化。 這項作業會反轉磁碟區上所有最佳化檔案的重複資料刪除。 使用這種類型作業的一些常見情境包括排解已消除重複資料的問題,或將資料移轉到不支援資料重複刪除的另一個系統。

備註

開始這項作業之前,您應該使用 Disable-DedupVolume Windows PowerShell Cmdlet,在一或多個磁碟區上停用進一步的重複資料刪除活動。

備註

停用重複資料刪除之後,磁碟區會維持在重複資料刪除狀態,而現有的重複資料刪除資料仍可供存取;但是,伺服器會停止執行磁碟區的最佳化作業,且不會重複刪除新的資料。 之後,您可以使用取消最佳化作業來復原磁碟區上現有的重複資料刪除資料。 在成功解除最佳化作業結束時,會從磁碟區刪除所有重複資料刪除中繼資料。

重要

使用取消最佳化作業時,請務必確認裝載此資料的磁碟區有足夠的可用空間,因為所有已刪除重複項的檔案都會還原為其原始大小。

重複資料刪除的架構,包括檔案驅動程式、重複資料刪除服務、其作業和基礎檔案系統區塊存放區。

重複資料刪除的範圍

重複資料刪除會處理所選磁碟區上的所有資料,但有一些例外狀況,包括:

  • 不符合所設定重複資料刪除原則的檔案。
  • 檔案位於明確從重複資料刪除範圍排除的資料夾中。
  • 系統狀態檔案。
  • 替代資料流。
  • 加密的檔案。
  • 具有擴充屬性的檔案。
  • 小於 32 KB 的檔案。

備註

自 Windows Server 2019 起,復原檔案系統 (ReFS) 支援最大 64 TB 大小磁碟區和最大 4 TB 大小檔案的重複資料刪除。 也依賴可變動大小的區塊存放區,其中包含選擇性壓縮以便讓磁碟空間節省最大化,而多執行緒後置處理架構會盡可能降低效能的影響。