データ重複除去のアーキテクチャ、コンポーネント、機能の定義
Contoso を含むほとんどの組織や企業は、増加するデータの処理と格納に対処する必要があります。 クラウドにデータをオフロードしてアーカイブできるソリューションはありますが、多くの場合、オンプレミスのデータセンターで保持する必要があります。 このようなデータの格納を効率的に管理するには、適切なツールが必要です。 Windows Server を使用している場合は、この目的でデータ重複除去を使用するオプションがあります。
データ重複除去とは何ですか。
データ重複除去は、データの整合性を損なうことなくデータ内の重複を識別および削除する、Windows Server の役割サービスです。 これにより、より多くのデータを格納して、使用される物理ディスク領域を減らすという目的が達成されます。
データ重複除去では、ディスク使用量を減らすために、ファイルをスキャンして、それらのファイルをチャンクに分割し、各チャンクのコピーを 1 つだけ保持します。 重複除去の後、ファイルは独立したデータのストリームとして格納されなくなります。 代わりに、データ重複除去によってファイルが、共通のチャンク ストアに格納されているデータ ブロックを指すスタブに置き換えられます。 重複除去されたデータにアクセスするプロセスは、ユーザーとアプリに対して透過的です。
多くの場合、データ重複除去によってディスクの全体的なパフォーマンスが向上します。これは、メモリにキャッシュされた 1 つのチャンクを複数のファイルで共有できるためです。 このようにして、より少ない読み取り操作の実行によってこれらのファイルからデータを取得することができる可能性があり、重複除去されたファイルから読み取るときに生じるパフォーマンスへの影響が小さくなるように平衡が保たれています。 データ重複除去は、ディスク上に既に存在するデータに適用されるため、ディスクへの書き込みのパフォーマンスには影響しません。
データ重複除去のコンポーネント
データ重複除去の役割サービスは、次のコンポーネントで構成されています。
- フィルター ドライバー。 このコンポーネントによって、要求されているファイルの一部であるチャンクに読み取り要求がリダイレクトされます。 ボリュームごとに 1 つのフィルター ドライバーがあります。
- 重複除去サービス。 このコンポーネントによって、次のジョブが管理されます。
- 重複除去と圧縮。 これらのジョブでは、ボリュームのデータ重複除去ポリシーに従ってファイルが処理されます。 ファイルに対して初期の最適化が行われた後に、そのファイルが変更され、最適化のためのデータ重複除去ポリシーのしきい値に達している場合、そのファイルは再度最適化されます。
- ガベージ コレクション。 このジョブでは、参照されなくなったデータ チャンクがクリーン アップされるように、ボリューム上の削除または変更されたデータが処理され、空きディスク領域が解放されます。 既定では、ガベージ コレクションは毎週実行されますが、多くのファイルを削除した後に呼び出すことも検討できます。
- スクラブ。 このジョブでは、チェックサムの検証やメタデータの整合性チェックなどの回復性機能に依存して、データの整合性の問題を特定し、可能な場合は自動的に解決します。
注意
追加の検証機能により、重複除去ではデータ破損の早期の徴候を検出して報告することができます。
- 非最適化。 このジョブでは、ボリューム上の最適化されたすべてのファイルの重複除去を元に戻します。 この種類のジョブを使用する一般的なシナリオには、重複除去されたデータに関する問題のトラブルシューティングや、データ重複除去をサポートしていない別のシステムへのデータの移行などがあります。
注意
このジョブを開始する前に、Windows PowerShell コマンドレット Disable-DedupVolume を使用して、1 つまたは複数のボリュームで以降のデータ重複除去のアクティビティを無効にする必要があります。
注意
データ重複除去を無効にした後、そのボリュームは重複除去された状態のままであり、既存の重複除去されたデータには引き続きアクセスできます。ただし、サーバーでは、そのボリュームの最適化ジョブの実行が停止され、新しいデータは重複除去されません。 その後、非最適化ジョブを使用して、ボリューム上の既存の重複除去されたデータを元に戻すことができます。 非最適化ジョブが正常に終了すると、データ重複除去のすべてのメタデータがそのボリュームから削除されます。
重要
非最適化ジョブを使用する場合は、重複除去されたすべてのファイルが元のサイズに戻るため、このデータがホストされているボリュームに十分な空き領域があることを確認してください。
データ重複除去のスコープ
データ重複除去では、選択したボリューム上のすべてのデータが処理されますが、次のようないくつかの例外があります。
- 構成した重複除去ポリシーを満たしていないファイル。
- 重複除去のスコープから明示的に除外されているフォルダー内のファイル。
- システム状態ファイル。
- 代替データ ストリーム。
- 暗号化ファイル。
- 拡張属性を持つファイル。
- 32 KB 未満のファイル。
注意
Windows Server 2019 以降、Resilient File System (ReFS) では、サイズが最大で 64 テラバイト (TB) のボリュームと最大 4 TB のファイルのデータ重複除去がサポートされます。 また、これはディスク領域の節約が最大化されるオプションの圧縮を含む可変サイズのチャンク ストアに依存しています。マルチスレッドの後処理アーキテクチャによって、パフォーマンスへの影響を最小限に抑えることができます。