データ重複除去の概要

 

公開日: 2016年9月

対象: Windows Storage Server 2012、Windows Server 2012 R2、Windows Server 2012

このトピックでは、Windows Server 2012 R2 および Windows Server 2012 のデータ重複除去機能と、この機能の実際の適用例について説明します。

機能の説明

データの重複除去では、データの正確性や整合性を損なうことなく重複を見つけて除去することが必要になります。 この目標は、ファイルを小さな可変サイズのチャンク (32 から 128 KB) に分割した後で重複するチャンクを識別し、各チャンクを 1 つだけ保持することによって、より多くのデータをより小さな領域に格納することです。 重複するチャンクは、1 つ残されるチャンクへの参照に置き換えられます。 チャンクは圧縮されて、システム ボリューム情報フォルダーの特殊なコンテナー ファイルにまとめられます。

その結果、図 1 に示すように、各ファイルのディスク上変換が実行されます。 重複除去の後、ファイルは独立したデータ ストリームとして格納されなくなり、共通のチャンク ストア内に格納されたデータ ブロックを指し示すスタブに置き換えられます。 これらのファイルではブロックが共有されるため、そのブロックが格納されるのは一度だけです。これにより、すべてのファイルを格納するために必要なディスク領域が小さくなります。 ファイルにアクセスしている間、正しいブロックが透過的に集められデータが提供されます。その際、アプリケーションを呼び出したり、ファイルに対して実行されたディスク上変換にユーザーが気付いたりすることはありません。 そのため、管理者は、アプリケーションに対する動作の変更やファイルにアクセスするユーザーに対する影響について心配する必要なく、ファイルに重複除去を適用できます。

図 1 ディスク上でファィルを変換

図 1 データ重複除去時のファイルのディスク上変換

重複除去を有効にして、データを最適化したボリュームに含まれるものは次のとおりです。

  • 最適化されなかったファイル。 たとえば、選択したファイルの経過期間ポリシー設定を満たしていないファイル、システム状態ファイル、代替データ ストリーム、暗号化されたファイル、拡張属性を含むファイル、32 KB 未満のファイル、その他の再解析ポイント ファイル、他のアプリケーションによって使用されているファイルなどが含まれます (“使用中” 制限は Windows Server 2012 R2 では削除されました)。

  • 最適化されたファイル。 再解析ポイントとして保存されたファイルです。再解析ポイントには、要求されたファイルを復元するために必要なチャンク ストアに含まれる個々のチャンクのマップを指すポインターが含まれています。

  • チャンク ストア。 最適化されたファイル データがある場所です。

  • 追加の空き領域。 最適化されたファイルとチャンク ストアが占める領域は、最適化前と比較して大幅に小さくなります。

実際の適用例

企業のデータ記憶域の成長に対応するために、管理者はサーバーの統合を進め、容量のスケーリングとデータの最適化を重要な目標として位置付けています。 データ重複除去は、次のように、これらの目標を達成するための実用的な方法を提供します。

  • **容量の最適化。**データ重複除去により、同じ物理領域により多くのデータを格納できます。 また、単一インスタンス記憶域 (SIS)、NTFS 圧縮などの機能では達成できなかった高い記憶域効率を実現します。 データ重複除去では、一般のファイル サーバーに対しては 2:1、仮想化データに対しては最大 20:1 の最適化比が適用される、サブファイルによる可変サイズのチャンキングと圧縮が使用されます。

  • **スケールとパフォーマンス。**データ重複除去は、高いスケーラビリティとリソース効率を実現し、データに悪影響を及ぼしません。Windows Server 2012 R2 では 1 秒間に最大 50 MB、Windows Server 2012 では 1 秒間に約 20 MB のデータを処理できます。 複数のボリュームで同時に実行でき、サーバーの他のワークロードには影響を与えません。 使用される CPU リソースとメモリ リソースを調整することにより、サーバー ワークロードに与える影響を低く抑えることができます。 サーバーの使用率がきわめて高い場合は、重複除去を完全に停止することもできます。 これに加え、データ重複除去ジョブをいつでも自由に実行したり、データ重複除去の実行のスケジュールを設定したり、ファイル選択ポリシーを確立したりできる柔軟性も備えています。

  • **信頼性とデータの整合性。**データ重複除去を適用するとき、データの整合性は維持されます。 データ重複除去は、チェックサム、一貫性、および ID 検証を使ってデータの整合性を保証します。 データ重複除去では、すべてのメタデータおよび頻繁に参照されるほとんどのデータに関して冗長性が保たれるため、データが破損した場合でもデータを復旧できます。

  • **BranchCache による帯域幅の効率。**BranchCache との統合により、WAN を介してブランチ オフィスに送信されるデータに対して同じ最適化手法が適用されます。 その結果、ファイルのダウンロード時間が短縮され、帯域幅の消費が減ります。

  • **使い慣れたツールによる最適化の管理。**データ重複除去には、サーバー マネージャーと Windows PowerShell に組み込まれた最適化機能があります。 既定の設定をそのまま使うと、短時間で節約でき、設定を調整してより効果を高めることもできます。 Windows PowerShell コマンドレットは、最適化ジョブを開始したり、将来実行する最適化ジョブをスケジュールしたりする目的で簡単に使うことができます。 Windows PowerShell スクリプトを呼び出す Unattend.xml を使い、データ重複除去機能をインストールして、選択したボリュームで重複除去を可能にすることもできます。また、この xml ファイルを Sysprep で使うと、システムの初回起動時に重複除去を展開することもできます。

新機能と変更された機能

次の表では、データ重複除去機能での変更について説明します。 詳細については、「データ重複除去の新機能します。」を参照してください。

機能 新規/更新 説明
仮想デスクトップ インフラストラクチャ (VDI) ワークロードのリモート記憶域のデータ重複除去 Windows Server 2012 R2 の新機能 クラスター共有ボリューム (CSV) にデータ重複除去を実装することによって、仮想デスクトップ インフラストラクチャ (VDI) のワークロード用にアクティブな仮想ハード ディスク (VHD) を最適化します。
最適化されたファイルの元のパスへの展開 Windows Server 2012 R2 の新機能 アプリケーションとの互換性、パフォーマンス、または他の要件のために必要な場合は、Windows PowerShell の新しい Expand-DedupFile コマンドレットを使用して、元のパス上の指定されたパスに最適化されたファイルを展開します。 コマンドレットの詳細については、「T:Deduplication.Expand-DedupFile」を参照してください。
仮想化されたバックアップ アプリケーションで使用されるバックアップ ボリュームのデータ重複除去 Windows Server 2012 R2 の新機能 クラスターの共有ボリューム (CSV) または制限付きのハイパーコンバージド構成に、データ重複除去を実装すると、仮想されたバックアップ アプリケーションのワークロードで使用されるアクティブなハード ディスク (VHD) を最適化できます。 (Windows Server 2012 R2 の更新プログラムのロールアップ (2014 年 11 月) (KB 3000850) 以降でサポート。)。

要件

データ重複除去機能を使用するには、環境が次の要件を満たしている必要があります。

  • サーバー: Windows Server 2012 R2 または Windows Server 2012 を搭載している 1 台のコンピューターまたは仮想マシンと、1 つ以上のデータ ボリューム

  • (オプション) ネットワーク経由でサーバーに接続されている、Windows Server 2012 R2 または Windows Server 2012 を搭載している別のコンピューターまたは仮想マシン

    重要

    データ重複除去を VDI または仮想化されたバックアップ ワークロードに対して実行する場合、すべての VHD ファイルは以下のようになっている必要があります。

    • Windows Server 2012 R2 を実行するファイル サーバーに格納され、記憶域ノードと計算ノードは別のサーバーで実行されています。
    • 特定の制限付きのハイパーコンバージド構成で、ローカル ストレージに格納されています。 要件の詳細については、「データ重複除去の展開計画」を参照してください。

Azure Virtual Machines との相互運用性

この Windows Server ロール サービスは、Azure の仮想マシンで実行できます。 このシナリオは Windows Server 2012 R2 でテスト済みです。 読み取りが頻繁で書き込みは頻繁でないボリュームのある Microsoft Azure Virtual Machines でデータ重複除去を使用することをお勧めします。 このような場合、データ重複除去は Azure VM に格納できるデータを増やす効果的な方法になります。

次のワークロードは、Azure VM でデータ重複除去を使用するときのよい候補になります。

  • 比較的コンテンツが変化しない一般のファイル サーバー

  • 比較的コンテンツが変化しない Microsoft SharePoint サイト

  • 比較的コンテンツが変化しない Web サイト

次のワークロードは、ワークロードで使用される大規模なファイルへの変更の頻度のため、Azure VM でのデータ重複除去には使用しないことをお勧めします。

  • Microsoft Exchange Server などのメッセージング サーバー

  • Microsoft SQL Server などのデータベース サーバー

Azure Virtual Machines を使い始める方法については、Azure の Web サイトを参照してください。

アーキテクチャの概要

データ重複除去機能は、ローカルまたはリモートの I/O を監視するフィルター ドライバーと、利用可能な 3 種類のジョブ (最適化、ガーベジ コレクション、およびスクラブ) を制御する重複除去サービスで構成されています。

重複除去アーキテクチャには、ハードウェア障害時の復元力に加え、メタデータの冗長性や最もアクセス数の多いデータ チャンクを含む、データとメタデータに対する十分なチェックサムの検証が備わっています。

データ重複除去は、選択されたボリュームのすべてのデータを処理する可能性があります (サイズが 32 KB 未満のファイル、除外されたフォルダーのファイル、または有効期間設定が適用されているファイルは除きます)。 機能を有効にする前に、サーバーまたは接続されているボリュームが重複除去の候補として適しているかどうかを、慎重に判断する必要があります。 重複除去の間は、重要なデータを定期的にバックアップすることをお勧めします。

関連項目

その他の関連情報については、次の情報を参照してください。

コンテンツの種類 参考資料
製品評価 - Windows Server 2012 R2 でデータ重複除去を新しいワークロードに適用する
展開 - Windows Server 2012 R2 で VDI 記憶域用にデータ重複除去を展開する
- データ重複除去の展開計画
- バックアップと重複除去されたボリュームの復元に関する考慮事項
- データ重複除去を使うにあたっての移行、クラスター、BranchCache の考慮事項
- データ重複除去のインストールおよび構成
運用 - 監視とデータ重複除去のレポート
コミュニティ リソース - ファイル サービスとストレージに関する TechNet フォーラム
- Microsoft ストレージ チームのファイル キャビネット ブログ
- ディレクトリ サービス チームへの質問ブログ
- Jose Barreto のブログ
- Twitter での Windows Server 情報エクスペリエンス
関連テクノロジ - ファイル サービスおよび記憶域サービス
- フェールオーバー クラスタリング
- 記憶域