Exchange Online のデータ回復性
Exchange は、Microsoft のオンライン サービスの中で最も頻繁に利用されているサービスの 1 つであるだけでなく、Teams などの他の多くの Microsoft 365 サービスの長期的なデータ ストレージとしても機能します。 このため、Exchange は、予期しない中断に直面してデータの整合性と可用性の観点から高い回復性を確保するように堅牢に設計されています。
運用の回復性
データベース可用性グループ
Microsoft 365 のすべてのメールボックス データベースは、 データベース可用性グループ (DAG) でホストされ、同じリージョン内の地理的に分離されたデータセンターにレプリケートされます。 最も一般的な構成は、4 つのデータセンター内の 4 つのデータベース コピーです。ただし、一部のリージョンではデータセンターが少なくなります (データベースはインドの 3 つのデータセンター、オーストラリアと日本の 2 つのデータセンターにレプリケートされます)。 ただし、いずれの場合も、すべてのメールボックス データベースには複数のデータセンターに分散された 4 つのコピーがあり、これにより、メールボックス データがソフトウェア、ハードウェア、さらにはデータセンターの障害から保護されます。
これら 4 つのコピーのうち、3 つは高可用性として構成されています。 4 番目のコピーは、 遅延データベース コピーとして構成されます。 遅延データベースのコピーは、個々のメールボックスの回復またはメールボックスアイテムの回復を目的としたものではありません。 その目的は、システム全体の致命的な論理破損のまれなイベントの回復メカニズムを提供することです。
Exchange Online の遅延データベース コピーは、7 日間のログ ファイル再生ラグ タイムで構成されます。 さらに、Exchange 再生ラグ マネージャーを有効にすると、遅延コピーに対して動的ログ ファイルの再生を提供し、遅延したデータベース コピーを自己修復してログ ファイルの拡張を管理できます。 遅延データベース コピーは Exchange Online で使用されますが、保証されたポイントインタイム バックアップではないことを理解しておくことが重要です。 Exchange Online の遅延データベース コピーには、ディスク障害が原因で遅延コピーを含むディスクが失われる期間、遅延コピーが高可用性コピー (自動再生停止による) になり、ラグされたデータベース コピーがログ再生キューを再構築している期間が原因で、通常は約 90% の可用性しきい値があります。
トランスポートの回復性
Exchange Online には、シャドウ冗長性とセーフティ ネットの 2 つの主要なトランスポート回復機能が含まれています。 シャドウ冗長性は、転送中にメッセージの冗長コピーを保持します。 メッセージが正常に配信された後、Safety Net はメッセージの冗長コピーを保持します。
シャドウ冗長性を使用すると、各 Exchange Online トランスポート サーバーは、送信サーバーにメッセージを正常に受信したことを確認する前に、受信した各メッセージのコピーを作成します。 これにより、転送中にトランスポート パイプライン内のすべてのメッセージが冗長になります。 Exchange Online で、転送中に元のメッセージが失われたと判断された場合、メッセージの冗長コピーが再配信されます。
Safety Net は、メールボックス サーバー上のトランスポート サービスに関連付けられているトランスポート キューです。 このキューにより、サーバーによって正常に処理されたメッセージのコピーが保存されます。 メールボックス データベースまたはサーバーの障害でメールボックス データベースの古いコピーをアクティブ化する必要がある場合、Safety Net キュー内のメッセージは、メールボックス データベースの新しいアクティブ なコピーに自動的に再送信されます。 セーフティ ネットも冗長であるため、単一障害点としてのトランスポートを排除できます。 プライマリ セーフティ ネットとシャドウ セーフティ ネットの概念を使用します。プライマリ セーフティ ネットが 12 時間以上使用できない場合、再送信要求はシャドウ再送信要求になり、メッセージはシャドウ セーフティ ネットから再配信されます。
Safety Net からのメッセージの再送信は、DAG とメールボックス データベースのコピーを管理する Microsoft Exchange レプリケーション サービスの Active Manager コンポーネントによって自動的に開始されます。 Safety Net からメッセージを再送信するために手動で操作する必要はありません。
破損防止と修正
インプレース保持では、削除済みアイテムと変更されたアイテムの元のバージョンを含む、すべてのメールボックスのコンテンツが保持されます。 In-Place eDiscovery 検索で、このようなメールボックスのすべてのアイテムが返されます。 ユーザーのメールボックスに In-Place 保留を設定すると、対応するアーカイブ メールボックス内のコンテンツ (有効になっている場合) も保留され、電子情報開示検索で返されます。
Exchange データベースに影響を与える可能性がある破損には、通常、ハードウェア (特にストレージ ハードウェア) の問題が原因で発生する物理的な破損と、他の要因によって発生する論理的な破損の 2 種類があります。 一般に、Exchange データベース内で発生する可能性がある論理破損には、次の 2 種類があります。
- データベースの論理的な破損 - データベース ページのチェックサムが一致しますが、ページ上のデータが論理的に間違っています。 これは、データベース エンジン (拡張可能記憶域エンジン (ESE)) がデータベース ページの書き込みを試み、オペレーティング システムが成功メッセージを返しても、データがディスクに書き込まれなかったり、間違った場所に書き込まれたりした場合に発生する可能性があります。 これは、ロスト フラッシュと呼ばれます。 ESE には、データベースの物理的な破損やその他のデータ損失シナリオを防ぐために設計された多数の機能とセーフガードが含まれています。 失われたフラッシュがデータを失うことを防ぐために、ESE には、データベースに失われたフラッシュ検出メカニズムと、それを修正するための機能 (単一ページの復元) が含まれています。
- ストアの論理破損 - ユーザーが予期しない方法でデータを追加、削除、または操作します。 このようなケースは、サード パーティ製アプリケーションによって発生します。 通常は、ユーザーが破損と見なすという意味で破損しています。 Exchange ストアは、論理的破損を引き起こすトランザクションを一連の有効な MAPI 操作として見なします。 Exchange Online のインプレースホールド 機能は、ストアの論理的な破損からの保護を提供します (ユーザーまたはアプリケーションによってコンテンツが完全に削除されないようにするため)。
Exchange Online では、ログ検査とログ再生の両方で、レプリケートされたログ ファイルに対していくつかの整合性チェックが実行されます。 これらの整合性チェックにより、物理的な破損がシステムによってレプリケートされるのを防ぎます。 たとえば、ログ検査中に、ログ ファイルを検証し、ログ ファイルに記録されたチェックサムがメモリで生成されたチェックサムと一致することを検証する物理的な整合性チェックがあります。 さらに、ログ ファイル ヘッダーは、ログ ヘッダーに記録されたログ ファイル署名がログ ファイルの署名と一致することを確認するために検査されます。 ログの再生中に、ログ ファイルの詳細な調査が行われます。 たとえば、データベース ヘッダーには、ログ ファイルの署名と比較して一致することを確認するログ署名も含まれています。
Exchange Online のメールボックス データの破損に対する保護は、Exchange Native Data Protection を使用することで実現されます。これは、複数のサーバーと複数のデータセンター間のアプリケーション レベルのレプリケーションと、破損やその他の理由でデータが失われなくなるのを防ぐのに役立つ他の機能を活用する回復性戦略です。 これらの機能には、次のような Microsoft または Exchange Online アプリケーション自体によって管理されるネイティブ機能が含まれます。
- データ可用性グループ
- 単一ビット補正
- オンライン データベース スキャン
- 失われたフラッシュ検出
- 単一ページの復元
- メールボックス レプリケーション サービス
- ログ ファイルのチェック
- 回復性のあるファイル システムへのデプロイ
前述のネイティブ機能の詳細については、ハイパーリンクを選択し、ハイパーリンクのない項目の詳細と詳細については、次を参照してください。 Exchange Online には、これらのネイティブ機能に加えて、次のような顧客が管理できるデータ回復機能も含まれています。
単一ビット補正
ESE には、ハードウェア エラーの結果である (物理的な破損を表す) 単一ビット CRC エラー (シングルビット フリップとも呼ばれます) を検出して解決するメカニズムが含まれています。 これらのエラーが発生すると、ESE によって自動的に修正され、イベント ログにイベントが記録されます。
オンライン データベース スキャン
オンライン データベース スキャン ( データベース チェックの合計とも呼ばれます) は、ESE がデータベース整合性チェッカーを使用して各ページを読み取り、ページの破損を確認するプロセスです。 主な目的は、トランザクション操作によって検出されない可能性がある物理的な破損と失われたフラッシュを検出することです。 データベース スキャンでは、ストア後のクラッシュ操作も実行されます。 クラッシュが原因で領域が漏洩する可能性があり、オンラインデータベーススキャンによって失われた領域が検出され、回復されます。 システムは、すべてのデータベースが 7 日に 1 回完全にスキャンされることを想定して設計されています。
失われたフラッシュ検出
失われたフラッシュは、完了時にディスク サブシステム/オペレーティング システムが返したデータベース書き込み操作が、実際にディスクに書き込まれなかったか、間違った場所に書き込まれた場合に発生します。 フラッシュ インシデントが失われると、データベースの論理的な破損が発生する可能性があるため、失われたフラッシュによってデータが失われるのを防ぐために、ESE には失われたフラッシュ検出メカニズムが含まれています。 データベース ページがパッシブ コピーに書き込まれると、アクティブコピーで失われたフラッシュのチェックが実行されます。 失われたフラッシュが検出された場合、ESE はページ修正プロセスを使用してプロセスを修復できます。
単一ページの復元
単一ページの復元 ( ページ修正プログラムとも呼ばれます) は、破損したデータベース ページが正常なレプリカからの正常なコピーに置き換えられる自動プロセスです。 破損したページの修復プロセスは、データベースのコピーがアクティブかパッシブかによって異なります。 アクティブなデータベースのコピーで破損したページが検出されると、コピーするページが最新の状態である場合は、そのレプリカの 1 つからページをコピーできます。 このプロセスは、メールボックス データベースレプリケーションの基礎となるログ ストリームにページの要求を入れることで実現されます。 レプリカがページ要求を検出するとすぐに、要求元のデータベース コピーにページのコピーを送信して応答します。 また、単一ページの復元では、レプリカが現在オフラインであっても、アクティブなユーザーがレプリカからページを要求するための非同期通信メカニズムも提供されます。
遅延データベース コピーを含むパッシブ データベース コピーに破損がある場合、これらのコピーは常にアクティブ コピーの背後にあるため、アクティブコピーからパッシブ コピーに任意のページをコピーしても安全です。 パッシブ データベース コピーは本質的に高可用性であるため、ページ修正プログラムの適用プロセス中にログの再生は中断されますが、ログのコピーは続行されます。 パッシブ データベース コピーは、作業中のコピーから破損したページのコピーを取得し、必要なログ生成の最大要件を満たすログ ファイルがコピーされて検査されるまで待機し、破損したページに修正プログラムを適用します。 ページに修正プログラムが適用されると、ログ再生が再開されます。 このプロセスは、遅延データベースのコピーでも同じですが、ラグされたデータベースは、パッチ可能な状態を実現するために必要なすべてのログ ファイルを最初に再生します。
メールボックス レプリケーション サービス
メールボックスの移動は、大規模なメール サービスの管理の重要な部分です。 対応するテクノロジとハードウェアとバージョンのアップグレードは常に更新されるため、エンジニアがメールボックスをユーザーに対して透過的に移動しながら (プロセス全体を通じてオンラインに保つことによって) この作業を実行できる堅牢で調整されたシステムを用意することが重要であり、メールボックスが大きくなるにつれてプロセスが正常にスケールアップされるようにします。
Exchange メールボックス レプリケーション サービス (MRS) は、データベース間でメールボックスを移動する役割を担います。 移動中、MRS はメールボックス内のすべてのアイテムに対して整合性チェックを実行します。 整合性の問題が見つかった場合、MRS は問題を修正するか、破損したアイテムをスキップしてメールボックスから破損を削除します。
MRS は Exchange Online のコンポーネントであるため、今後検出される新しい形式の破損に対処するためにコードを変更できます。 たとえば、MRS が修正できない整合性の問題を検出した場合、破損を分析し、MRS コードを変更し、不整合を修正できます (方法を理解している場合)。
ログ ファイルのチェック
Exchange データベースによって生成されたすべてのトランザクション ログ ファイルは、いくつかの形式の整合性チェックを受けます。 ログ ファイルが作成されると、まずビット パターンが書き込まれ、次に一連のログ書き込みが実行されます。 この構造により、Exchange Online では、一連のチェック (失われたフラッシュ、CRC、およびその他のチェック) を実行して、各ログ ファイルが書き込まれた時点で、またレプリケート時に再度検証できます。
回復性のあるファイル システムへのデプロイ
ファイル システム レベルで破損が発生するのを防ぐために、Exchange Online は回復力のあるファイル システム (ReFS) パーティションに展開され、回復機能が強化されています。 ReFS は、Windows Server 2012 以降のファイル システムであり、データの破損に対する回復性を高め、データの可用性と整合性を最大化するように設計されています。 具体的には、ReFS によってメタデータの更新方法が改善され、データの保護が向上し、データ破損ケースが削減されます。 また、チェックサムを使用して、ファイル データとメタデータの整合性を確認し、データの破損が簡単に検出および修復されるようにします。
Exchange Online では、いくつかの ReFS 特典を利用できます。
- データ整合性の回復性が高いほど、データ破損インシデントが少なくなります。 破損インシデントの数を減らすと、不要なデータベースの再シードが少なくなります。
- メタデータで実行されているチェックサムにより、破損ケースの検出をより早く、より明確に行うことができます。これにより、データ ボリュームで灰色のエラーが発生する前に、お客様のデータ破損を修正できます。
- パフォーマンスに影響を与えずに大きなデータ セット (ペタバイト以上) で適切に動作するように設計されています
- BitLocker 暗号化など、Exchange Online で使用されるその他の機能のサポート。
Exchange Online は、他の ReFS 機能からもメリットがあります。
- 整合性 (整合性ストリーム) - ReFS は、通常データ損失を引き起こす可能性がある多くの一般的なエラーからデータを保護する方法でデータを格納します。 Microsoft 365 Search では、整合性ストリームを使用して、ディスク破損の早期検出とファイル コンテンツのチェックサムを支援します。 また、この機能により、"書き込みの破損" によって引き起こされる破損インシデントも削減されます (停電などの原因で書き込み操作が完了しない場合)。
- 可用性 (Salvage) - ReFS はデータの可用性に優先順位を付ける。 これまで、ファイル システムは、修復のためにシステムをオフラインにする必要があるデータ破損の影響を受けることがよくあります。 まれですが、破損が発生した場合、ReFS はサルベージを実装します。これは、ライブ ボリューム上の名前空間から破損したデータを削除し、修復不可能な破損データによって適切なデータが悪影響を受けないようにする機能です。 Salvage 機能を適用し、Exchange Online データベース ボリュームにデータ破損を分離することは、破損と修復アクションの間、破損したボリューム上の影響を受けていないデータベースを正常に保つことを意味します。 この構造により、通常、このようなディスク破損の問題の影響を受けるデータベースの可用性が向上します。