次の方法で共有


Microsoft 365 でのデータの監視と自己修復

Microsoft 365 の規模を考えると、包括的でインテリジェントなアラート、高速で信頼性の高い自己修復機能を備えた組み込みの監視なしでは、お客様のデータの回復性とマルウェアからの安全を維持することは不可能です。 Microsoft 365 の規模で一連のサービスを監視するのは困難です。 新しい考え方と手法を導入する必要があり、接続されたグローバル環境でサービスを運用および管理するには、新しいテクノロジセットを作成する必要があります。 データの収集とフィルター処理の従来の監視アプローチから離れ、データ分析に基づくアプローチに対するアラートを作成しました。シグナルを取得し、そのデータに対する信頼を築き、自動化を使用して問題を復旧または解決します。 このアプローチは、人間を回復方程式から取り出すのに役立ちます。これにより、操作のコストが削減され、高速になり、エラーが発生しやすくなります。

Microsoft 365 の監視の基礎は、Azure、SQL Azure、 およびオープン ソースストリーミング データベース テクノロジに基づいて構築された Data Insights Engine を構成するテクノロジのコレクションです。 これは、データを収集して集計し、結論に達するように設計されています。 現時点では、100,000 台を超えるサーバー (1 日あたり約 15 TB) から 1 時間あたり 5 億件を超えるイベントを処理し、これらの数は増加しています。

Microsoft 365 では 、外部監視を使用します。これには、重要なすべてをテストするための代理トランザクションの作成が含まれます。 たとえば、Exchange の各シナリオでは、世界中のすべてのデータベースを 5 分ごとに分散した方法でテストし、システムに存在するすべてのものをほぼ継続的にカバーします。 複数の場所から、1 日あたり 2 億 5,000 万のテスト トランザクションが実行され、サービスの堅牢なベースラインまたはハートビートが作成されます。

Microsoft 365 では、 Red Alert の概念も使用します。これにより、データセンター内のすべてのマシンのすべての監視信号が人間が管理できるものに縮小します。 概念は単純です。複数のシグナル間で何かが起こっている場合は、何かが起こっている必要があります。 1 つの信号に対する信頼度を高めるのではなく、信号ごとに適切な忠実性を持つことで、精度が向上します。 この監視システムは非常に強力なので、24時間365日のスタッフがモニターを見ていません。私たちが持っているのは、問題を検出した場合に目を覚ます機械だけです。その場合は、適切なオンコール担当者をページングするか、より頻繁にケースのように、問題を解決するだけです。 シグナルの収集と赤いアラートの構築を開始したら、すべてのサービス パーティションで三角測量を開始できます。

エラー アラートと赤いアラートの組み合わせに基づいて、このアラートは、問題が発生している可能性があるコンポーネントを正確に示し、システムがメールボックス サーバーを再起動することで問題を解決しようとしていることを示します。

単一ページの復元などの自己修復機能に加えて、Exchange には、エンド ユーザー エクスペリエンスの維持に焦点を当てた、監視と自己修復にアプローチを取るいくつかの機能が含まれています。 これらの機能には、組み込みの監視と回復アクションを提供する マネージド可用性と、ディスク障害後にデータベースの冗長性を自動的に復元する AutoReseed などがあります。

可用性管理

マネージド 可用性は、復旧指向のアクションを通じてエンド ユーザーのエクスペリエンスを監視および保護するネイティブの正常性チェックと回復ソリューションを提供します。 マネージド 可用性は、組み込みの監視と回復アクションと Exchange 高可用性プラットフォームの統合です。 可用性管理は、問題が発生してシステムで発見されると、すぐにそれを検出して回復するように設計されています。 Exchange での以前の外部監視向けソリューションやテクニックとは異なり、可用性管理は、問題の根本原因の識別や通知を試みません。 代わりに、エンド ユーザー エクスペリエンスの 3 つの重要な領域に対処する回復の側面に焦点を当てています。

  • 可用性 - ユーザーはサービスにアクセスできますか?
  • 待機時間 - ユーザーのエクスペリエンスはどうですか?
  • エラー - ユーザーは必要なものを達成できますか?

マネージド可用性は、Exchange を実行するすべての Microsoft 365 サーバーで実行される内部機能です。 1 秒ごとに数百もの正常性メトリックをポーリングし、分析します。 問題が見つかった場合は、ほとんどの場合、自動的に修正されます。 ただし、マネージド 可用性が独自に修正できない問題は常に発生します。 このような場合、マネージド可用性により、イベント ログを使用して問題が Microsoft 365 サポート チームにエスカレートされます。

AutoReseed

Exchange サーバーは、複数のデータベースとそのログ ストリームを同じ RAID 以外のディスクに格納する構成で展開されます。 RAID などのストレージ冗長メカニズムが ディスク上のデータを 複製するために使用されていないため、この構成は多くの場合、単なるディスク (JBOD) と呼ばれます。 JBOD 環境でディスクが失敗すると、そのディスク上のデータは失われます。

Exchange のサイズと、その中に展開される数百万のディスク ドライブが存在する場合、ディスク ドライブの障害は Exchange で定期的に発生します。 実際、毎日 100 を超えるエラーが発生します。 オンプレミスのエンタープライズ展開でディスクが失敗した場合、管理者は、障害が発生したディスクを手動で交換し、影響を受けるデータを復元する必要があります。 クラウド展開では、Microsoft 365 のサイズで、オペレーター (クラウド管理者) がディスクを手動で交換することは、実用的でも経済的にも実現不可能です。

自動再シード ( AutoReseed) は、ディスク障害、データベース破損イベント、またはデータベース コピーの再シード処理を必要とするその他の問題に対する通常のオペレーター主導のアクションに代わる機能です。 AutoReseed は、ディスクの障害発生後にシステムでプロビジョニング済みの予備のディスクを使用して、自動的にデータベースの冗長性を復元するように設計されています。 ディスクに障害が発生した場合、そのディスクに格納されているデータベース コピーは自動的にサーバー上の事前構成済みのスペア ディスクに再シードされ、冗長性が復元されます。