Azure Site Recovery で保護された VMware と物理ワークロードの監視を強化
執筆者: Mayuri Gupta (Program Manager II, R&D Compute MDR IDC (Hyd))
このポストは、2019 年 5 月 1 日に投稿された Monitoring enhancements for VMware and physical workloads protected with Azure Site Recovery の翻訳です。
Azure Site Recovery のワークロードの正常性監視機能を強化し、レプリケーション コンポーネントであるプロセス サーバー (PS) の正常性を測るシグナルを導入しました。ハイブリッド DR シナリオでは、PS がデータ レプリケーションの重要コンポーネントとして機能し、レプリケーションのキャッシュ、データ圧縮、データ転送を処理しています。ワークロードの保護を開始すると、ソースでのデータ変更率 (変更頻度) の高さ、ネットワーク接続、使用可能な帯域幅、PS のプロビジョニング不足、1 台の PS での多数のワークロードの保護など、いくつもの要因で問題が発生します。それが PS の異常につながり、VM のレプリケーションに影響が及ぶこともあります。
今回追加された PS の正常性シグナル (英語) によって、このような問題のトラブルシューティングが容易になりました。仮想マシンがどの PS を使用しているかをすばやく特定し、両者の間の正常性を確認できます。空き容量、メモリ使用率、CPU 使用率、実際のスループットなど、PS のさまざまなパラメーターから通知が生成され、警告と重大なアラートの両方が通知されるため、適切なタイミングで対処できます。このため、問題が深刻化して 1 台の PS に接続されている複数のマシンに影響が及ぶような事態を防ぐことができます。
PS ブレード
警告と重大なアラートは、Azure Site Recovery に設定されている以下のしきい値に従って生成されます。PS のサービスやハートビートに関する問題から補足的なアラートも生成されます。これらの正常性アラートは、すべてポータルの PS ブレードに表示され、イベント テーブルで最大 72 時間分のデータ ポイントを詳細に監視できます。スループットは達成可能な RPO の観点から測定されます。
パラメーター | 警告のしきい値 | 重大なアラートのしきい値 |
CPU 使用率 | 80% | 95% |
メモリ使用率 | 80% | 95% |
空き容量 | 30% | 25% |
達成可能な PRO | >30 mins | >45 mins |
PS と複製されたアイテムの関係は、複製されたアイテムのブレードにわかりやすく表示されます。そのため問題をすばやく把握し、レプリケーションの途中で解決することができます。
複製されたアイテムのブレード
これらの正常性シグナルはすべて PS の正常性として集約されます。パラメーターが可視化されるため、保護対象のマシンを追加するときや既存の PS 間で負荷分散が必要な場合に、適した PS を簡単に選択できます。PS を選択する際、正常性に関する警告が発生している PS を選択しようとすると警告が表示されます。また、重大なアラートが発生している PS は選択できません。ワークロードが大規模であるほどこのシグナルは役に立ち、PS に接続する仮想マシンの数を適正化したり、PS に関する問題を回避したりする場合に重宝します。
レプリケーション ワークフローを有効化しようとしたときの正常な PS (左) と重大なアラートが発生している PS (右)
プロセス サーバーの CPU 使用率、メモリ使用率、空き領域に関するシグナルは、バージョン 9.24 以降で使用できます。スループットに関するアラートは、その後のリリースで実装を予定しています。
関連情報
- VMware または物理マシンから Azure へのディザスター リカバリーのセットアップ
- プロセス サーバーの管理
- Azure Site Recovery の変更頻度の制限
- プロセス サーバーのトラブルシューティング (英語)