次の方法で共有


Project Flash - Azure 仮想マシンの可用性の監視を進化させる

このプロジェクトは社内で Flash と呼ばれ、お客様が仮想マシン (VM) の正常性を監視するための堅牢で信頼性の高い迅速なメカニズムを構築するという、Microsoft の確固たるコミットメントに由来する名前です。 主な目的は、お客様が実用的で正確なテレメトリに確実にアクセスし、変更に関するアラートを迅速に受信し、大規模なデータを定期的に監視できるようにすることです。 また、お客様が独自の監視要件を満たすために便利に使用できる、一元的で一貫したエクスペリエンスの開発も重視しています。 ユーザーが次のことを確実に行えるようにすることが Microsoft の使命です。

  • VM の可用性の中断 (VM のリブートや再起動、ネットワーク ドライバーの更新によるアプリケーションのフリーズ、30 秒間のホスト OS の更新など) と、正確なエラーの詳細 (プラットフォームによる開始かユーザーによる開始か、リブートかフリーズか、計画されたものか計画外かなど) に関する正確で実用的なデータを使用する
  • VM の可用性の傾向を分析してアラートを生成し、迅速なデバッグと月ごとのレポート作成を行う。
  • 大規模なデータを定期的に監視し、カスタム ダッシュボードを構築して、すべてのリソースの最新の可用性状態について常に最新の情報を提供する。
  • 影響を受けた VM、ダウンタイムの原因と期間、その結果の修正などの詳細を示し、これらすべてが、対象を絞った調査と事後分析を可能にする自動化された根本原因分析 (RCA) を受け取る
  • VM の可用性の重大な変化に関する即時の通知を受け取り、修復アクションをすばやくトリガーし、エンドユーザーへの影響を防ぐ。
  • 変化し続けるワークロードの機密性とフェールオーバーのニーズに基づいて、プラットフォーム回復ポリシーを動的に調整し、自動化する

Flash ソリューション

Flash イニシアチブは、お客様の多様な監視ニーズに対応するソリューションを長年にわたって開発するためのものです。 特定の要件に最も適した Flash 監視ソリューションを判別するには、次の表を参照してください。

ソリューション 説明
Azure Resource Graph (一般提供) 大規模な調査、一元化されたリソース リポジトリ、履歴検索のために、大規模なお客様は、Azure Resource Graph (ARG) を使用して、すべてのワークロードにわたるリソースの可用性テレメトリを同時に定期的に使用する必要があります。
Event Grid システム トピック (パブリック プレビュー) 時間の影響を受けやすい重要なリスク軽減策 (再デプロイ、VM アクションの再開) をトリガーしてエンド ユーザーへの影響を防ぐために、お客様 (Pearl Abyss、Krafton など) は、Event Grid のイベント ハンドラーを使用して、リソース可用性の重大な変化のアラートを数秒以内に受け取る必要があります。
Azure Monitor (パブリック プレビュー) 傾向の追跡、プラットフォーム メトリック (CPU、ディスクなど) の集計、正確なしきい値ベースのアラートの設定を行うために、お客様は Azure Monitor を使用して、すぐに使用できる VM 可用性メトリックを使用する必要があります。
Resource Health (一般提供) リソースごとの便利なポータル UI 正常性チェックを瞬時に実行するために、お客様はポータルで RHC ブレードをすばやく表示できます。 また、迅速かつ簡単なトラブルシューティングのために、そのリソースに関する正常性チェックの 30 日間の履歴ビューにアクセスすることもできます。

包括的な VM 可用性監視

定期メンテナンス、ライブ マイグレーション、サービス復旧、VM 性能低下のシナリオなど、VM の可用性を監視するための包括的なアプローチでは、スケジュールされたイベント (SE) と Flash 正常性イベントの両方を利用することをお勧めします。

スケジュールされたイベントは、早期警告を提供するように設計され、メンテナンス アクティビティの最大 15 分前に通知を行います。 このリード タイムにより、今後のダウンタイムに関して十分な情報に基づいて意思決定を行って、ダウンタイムを回避または備えることができます。 今後のメンテナンスの準備状況に応じて、この 15 分間に柔軟にこれらのイベントを確認するか、アクションを遅延させることができます。

一方、Flash 正常性イベントは、VM の性能低下を含む、進行中の可用性中断と完了した可用性中断をリアルタイムで追跡することに重点を置いています。 この機能を使用すると、ダウンタイムを効果的に監視および管理でき、自動化されたリスク軽減、調査、事後分析をサポートします。

監視の取り組みを開始するには、高品質の VM 可用性データを出力する Azure 製品スイートを調べることができます。 これらの製品には、Resource Healthアクティビティ ログAzure Resource GraphAzure Monitor メトリックAzure Event Grid システム トピックが含まれます。

次のステップ

提供されるソリューションの詳細については、対応するソリューションの記事に進んでください。

Azure 仮想マシンを監視する方法の一般的な概要については、「Azure 仮想マシンの監視」および Azure 仮想マシンの監視のリファレンスに関するページを参照してください。