次の方法で共有


Azure Virtual WAN の監視 - ベスト プラクティス

この記事では、Virtual WAN を監視するための構成におけるベスト プラクティスと、Virtual WAN と一緒に展開できるさまざまなコンポーネントについて説明します。 この記事で紹介する推奨事項は、ほとんどが既存の Azure Monitor のメトリックと Azure Virtual WAN で生成されたログに基づいています。 Virtual WAN のために収集されるメトリックとログの一覧については、Virtual WAN 監視データのリファレンスに関するページを参照してください。

この記事の推奨事項のほとんどで、Azure Monitor アラートを作成することをお勧めしています。 Azure Monitor のアラートは、監視データに重要なイベントが発生した場合に予防的に通知し、根本原因に迅速に対処し、最終的にダウンタイムを短縮するためのものです。 メトリック アラートの作成方法については、「チュートリアル: Azure リソースのメトリック アラートを作成する」を参照してください。 ログ クエリ アラートを作成する方法については、「チュートリアル: Azure リソースのログ クエリ アラートを作成する」を参照してください。

Virtual WAN ゲートウェイ

サイト間 VPN ゲートウェイ

設計チェックリスト – メトリック アラート

  • トンネルのエグレス パケット数またはイングレス パケット数のドロップの増加に対する警告ルールを作成します。
  • BGP ピア状態を監視するためのアラート ルールを作成します。
  • アドバタイズされた BGP ルートと学習済みの BGP ルートを監視する警告ルールを作成します。
  • VPN ゲートウェイの過大使用に対する警告ルールを作成します。
  • トンネルの過大使用に対する警告ルールを作成します。
推奨 説明
トンネルのエグレス パケットまたはイングレス パケットのドロップ数の増加に対する警告ルールを作成します。 トンネルのエグレス パケットまたはイングレス パケットのドロップ数の増加は、Azure VPN ゲートウェイまたはリモート VPN デバイスの問題を示している可能性があります。 警告ルールの作成時に [トンネルのエグレス パケットまたはイングレス パケットのドロップ数] メトリックを選択します。 警告ロジックを構成する場合、静的しきい値0 より大きくして、合計の集計の種類を定義します。

[接続] を全体として監視するか、[インスタンス][リモート IP] によって警告ルールを分割して、個々のトンネルに関する問題に警告を発することを選択できます。 Virtual WAN における VPN 接続リンクトンネルの概念の間の相違については、「Virtual WAN の FAQ」を参照してください。
BGP ピア状態を監視するためのアラート ルールを作成します。 サイト間接続で BGP を使用する場合、エラーが頻発して接続が中断される可能性があるため、ゲートウェイ インスタンスとリモート デバイス間の BGP ピアリングの正常性を監視することが重要です。

警告ルールの作成時に BGP ピア状態メトリックを選択します。 静的しきい値を使用して、平均の集計の種類を選択し、値が 1 未満になるたびにアラートがトリガーされるように構成します。

個々のピアリングの問題を検出するために、インスタンスBGP ピア アドレスでアラートを分割することをお勧めします。 このメトリックは、インスタンス自体 (常に 0) を含む、可能なすべての組み合わせの BGP の状態を監視するため、ゲートウェイ インスタンス IP を BGP ピア アドレスとして選択することは避けてください。
アドバタイズされた BGP ルートと学習済みの BGP ルートを監視する警告ルールを作成します。 アドバタイズされた BGP ルート学習済みの BGP ルートは、それぞれ VPN ゲートウェイがピアにアドバタイズしたルートとピアから学習を行ったルートの数を監視します。 これらのメトリックが予期せずゼロになった場合は、ゲートウェイまたはオンプレミスに問題がある可能性があります。

これらのメトリックの値が 0 になるたびにアラートがトリガーされるように構成することをお勧めします。 合計の集計の種類を選択します。 [インスタンス] で分割して、個々のゲートウェイ インスタンスを監視します。
VPN ゲートウェイの過大使用に対する警告ルールを作成します。 VPN ゲートウェイの合計スループットは、インスタンスごとのスケール ユニットの数によって決まります。 同じゲートウェイ インスタンスで終了するすべてのトンネルで、その合計スループットが共有されるようになることに注意してください。 インスタンスがその容量で長期間動作している場合、トンネルの安定性に影響する可能性があります。

警告ルールの作成時に [ゲートウェイの S2S 帯域幅] を選択します。 平均スループットが両方のインスタンスの最大合計スループットに近い値を上回るたびに、アラートがトリガーされるように設定します。 あるいは、アラートをインスタンスごとに分割し、インスタンスごとの最大スループットを参照として使用します。

適切な数のスケール ユニットを選択するために、トンネルあたりのスループットのニーズを事前に決定しておくことをお勧めします。 サイト間 VPN ゲートウェイでサポートされるスケール ユニット値の詳細については、仮想 WAN の FAQ を参照してください。
トンネルの過大使用に対する警告ルールを作成します。 トンネルごとに許可される最大スループットは、それが終了するゲートウェイ インスタンスのスケール ユニットによって決定されます。

トンネルが最大スループットに近づき、パフォーマンスや接続性の問題につながる危険性がある場合、警告を発し、トンネルの使用率増加の根本原因を調査したり、ゲートウェイのスケール ユニットを増やしたりして、予防的に対処できます。

警告ルールの作成時に [トンネル帯域幅] を選択します。 [インスタンス][リモート IP] で分割して、個々のトンネルをすべて監視するか、特定のトンネルを選択します。 平均スループットがトンネルごとに許可される最大スループットに近い値を上回るたびに、アラートがトリガーされるように設定します。

トンネルの最大スループットがゲートウェイのスケール ユニットによってどのような影響を受けるかについては、「Virtual WAN の FAQ」を参照してください。

設計チェックリスト - ログ クエリ アラート

ログベースのアラートを構成するには、まずサイト間/ポイント対サイト VPN ゲートウェイの診断設定を作成する必要があります。 診断設定とは、収集するログやメトリックを定義し、後で分析するためにそのデータの保存方法を定義することです。 ゲートウェイのメトリックとは異なり、診断設定が構成されていない場合、ゲートウェイ ログは利用できません。 診断設定の作成方法については、「診断設定を作成してログを表示する」を参照してください。

  • トンネル切断警告ルールを作成します。
  • BGP 切断警告ルールを作成します。
推奨 説明
トンネル切断警告ルールを作成します。 トンネル診断ログを使用して、サイト間接続の切断イベントを追跡します。 切断イベントは、SA のネゴシエートに失敗した場合や、リモート VPN デバイスが応答しなかった場合などに発生します。 トンネル診断ログには、切断理由も表示されます。 警告ルールの作成時に切断イベントを選択するには、この表の下の「トンネル切断警告ルールの作成 - ログ クエリ」を参照してください。

上記のクエリを実行した結果の行数が 0 より大きい場合にアラートがトリガーされるように構成します。 このアラートを有効にするには、[集計の細分性] で 1 ~ 5 分を選択し、[評価の頻度] で同様に 1 ~ 5 分を選択します。 この方法では、集計の細分性の間隔を経過した後、新しい間隔では行数が再び 0 になります。

トンネル診断ログを分析する場合のトラブルシューティングのヒントについては、診断ログを使用した「Azure VPN ゲートウェイのトラブルシューティング」を参照してください。 さらに、これらのログには IKE 固有の詳細な診断が含まれているため、IKE 診断ログを使用してトラブルシューティングを補完します。
BGP 切断警告ルールを作成します。 ルート診断ログを使用して、ルート更新と BGP セッションの問題を追跡します。 BGP 切断イベントが繰り返し発生すると、接続性に影響を与え、ダウンタイムが発生する可能性があります。 警告ルールの作成時に切断イベントを選択するには、この表の下の「BGP 切断警告ルールの作成 - ログ クエリ」を参照してください。

上記のクエリを実行した結果の行数が 0 より大きい場合にアラートがトリガーされるように構成します。 このアラートを有効にするには、[集計の細分性] で 1 ~ 5 分を選択し、[評価の頻度] で同様に 1 ~ 5 分を選択します。 この方法では、集計の細分性の間隔を経過した後、BGP セッションが復元されている場合は、新しい間隔では行数が再び 0 になります。

ルート診断ログで収集されるデータの詳細については、「診断ログを使用した Azure VPN Gateway のトラブルシューティング」を参照してください。

ログ クエリ

  • トンネル切断警告ルールの作成 - ログ クエリ: 次のログ クエリを使用することで、警告ルールの作成時にトンネル切断イベントを選択できます。

    AzureDiagnostics
    | where Category == "TunnelDiagnosticLog" 
    | where OperationName == "TunnelDisconnected"
    
  • BGP 切断警告ルールの作成 - ログ クエリ: 次のログ クエリを使用することで、警告ルールの作成時に BGP 切断イベントを選択できます。

    AzureDiagnostics 
    | where Category == "RouteDiagnosticLog" 
    | where OperationName == "BgpDisconnectedEvent"
    

ポイント対サイト VPN ゲートウェイ

次のセクションでは、メトリックベースのアラートの構成の詳細についてのみ説明します。 ただし、Virtual WAN ポイント対サイト ゲートウェイは診断ログもサポートします。 ポイント対サイト ゲートウェイで利用可能な診断ログの詳細については、「ポイント対サイト VPN ゲートウェイの診断」を参照してください。

設計チェックリスト – メトリック アラート

  • ゲートウェイの過大使用に対する警告ルールを作成します。
  • P2S 接続数が上限に近づいた場合にアラートを作成します。
  • ユーザー VPN ルート数が上限に近づいた場合にアラートを作成します。
推奨 説明
ゲートウェイの過大使用に対する警告ルールを作成します。 ポイント対サイト ゲートウェイの帯域幅は、構成されているスケール ユニットの数によって決まります。 ポイント対サイト ゲートウェイのスケール ユニットに関する詳細については、ポイント対サイト (ユーザー VPN) を参照してください。

ゲートウェイ P2S 帯域幅メトリックを使用してゲートウェイの使用率を監視し、ゲートウェイの帯域幅がその合計スループット付近の値を上回るたびにトリガーされる警告ルールを構成します。たとえば、ゲートウェイが 2 つのスケール ユニットで構成される場合、合計スループットは 1 Gbp になります。 この場合、しきい値を 950 Mbps に定義できます。

このアラートを使用して、使用量が増加した根本原因を予防的に調査し、必要に応じて最終的にスケール ユニットの数を増加します。 警告ルールを構成する場合は、平均の集計の種類を選択します。
P2S 接続数が上限に近づいた場合にアラートを作成する 許可されるポイント対サイト接続の最大数は、ゲートウェイに構成されているスケール ユニットの数によっても決まります。 ポイント対サイト ゲートウェイのスケール ユニットに関する詳細については、ポイント対サイト (ユーザー VPN) の FAQ を参照してください。

接続数を監視するには、P2S 接続数メトリックを使用します。 このメトリックを選択すると、接続数が最大許容数に近づいたときにトリガーされる警告ルールが構成されます。 たとえば、1 スケールのユニット ゲートウェイは最大 500 のコンカレント接続をサポートします。 この場合、接続数が 450 より多くなるたびにアラートがトリガーされるように構成できます。

このアラートを使用して、スケール ユニット数を増やす必要があるかどうかを判断します。 警告ルールを構成する場合は、合計の集計の種類を選択します。
ユーザー VPN ルート数が上限に近づいた場合に警告ルールを作成します。 ユーザー VPN ルートの最大数は、使用するプロトコルによって決まります。 IKEv2 には 255 ルートのプロトコル レベルの制限がありますが、OpenVPN には 1000 ルートの制限があります。 この詳細については、「VPN サーバー構成の概念」を参照してください。

ユーザー VPN の最大ルート数に到達しそうになったらアラートが表示され、ダウンタイムを回避するために予防的に行動できます。 ユーザー VPN ルート数を使用してこれを監視し、ルート数が制限値に近い値を超えるたびにトリガーされる警告ルールを構成します。 たとえば、制限が 255 ルートの場合、適切なしきい値は 230 です。 警告ルールを構成する場合は、合計の集計の種類を選択します。

ExpressRoute ゲートウェイ

次のセクションでは、メトリックベースのアラートについて説明します。 ゲートウェイ コンポーネントに焦点を当てた以下のアラートに加え、利用可能なメトリック、ログ、ツールを使用して ExpressRoute 回線を監視することをお勧めします。 ExpressRoute 監視の詳細については、「ExpressRoute 監視、メトリック、アラート」を参照してください。 ExpressRoute Traffic Collector ツールの使用方法については、「ExpressRoute Direct 用の ExpressRoute Traffic Collector を構成する」を参照してください。

設計チェックリスト – メトリック アラート

  • 1 秒あたりの受信ビット数に対するアラート ルールを作成します。
  • CPU の過大使用に対する警告ルールを作成します。
  • 1 秒あたりのパケット数に対するアラート ルールを作成します。
  • ピアにアドバタイズされるルート数に警告ルールを作成します。
  • ピアから学習を行ったルートの数の警告ルールの数。
  • ルート変更の頻度が高い場合の警告ルールを作成します。
推奨 説明
1 秒あたりの受信ビット数に対する警告ルールを作成します。 1 秒あたりの受信ビット数は、ゲートウェイが MSEE から受信したトラフィックの総量を監視します。

ゲートウェイで受信するトラフィック量が最大スループットに達する危険性がある場合、パフォーマンスや接続性の問題につながる可能性があるため、アラートを発する必要がある場合があります。 これにより、ゲートウェイの使用率の増加の根本原因を調査したり、ゲートウェイの最大許容スループットを増加させたりして、予防的に行動できます。

平均の集計の種類としきい値をゲートウェイに対してプロビジョニングされた最大スループットに近い値を警告ルールを構成する場合に選択します。

さらに、ゲートウェイまたは MSEE の問題を示す可能性があるため、1 秒あたりの受信ビット数が 0 に近い場合にアラートを設定することをお勧めします。

ExpressRoute ゲートウェイの最大スループットは、プロビジョニングされたスケール ユニットの数によって決まります。 ExpressRoute ゲートウェイのパフォーマンスの詳細については、「Azure Virtual WAN での ExpressRoute 接続について」を参照してください。
CPU の過大使用に対する警告ルールを作成します。 ExpressRoute ゲートウェイを使用する場合、CPU 使用率を監視することが重要です。 長時間にわたって使用率が高い状態が続くと、パフォーマンスや接続性に影響を与える可能性があります。

CPU使用率メトリックを使用してこれを監視し、CPU 使用率が 80% を上回るたびにアラートを作成します。そのため、根本原因を調査し、必要に応じて最終的にスケール ユニットの数を増やすことができます。 警告ルールを構成する場合は、平均の集計の種類を選択します。

ExpressRoute ゲートウェイのパフォーマンスの詳細については、「Azure Virtual WAN での ExpressRoute 接続について」を参照してください。
1 秒あたりの受信パケット数に対する警告ルールを作成します。 1 秒あたりのパケット数は、Virtual WAN ExpressRoute ゲートウェイを通過する受信パケット数を監視します。

1 秒あたりのパケット数が、ゲートウェイに構成されているスケール ユニットの数に対する許容上限に近づいている場合、アラートを出す必要がある場合があります。

警告ルールを構成する場合は、平均の集計の種類を選択します。 しきい値は、ゲートウェイのスケール ユニット数に基づいて、1 秒あたりのパケット数の最大許容数に近い値を選択します。 ExpressRoute のパフォーマンスの詳細については、「Azure Virtual WAN での ExpressRoute 接続について」を参照してください。

さらに、ゲートウェイまたは MSEE の問題を示す可能性があるため、1 秒あたりのパケット数が 0 に近い場合にアラートを設定することをお勧めします。
ピアにアドバタイズされるルート数に警告ルールを作成します。 ピアにアドバタイズされたルートの数は、ExpressRoute ゲートウェイから仮想ハブ ルーターと Microsoft Enterprise Edge デバイスにアドバタイズされるルート数を監視します。

ExpressRoute デバイスとして表示された 2 つの BGP ピアのみを選ぶフィルターを追加し、アドバタイズされるルートのカウントがドキュメントで規定された上限の 1,000 に近づいた場合に特定するアラートを作成することをお勧めします。 たとえば、アドバタイズされるルート数がが 950 を上回る場合にアラートがトリガーされるように構成します。

また、接続性の問題を事前に検出するために、Microsoft Edge デバイスにアドバタイズされるルート数がゼロになった場合にアラートを構成することをお勧めします。

これらのアラートを追加するには、ピアにアドバタイズされたルートの数メトリックを選択し、[フィルターの追加] オプションと ExpressRoute デバイスを選択します。
ピアから学習を行ったルートの数の警告ルールを作成します。 ピアから学習したルートの数は、ExpressRoute ゲートウェイが仮想ハブ ルーターと Microsoft Enterprise Edge デバイスから学習したルート数を監視します。

ExpressRoute デバイスとして表示される 2 つの BGP ピアのみを選ぶフィルターを追加し、学習するルートのカウントがドキュメントで規定された上限 (Standard SKU 回路の場合は 4,000、Premium SKU 回路の場合は 10,000) に近づいた場合に特定するアラートを作成することをお勧めします。

また、Microsoft Edge デバイスにアドバタイズされるルート数がゼロになった場合にアラートを構成することをお勧めします。 これは、オンプレミスでルートのアドバタイズが停止したことを検出するのに役立ちます。
ルート変更の頻度が高い場合の警告ルールを作成します。 ルート変更の頻度は、サイト間 VPN やポイント間 VPN などの他の種類のブランチを含む、ピアとの間で学習を行い、アドバタイズされるルートの変更頻度を示します。 このメトリックは、新しいブランチまたは複数の回路が接続/切断されている場合に可視性を提供します。

このメトリックは、フラッピングなどの BGP 広告の問題を特定する場合に役立つツールです。 環境が静的で、BGP の変更が予想されない場合にアラートを設定することをお勧めします。 BGP の挙動を一貫して監視するために、しきい値1 より大きく集計の細分性は 15 分を選択します。

環境が動的で BGP の変更が頻繁に予想される場合は、擬陽性を避けるためにアラートを設定しないことも選択できます。 ただし、ネットワークの可観測性については、引き続きこの指標を考慮することができます。

仮想ハブ

次のセクションでは、仮想ハブのメトリックベースのアラートについて説明します。

設計チェックリスト – メトリック アラート

  • BGP ピアの状態のアラート ルールを作成する
推奨 説明
BGP ピア状態を監視するためのアラート ルールを作成します。 警告ルールの作成時に BGP ピア状態メトリックを選択します。 静的しきい値を使用して、平均の集計の種類を選択し、値が 1 未満になるたびにアラートがトリガーされるように構成します。

これにより、仮想ハブ ルーターで、ハブにデプロイされている ExpressRoute、サイト間 VPN、ポイント対サイト VPN ゲートウェイとの接続に問題が発生している場合に特定できるようになります。

Azure Firewall

このセクションでは、メトリック ベースのアラートに焦点を当てます。 Azure Firewall は、監視目的のためにメトリックとログの包括的な一覧を提供します。 次のセクションで説明するアラートの構成に加えて、Azure Firewall Workbook を Azure Firewallの監視に役立てる方法、または Azure Firewall Connector for Microsoft Sentinel を使用して Azure Firewall ログを Microsoft Sentinel に接続する利点を探索します。

設計チェックリスト – メトリック アラート

  • SNAT ポート枯渇リスクに対する警告ルールを作成します。
  • ファイアウォールの過大使用に対する警告ルールを作成します。
推奨 説明
SNAT ポート枯渇リスクに対する警告ルールを作成します。 Azure Firewall では、バックエンド仮想マシン スケール セット インスタンスごとに構成されたパブリック IP アドレスあたり 2,496 個の SNAT ポートが提供されます。 インターネットへの送信トラフィックに関する組織の要件を満たす SNAT ポート数を事前に推定することが重要です。 そうしないと、Azure Firewall で利用可能な SNAT ポートの数が枯渇するリスクが高まり、送信接続に失敗する可能性があります。

SNAT ポート使用率メトリックを使用して、現在使用されている送信 SNAT ポートの割合を監視します。 このメトリックの警告ルールを作成して、(予期しないトラフィックの増加などにより) この割合が 95% を超えるたびにトリガーされるようにし、Azure Firewall に追加のパブリック IP アドレスを構成するか、代わりに Azure NAT Gateway を使用することにより、それに応じて行動できるようにします。 警告ルールを構成する場合は、最大の集計の種類を選択します。

SNAT ポート使用率メトリックを解釈する方法の詳細については、「Azure Firewall のログとメトリックの概要」を参照してください。 Azure Firewall で SNAT ポートをスケーリングする方法については、「Azure NAT Gateway を使用した SNAT ポートのスケーリング」を参照してください。
ファイアウォールの過大使用に対する警告ルールを作成します。 Azure Firewall の最大スループットは、SKU と有効な機能によって異なります。 Azure Firewall のパフォーマンスの詳細については、「Azure Firewall のパフォーマンス」参照してください。

ファイアウォールが最大スループットに近づいている場合はファイアウォールのパフォーマンスに影響を与える可能性があるため、アラートを出し、根本原因をトラブルシューティングすることをお勧めします。

スループット メトリックがファイアウォールの最大スループットに近い値を超えるたびに警告ルールがトリガーされるように作成します。たとえば、最大スループットが 30Gbps の場合、しきい値として 25Gbps を設定します。 スループット メトリックの単位はビット/秒です。警告ルールを作成する場合は、平均の集計の種類を選択します。

リソース正常性アラート

次のリソースに対して Service Health を介してリソース正常性アラートを構成することもできます。 こうすると、Virtual WAN 環境の可用性が確実に通知されます。また、オンプレミス環境からの問題ではなく、Azure リソースが異常な状態になったことがネットワークの問題の原因である場合、トラブルシューティングすることができます。 リソースの状態がデグレードまたは使用不能になったときにアラートを構成することをお勧めします。 リソースの状態がデグレードまたは使用不能になった場合は、これらのリソースによって処理されるトラフィック量、これらのリソースにアドバタイズされたルート、または作成されたブランチまたは VNet 接続の数に最近の急増があるかどうかを分析できます。 Virtual WAN でサポートされる制限の詳細については、Azure Virtual WAN の制限に関する記事を参照してください。

  • Microsoft.Network/vpnGateways
  • Microsoft.Network/expressRouteGateways
  • Microsoft.Network/azureFirewalls
  • Microsoft.Network/virtualHubs
  • Microsoft.Network/p2sVpnGateways

次のステップ