高可用性とネットワーク パフォーマンスをアプリケーションに提供する Azure サービス。
こんにちは SHIRAISHI, KAZUMA 。
Azure Load Balancerにおいて「DataPathAvailability」の低下が観測された件につきまして、ご連絡いただきありがとうございます。
「Data Path Availability(データパスの可用性)」メトリックは、Load Balancerのフロントエンドから正常な状態にあるバックエンドインスタンスへの接続確認(TCP ping)の成功率を表す指標です。これらの確認は継続的に実行され、ワークロードに影響を与えることなく、実際のアプリケーショントラフィックと同じ経路を通過して行われます。
このメトリックの一時的な低下(例:約90%への低下)は、サンプリング期間中に接続確認の一部が成功しなかったことを示しています。これは必ずしもバックエンド側の障害を意味するものではなく、むしろデータパスの接続性における一時的な劣化を示唆するものです。
プラットフォームの観点からは、以下の点が挙げられます:
- Data Path Availabilityが90%未満かつ25%超の状態が2分以上継続した場合、当該リソースは「Degraded(劣化)」状態とみなされる可能性があります。
- また、メトリックが90%を下回った際、Azureプラットフォーム側で「DataPathAvailabilityWarning」イベントが発行されることがあります。これは、プラットフォーム側のイベントや一時的な環境要因によって引き起こされるものです。
考えられる原因:
通常、この事象は以下のいずれか、または複数の要因に起因するものと考えられます。
- 一時的なプラットフォームイベント(インフラストラクチャやネットワークの一時的な変動など)
- 断続的なバックエンドプローブの失敗(アプリケーションの応答遅延や無応答、ポートの応答が不安定な状態など)
- ヘルスプローブの設定不備、またはバックエンドへの到達性に関する問題
- 短時間の一時的なネットワーク輻輳(混雑)やパケット損失
SLAに関する考慮事項:
Azure Load BalancerのSLA(サービス品質保証)は、単一の5分間データポイントのみに基づいて評価されるものではありません。
- Data Path Availabilityメトリックは、あくまで診断やリソースの健全性を示す指標であり、SLAの直接的な測定値ではありません。
- SLAの遵守状況は、短時間の一時的な低下ではなく、月単位で集計された期間全体に基づいて判断されます。
したがって:
短時間の一時的な低下(例:午前3時05分頃に約90%まで低下したケースなど)のみをもって、直ちにSLA違反となるわけではありません。SLAの定義に基づき「ダウンタイム」として計測可能なほどの、継続的な影響が発生した場合に限り、SLA違反とみなされます。
今回の事象がバックエンド側、あるいはプラットフォーム側のどちらに起因するものかをさらに検証するには、以下の手順をご確認ください。
- 事象が発生したのと同時刻における「Health Probe Status(ヘルスプローブの状態)」メトリックを確認する。
- バックエンドインスタンスの中に、「Unhealthy(異常)」と判定されたものがないかを確認する。
- 「Resource Health(リソースの正常性)」ブレードを確認し、プラットフォーム側から報告されたイベントがないかを調べる。
- 「Azure Service Health」を確認し、対象リージョン全体に影響を及ぼすようなインシデントが発生していないかをクロスチェックする。
上記の情報がお役に立ったかどうか、また本件に関して他にサポートが必要な点がございましたら、ぜひお知らせください。
もしこの回答がお役に立ちましたら、ぜひ「役に立った(Upvote)」ボタンを押して評価をお願いいたします。この回答について追加のご質問がございましたら、「コメント」をクリックしてください。