Kubernetes クラスターの推奨されるアラートルール

2025-05-19

Azure Monitor のアラートは、Azure リソースの正常性とパフォーマンスに関連する問題を事前に識別します。この記事では、Kubernetes クラスターのために事前に定義されている一連の推奨されるメトリックアラートルールを有効にしたり、編集したりする方法について説明します。

推奨されるアラートルールを有効化

クラスターの推奨されるアラートルールを有効にするには、次の方法のいずれかを使用します。同じクラスターに対して Prometheus とプラットフォームの両方のメトリックアラートルールを有効にすることができます。

注意

Arc 対応 Kubernetes クラスターに推奨されるアラートはプレビュー段階であり、プラットフォームメトリックアラートルールはサポートされていません。

Azure Portal
Azure Resource Manager

Azure portal を使用すると、Prometheus ルールグループは、クラスターと同じリージョンに作成されます。

クラスターの [アラート] メニューから、[推奨事項の設定] を選択します。
使用可能な Prometheus とプラットフォームのアラートルールが、ポッド、クラスター、ノードレベル別に整理された Prometheus ルールと共に表示されます。 Prometheus ルールのグループを切り替えて、その一連のルールを有効にします。グループを展開して、個々のルールを確認します。既定値のままにするか、または個々のルールを無効にして、その名前と重大度を編集できます。
プラットフォームのメトリックルールを切り替えて、そのルールを有効にします。ルールを展開して、その詳細 (名前、重大度、しきい値など) を変更できます。
1 つ以上の通知方法を選択して新しいアクショングループを作成するか、またはこの一連のアラートルールの通知の詳細を含む既存のアクショングループを選択します。
[保存] をクリックしてルールグループを保存します。

ARM テンプレートを使用すると、Prometheus ルールグループのリージョンを指定できますが、それをクラスターと同じリージョンに作成する必要があります。

操作しているテンプレートに必要なファイルをダウンロードし、次の表にあるパラメーターを使用してデプロイします。さまざまな方法の例については、「サンプルテンプレートをデプロイする」を参照してください。

ARM

テンプレートファイル: https://aka.ms/azureprometheus-recommendedmetricalerts

パラメーター:

パラメーター	説明
clusterResourceId	クラスターのリソース ID。
actionGroupResourceId（アクショングループリソースID）	アラートへの応答を定義するアクショングループのリソース ID。
azureMonitorWorkspaceResourceId	クラスターの Prometheus メトリックを受信する Azure Monitor ワークスペースのリソース ID。
場所	アラートルールグループを格納するためのリージョン。

上腕二頭筋

詳細については、README を参照してください。

テンプレートファイル: https://aka.ms/azureprometheus-recommendedmetricalertsbicep

パラメーター:

パラメーター	説明
aksResourceId	クラスターのリソース ID。
actionGroupResourceId	アラートへの応答を定義するアクショングループのリソース ID。
monitorWorkspaceName	クラスターの Prometheus メトリックを受信する Azure Monitor ワークスペースの名前。
場所	アラートルールグループを格納するためのリージョン。

推奨されるアラートルールを編集する

ルールグループが作成された後に、ポータルの同じページを使用してルールを編集することはできません。 Prometheus メトリックの場合、グループ内のルールを変更するには (まだ有効にしていなかったルールの有効化を含む)、そのルールグループを編集する必要があります。プラットフォームのメトリックの場合は、各アラートルールを編集できます。

Azure Portal
Azure Resource Manager

クラスターの [アラート] メニューから、[推奨事項の設定] を選択します。既に作成されているルールまたはルールグループにはすべて、[既に作成済み] のラベルが付けられます。
ルールまたはルールグループを展開します。 Prometheus の場合は [ルールグループの表示] を、プラットフォームのメトリックの場合は [アラートルールの表示] をクリックします。
Prometheus ルールグループの場合は、次の操作を行います。
1. [ルール] を選択して、グループ内のアラートルールを表示します。
2. 変更するルールの横にある [編集] アイコンをクリックします。 [アラートルールを作成する] にあるガイダンスを使用してルールを変更します。
3. グループ内のルールの編集を完了したら、[保存] をクリックしてルールグループを保存します。
プラットフォームのメトリックの場合は、次の操作を行います。
1. [編集] をクリックして、アラートルールの詳細を開きます。 [アラートルールを作成する] にあるガイダンスを使用してルールを変更します。

アラートルールグループを無効にする

ルールグループを無効にして、その中のルールからのアラートの受信を停止します。

Azure Portal
ARM テンプレート

「推奨されるアラートルールを編集する」の説明に従って、Prometheus アラートルールグループまたはプラットフォームのメトリックアラートルールを表示します。
[概要] メニューから、[無効にする] を選択します。

推奨されるアラートルールの詳細

次の表には、推奨される各アラートルールの詳細が一覧表示されています。それぞれのソースコードは、GitHub のほか、Prometheus コミュニティのトラブルシューティングガイドで入手できます。

Prometheus コミュニティのアラートルール

クラスターレベルのアラート

アラート名	説明	既定のしきい値	時間枠 (分)
KubeCPUQuotaOvercommit	名前空間に割り当てられている CPU リソースクォータが、過去 5 分間にクラスターのノード上の使用可能な CPU リソースを 50% 以上超えています。	>1.5	5
KubeMemoryQuotaOvercommit	名前空間に割り当てられているメモリリソースクォータが、過去 5 分間にクラスターのノード上の使用可能なメモリリソースを 50% 以上超えています。	>1.5	5
KubeContainerOOMKilledCount	過去 5 分間にポッド内の 1 つ以上のコンテナーがメモリ不足 (OOM) イベントのために強制終了されました。	>0	5
KubeClientErrors	Kubernetes API 要求でのクライアントエラー (5xx で始まる HTTP 状態コード) の割合が、過去 15 分間に合計 API 要求レートの 1% を超えています。	>0.01	15
KubePersistentVolumeFillingUp	永続ボリュームがほぼ満杯になりつつあるため、使用可能な領域の比率、使用済み領域、過去6時間の使用可能な領域の線形傾向に基づく評価から、近いうちに空き容量が不足すると予想されています。これらの条件は、過去 60 分にわたって評価されます。	該当なし	六十
KubePersistentVolumeInodesFillingUp	過去 15 分間、永続ボリューム内で使用可能な inode が 3% 未満になりました。	<0.03	15
KubePersistentVolumeErrors	過去 5 分間の間に、1 つ以上の永続ボリュームが失敗中または保留中のフェーズにあります。	>0	5
Kubeコンテナ待機中	過去 60 分間に Kubernetes ポッド内の 1 つ以上のコンテナーが待機状態にあります。	>0	六十
KubeDaemonSetNotScheduled	過去 15 分間に 1 つ以上のポッドがどのノードでもスケジュールされていません。	>0	15
KubeDaemonSetMisScheduled	過去 15 分間に 1 つ以上のポッドがクラスター内で誤ってスケジュールされています。	>0	15
KubeQuotaAlmostFull	Kubernetes リソースクォータの使用率が、過去 15 分間にハード制限の 90% から 100% までの間にあります。	>0.9 <1	15

ノードレベルのアラート

アラート名	説明	既定のしきい値	時間枠 (分)
KubeNode到達不能	過去 15 分間にノードに到達できませんでした。	1	15
KubeNodeReadinessFlapping	ノードの準備状態が、過去 15 分間に 3 回以上変更されました。	2	15

ポッドレベルのアラート

アラート名	説明	既定のしきい値	時間枠 (分)
KubePVUsageHigh	ポッド上の永続ボリューム (PV) の平均使用率が、過去 15 分間に 80% を超えています。	>0.8	15
KubeDeploymentReplicasMismatch	目的のレプリカの数と過去 10 分間の使用可能なレプリカの数の間に不一致があります。	該当なし	10
KubeStatefulSetReplicasMismatch	StatefulSet 内の準備完了レプリカの数が、過去 15 分間の StatefulSet 内のレプリカの合計数と一致しません。	該当なし	15
KubeHpaReplicasMismatch	クラスター内のポッドの水平オートスケーラーが、過去 15 分間に目的のレプリカの数に適合しませんでした。	該当なし	15
KubeHpaMaxedOut	クラスター内の水平ポッドオートスケーラー (HPA) は、過去15分間、最大のレプリカ数で稼働していました。	該当なし	15
KubePodCrashLooping	1 つ以上のポッドが CrashLoopBackOff 状態にあります。ここで、このポッドは起動後も継続的にクラッシュし、過去 15 分間正常に回復できていません。	>=1	15
KubeJobStale（キューブジョブステール）	過去 6 時間に少なくとも 1 つのジョブインスタンスが正常に完了しませんでした。	>0	360
Kubeポッドコンテナ再起動	Kubernetes クラスターのポッド内の 1 つ以上のコンテナーが、過去 1 時間以内に少なくとも 1 回再起動されました。	>0	15
KubePodReadyStateLow	準備完了状態にあるポッドの割合が、過去 5 分間に Kubernetes クラスター内のすべてのデプロイまたはデーモンセットで 80% を下回っています。	<0.8	5
KubePod失敗状態	過去 5 分間に 1 つ以上のポッドがエラー状態にあります。	>0	5
コントローラーによるKubePod準備未完了	過去 15 分間に 1 つ以上のポッドが準備完了状態にありません (つまり、"保留中" または "不明" フェーズ)。	>0	15
KubeStatefulSetGenerationMismatch	Kubernetes StatefulSet の生成が過去 15 分間、そのメタデータの生成と一致していません。	該当なし	15
KubeJobFailed	過去 15 分以内に 1 つ以上の Kubernetes ジョブが失敗しました。	>0	15
KubeContainerAverageCPUHigh	コンテナーあたりの平均 CPU 使用率が、過去 5 分間に 95% を超えています。	>0.95	5
Kubeコンテナの平均メモリ使用量が高い	コンテナーあたりの平均メモリ使用率が、過去 5 分間に 95% を超えています。	>0.95	10
Kubelet ポッドの起動遅延が高い	過去 10 分間にポッドの起動時の待ち時間の 99 パーセンタイルが 60 秒を超えています。	>60	10

プラットフォームのメトリックアラートルール

アラート名	説明	既定のしきい値	時間枠 (分)
ノード CPU の割合が 95% を超えている	ノード CPU の割合が、過去 5 分間に 95% を超えています。	95	5
ノードのメモリワーキングセットの割合が 100% を超えている	ノードメモリワーキングセットの割合が、最後の 5 分間に 100% を超えています。	100	5

レガシーコンテナーインサイトのメトリックアラート（プレビュー）

Container insights のメトリックルールは、2024 年 5 月 31 日に廃止されました。これらのルールはパブリックプレビュー段階にありましたが、この記事で説明されている新しい推奨されるメトリックアラートが使用可能になったため、一般提供に達することなく廃止される予定です。

これらの従来のアラートルールを既に有効にしている場合は、それらを無効にして、新しいエクスペリエンスを有効にする必要があります。

メトリック警告ルールを無効にする

クラスターの [分析情報] メニューから、[推奨されるアラート (プレビュー)] を選択します。
各アラートルールの状態を [無効] に変更します。

レガシのアラートマッピング

次の表では、従来のContainer Insightsメトリックアラートを推奨される対応するPrometheusメトリックアラートにマップします。

カスタムメトリック推奨アラート	同等の Prometheus/プラットフォームメトリック推奨アラート	条件
Completed job count (完了したジョブの数)	KubeJobStale (ポッドレベルのアラート)	過去 6 時間に少なくとも 1 つのジョブインスタンスが正常に完了しませんでした。
コンテナー CPU %	KubeContainerAverageCPUHigh (ポッドレベルのアラート)	コンテナーあたりの平均 CPU 使用率が、過去 5 分間に 95% を超えています。
コンテナーワーキングセットメモリ (%)	KubeContainerAverageMemoryHigh (ポッドレベルのアラート)	コンテナーあたりの平均メモリ使用率が、過去 5 分間に 95% を超えています。
Failed Pod counts (失敗したポッド数)	KubePodFailedState (ポッドレベルのアラート)	過去 5 分間に 1 つ以上のポッドがエラー状態にあります。
Node CPU % (ノード CPU %)	ノード CPU 使用率が 95% より大きい (プラットフォームメトリック)	ノード CPU の割合が、過去 5 分間に 95% を超えています。
ノードディスク使用率 %	該当なし	ノードの平均ディスク使用量が 80% より大きい。
ノードがNotReady状態	KubeNodeUnreachable (ノードレベルのアラート)	過去 15 分間にノードに到達できませんでした。
Node working set memory % (ノードワーキングセットメモリ %)	ノードのメモリワーキングセットの割合が 100% を超えている	ノードメモリワーキングセットの割合が、最後の 5 分間に 100% を超えています。
OOM Killed Containers (OOM により中止されたコンテナー)	KubeContainerOOMKilledCount (クラスターレベルのアラート)	過去 5 分間にポッド内の 1 つ以上のコンテナーがメモリ不足 (OOM) イベントのために強制終了されました。
永続ボリューム使用率 %	KubePVUsageHigh (ポッドレベルのアラート)	ポッド上の永続ボリューム (PV) の平均使用率が、過去 15 分間に 80% を超えています。
Pods ready % (準備完了ポッドの割合 %)	KubePodReadyStateLow (ポッドレベルのアラート)	準備完了状態にあるポッドの割合が、過去 5 分間に Kubernetes クラスター内のすべてのデプロイまたはデーモンセットで 80% を下回っています。
コンテナの再起動回数	KubePodContainerRestart (ポッドレベルのアラート)	Kubernetes クラスターのポッド内の 1 つ以上のコンテナーが、過去 1 時間以内に少なくとも 1 回再起動されました。

従来のメトリックのマッピング

次の表では、各レガシの Container Insights カスタムメトリックを同等の Prometheus メトリックにマップしています。

カスタムメトリック	同等の Prometheus メトリック
CPU使用量ミリコア	rate(container_cpu_usage_seconds_total[5m]) * 1000
CPU使用率パーセンテージ	100 * rate(container_cpu_usage_seconds_total{cluster="$cluster"}[5m])
cpuUsageAllocatablePercentage	100 * ( sum by (cluster) (node_namespace_pod_container:container_cpu_usage_seconds_total:sum_irate{cluster="$cluster"}) / sum by (cluster) (instance:node_num_cpu:sum{cluster="$cluster"}) )
memoryRssByte	container_memory_rss{cluster="$cluster"}
memoryRssPercentage	100 * (sum by (instance, cluster) (container_memory_rss{job="cadvisor", cluster="$cluster"}) / sum by (instance, cluster) (machine_memory_bytes{job="cadvisor", cluster="$cluster"}))
memoryRssAllocatablePercentage	100 * (sum by (node, cluster) (container_memory_rss{cluster="$cluster"}) / sum by (node, cluster) (node_memory_MemTotal_bytes{cluster="$cluster"}))
memoryWorkingSetBytes	container_memory_working_set_bytes{cluster="$cluster"}
メモリ稼働率割合	100 * (sum by (node, cluster) (container_memory_working_set_bytes{cluster="$cluster"}) / sum by (node, cluster) (node_memory_MemTotal_bytes{cluster="$cluster"}))
ノード数	count(kube_node_status_condition{condition="Ready", status="true", cluster="$cluster"})
ディスク使用率	100 * (node_filesystem_size_bytes{cluster="$cluster"} - node_filesystem_free_bytes{cluster="$cluster"}) / node_filesystem_size_bytes{cluster="$cluster"}
ポッドカウント	count(count by (pod, namespace, cluster) (kube_pod_info{cluster="$cluster"}))
完了したジョブのカウント	count(kube_job_status_succeeded{status="true", cluster="$cluster"} and time() - kube_job_status_start_time > 6 * 3600)
再起動コンテナ数	sum by(container, namespace, cluster) (rate(kube_pod_container_status_restarts_total{cluster="$cluster"}[5m]))
OOMキルされたコンテナ数	sum by(container, namespace, cluster) (kube_pod_container_status_terminated_reason{reason="OOMKilled", cluster="$cluster"})
podReadyPercentage	100 * (sum(kube_pod_status_phase{phase="Running", cluster="$cluster"}) by (namespace, cluster) / sum(kube_pod_status_phase{phase!="Succeeded", cluster="$cluster"}) by (namespace, cluster))

次のステップ

Azure Monitor のさまざまなアラートルールの種類について読む。
Prometheus 用の Azure Monitor マネージドサービスのアラートルールグループについて読む。

次の方法で共有

Kubernetes クラスターの推奨されるアラート ルール

推奨されるアラート ルールを有効化

推奨されるアラート ルールを編集する

アラート ルール グループを無効にする

推奨されるアラート ルールの詳細

Prometheus コミュニティのアラート ルール

クラスター レベルのアラート

ノード レベルのアラート

ポッド レベルのアラート

プラットフォームのメトリック アラート ルール

レガシー コンテナー インサイトのメトリック アラート（プレビュー）