AKS クラスターの正常性を評価する
この記事はシリーズの一部です。 概要から始めます。
トリアージ プラクティスを開始するには、クラスターとネットワークの全体的な正常性を評価します。
ツール
Azure Kubernetes Service (AKS) クラスターの問題の診断と解決に使用できるツールと機能は多数あります。
Azure portal で、AKS クラスター リソースを選択します。 これらのツールと機能は、ナビゲーション ウィンドウに表示されます。
問題の診断と解決: このツールを使用すると、クラスター内の問題を特定して解決できます。
リソース正常性: このツールを使用すると、Azure リソースに影響を与える可能性があるサービスの問題を診断し、サポートを得ることができます。 このツールでは、リソースの現在および過去の正常性状態に関する情報が提供されます。
Advisor の推奨事項: Azure Advisor は、パーソナライズされたクラウド コンサルタントとして機能し、Azure デプロイを最適化するためのベスト プラクティスに従うことをガイドします。 Advisor を使用して、リソース構成と使用状況テレメトリを分析できます。 Advisor は、コスト効率、パフォーマンス、信頼性、およびセキュリティを強化できるようにソリューションを提案します。
ログ: この機能を使用して、Log Analytics ワークスペースに格納されているクラスター ログとメトリックにアクセスします。 クラスターのログとメトリックを監視および分析して、分析情報を提供し、トラブルシューティングを向上させることができます。
これらのツールと機能を使用して、問題を効果的に診断して解決し、AKS クラスターのデプロイを最適化し、Azure リソースの正常性とパフォーマンスを監視できるようにします。
問題の診断と解決
問題の診断と解決機能では、クラスターに関連するさまざまな問題の特定と解決に役立つ包括的なツール スイートが提供されます。 問題に最も関連するトラブルシューティング カテゴリを選択します。
クラスターの正常性を確認するには、以下を選択できます。
- クラスターとコントロール プレーンの可用性とパフォーマンス: クラスターの正常性に影響を与えるサービスの可用性または調整の問題があるかどうかを確認します。
- 接続の問題: クラスターのドメイン ネーム システム (DNS) の解決に関するエラーがあるか、または送信通信ルートに接続の問題があるかどうかを確認します。
リソース正常性
リソース正常性機能を使用して、クラスターの正常性に影響を与える可能性があるクラスターの問題とサービスの問題を特定し、サポートを受けます。 クラスターの正常性を簡単に監視できるように、リソース アラートを設定します。 リソース正常性機能では、クラスターの現在および過去の正常性に関するレポートが提供されます。 次の 4 つの正常性状態があります。
使用可能: この状態は、クラスターの正常性に影響するイベントが検出されていないことを示します。 過去 24 時間以内にクラスターが計画外のダウンタイムから復旧した場合は、"最近解決されました" という通知が表示されます。
使用不可: この状態はクラスターの正常性に影響を与える継続中のプラットフォームまたはプラットフォーム以外のイベントが検出されたことを示します。
不明: この状態は、機能で、リソースに関する情報が 10 分以上受信されていないことを示します。 この状態は、通常、仮想マシンの割り当てが解除されたときに表示されます。 この状態はリソースの状態を明確に示すものではありませんが、トラブルシューティングに役立つデータ ポイントである可能性があります。
機能低下: この状態は、クラスターのパフォーマンスは低下しているものの、クラスターはまだ使用可能であることを示します。
次のスクリーンショットは、リソース正常性の概要を示しています。
詳細については、Azure Resource Health の概要に関するページを参照してください。
Advisor
Advisor では、信頼性、セキュリティ、オペレーショナル エクセレンス、パフォーマンス効率について AKS クラスターを最適化するのに役立つ実用的な推奨事項が提供されます。 Advisor を使用して、事前にクラスターのパフォーマンスを向上させ、潜在的な問題を回避できます。 クラスターを最適化する方法の詳細については、推奨事項を選択してください。
次のスクリーンショットは、選択した推奨事項のリソースを示しています。
詳細については、Advisor の概要に関するページを参照してください。
Log Analytics
Log Analytics では、クラスターの正常性に関する分析情報が提供されます。 Log Analytics ワークスペースにアクセスするには、AKS クラスターに移動し、ナビゲーション ウィンドウで [ログ] を選択します。
定義済みのクエリを選択して、クラスターの正常性を分析できます。
組み込みのクエリを使用して、Log Analytics ワークスペースで収集されたログとメトリックに対してクエリを実行します。 次のリストでは、可用性、コンテナー ログ、診断カテゴリの一部のクエリの機能について説明します。
可用性
ノードごとの準備状態クエリ: 準備状態別にクラスター内のすべてのノードの数を表示します。
フェーズですべてのポッド数を一覧表示するクエリ: 失敗、保留中、不明、実行中、成功など、フェーズごとにすべてのポッドの数を表示します。
コンテナー ログ
コンテナー ログ テーブルで値を検索するクエリ: LogEntry に指定された文字列パラメーターがある ContainerLogs テーブルで行を検索します。
名前空間ごとにコンテナー ログを一覧表示するクエリ: クラスター内の名前空間のコンテナー ログを表示します。
診断
クラスター オートスケーラー ログ クエリ: クラスター オートスケーラーからのログに対してクエリを実行します。 このクエリでは、クラスターが予期せずスケールアップまたはスケールダウンする理由に関する情報を提供できます。
Kubernetes API サーバー ログ クエリ: Kubernetes API サーバーからのログに対してクエリを実行します。
イメージ インベントリ クエリ: すべてのコンテナー イメージとその状態を一覧表示します。
ノードごとの 1 秒あたりの Prometheus ディスク読み取りクエリ: 既定の Kubernetes 名前空間からの Prometheus ディスク読み取りメトリックを時間グラフとして表示します。
インスタンスの平均 CPU 使用率の増加クエリ: 過去 1 週間のインスタンスごとの平均 CPU 使用率の増加を降順で表示します。
共同作成者
この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。
プリンシパルの作成者:
- Paolo Salvatori | プリンシパル カスタマー エンジニア
- Francis Simy Nazareth | シニア テクニカル スペシャリスト
その他の共同作成者:
- Rong Zhang | シニア プロダクト マネージャー
パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。