次の方法で共有


Chaos エージェントのトラブルシューティング

このページでは、Azure Chaos Studio で使用される Chaos エージェントに関連する問題のトラブルシューティングに関する統合ガイドを提供します。 このガイドを使用して、インストール中の問題の診断、ネットワーク接続の確認、エージェントのステータス メッセージの解釈、一般的なエラーの解決を行います。

詳細なセットアップ手順については、「 Chaos Agent のインストールと構成 」ページを参照してください。 ネットワークとセキュリティの詳細については、 Private Link とネットワーク セキュリティに関するページを参照してください。


エージェントのインストールに関する問題

Chaos エージェントのインストールに失敗した場合、または異常と思われる場合は、次のデバッグ手順に従います。

  • 拡張機能の展開エラー
    • 症状:[仮想マシン (VM) 拡張機能] ブレードに、Provisioning succeeded以外の状態 (失敗、エラーなど) が表示されます
    • トラブルシューティングの手順:
      1. ターゲット VM が最低限の前提条件 (自動インストールがサポートされている OS、正しいバージョンなど) を満たしていることを確認します。 OS のサポートと互換性を参照してください。
      2. ユーザー割り当てマネージド ID が VM に接続されていることを確認します。
      3. Azure portal の アクティビティ ログ で、拡張機能のデプロイに関連するエラーがないか確認します。
      4. VM が仮想マシン スケール セットの一部である場合は、スケール セットのアップグレード ポリシーが [手動] に設定されていないことを確認します。 その場合は、インスタンスを手動で ( az vmss update-instancesを使用して) アップグレードするか、 自動 ポリシーに切り替えます。
      5. VM でエージェント ベースの障害を無効にして再度有効にすることで、Azure CLI または Azure portal を使用して拡張機能をアンインストールして再インストールすることを検討してください。
        az vm extension delete --resource-group <ResourceGroup> --vm-name <VMName> --name ChaosAgent
        az vm extension set --resource-group <ResourceGroup> --vm-name <VMName> --name ChaosAgent --publisher Microsoft.Azure.Chaos --version <version>
        

ネットワーク接続の問題

エージェントがインストールされている場合でも、ネットワーク接続が中断されると、エージェントが正しく通信しない可能性があります。

  • 症状:

    • エージェントのハンドラーの 状態Readyが表示されません。
    • ログは、Chaos Studio エージェント サービス エンドポイントに到達できなかった場合を示します。
  • トラブルシューティングの手順:

    1. アウトバウンドアクセスの確認:
      次のパターンに従って、VM が Chaos Agent サービス エンドポイントへの送信ネットワーク アクセス権を持っていることを確認します。
      https://<region>.agents.chaos-prod.azure.com
      regionを VM のデプロイ リージョンに置き換えます。
    2. NSG とファイアウォールの設定を確認します。
      a. VM に接続されているネットワーク セキュリティ グループ (NSG) で送信 HTTPS (ポート 443) トラフィックが許可されていることを確認します。
      b。 推奨される方法は、送信トラフィックに ChaosStudio サービス タグを許可することです。
    3. プロキシとカスタム DNS:
      環境でプロキシまたはカスタム DNS 設定を使用している場合は、これらの設定がエンドポイントへのアクセスをブロックしていないことを確認します。
    4. Private Link の構成:
      Private Link で構成されている環境の場合は、次のことを確認します。 プライベート エンドポイントが正しく設定され、承認されています。 b。 Chaos エージェントのサービス ドメインがプライベート エンドポイントの IP に解決されるように、DNS 解決が更新されます。c. エージェントの構成は、それに応じて更新されます。

エージェントの状態と正常性チェック

エージェントは、VM の [拡張機能とアプリケーション ] ブレードで次の 2 つの主要な状態を報告します。

  • 状態フィールド:

    • Provisioning succeeded: 拡張機能が正常にデプロイされたことを示します。
    • その他の状態 ( FailedErrorなど) は、インストールの問題を通知します。
  • ハンドラー状態フィールド:

    • Ready: エージェントが実行され、Chaos Studio サービスと通信中であることを示します。
    • NotReady または空の状態は、エージェントが接続できないことを示します。一般的には、ネットワークの問題や ID が正しく構成されていないことが原因です。

エージェント ログを確認する方法

  • ウィンドウズ:
    Windows ログアプリケーションイベント ビューアーを開きます。 ソース AzureChaosAgent でフィルター処理して、関連するログ エントリを表示します。

  • Linux:
    Chaos Agent サービスの最新のログを表示するには、次のコマンドを実行します。

    journalctl -u azure-chaos-agent --lines 50
    
    

接続または依存関係の問題を示すエラー メッセージを探します。


Chaos Agent ローカル VM のデバッグ

ホスト上のデバッグ エージェント ログ

  • Windows エージェントのローカル デバッグ
    • Chaos エージェントが Windows サービスとして実行されている AzureChaosAgent
      • WINDOWS サービス コードは VMExtention ハンドラーで実行されます
    • エージェントの場所
      • エージェントは Azure VM 拡張機能としてインストールされます。 エージェントの場所は通常、 C:\Packages\Plugins\Microsoft.Azure.Chaos.ChaosWindowsAgent\<version> にあります。 ディレクトリには、 AzureChaosAgent.exeagentsettings.json とライブラリの両方が含まれています。
    • ホスト上のエージェント ログの取得: エージェント ログが Windows サービス ログにプッシュされます。
      • 最新の 50 行のエージェント ログを確認する PowerShell コマンドの例: '''Get-EventLog -LogName "Application" -Source "AzureChaosAgent" -Newest 50'''' です。
    • ホスト上のエージェントの開始/停止
      • Admin PowerShell で、Start-Service AzureChaosAgent または Stop-Service AzureChaosAgent コマンドを実行します
  • Linux エージェントのローカル デバッグ
    • Linux Chaos エージェントは Systemd によって管理されます。
    • エージェントの場所
      • エージェントが実行されている場合は、次を実行して Linux エージェントの実行可能ファイルを見つけることができます。 ps aux | grep chaos
    • ホスト上のエージェント ログオンを取得する
      • 最新の 50 行のエージェント ログへの bash コマンドの例: journalctl -u azure-chaos-agent --lines 50
    • ホスト上のエージェントの開始/停止
      • bash コマンド systemctl start azure-chaos-agent または systemctl stop azure-chaos-agent を実行します

その他の一般的なエラーと解決策

Chaos エージェントに関するその他の問題とそれに付随する解決策。

資格情報または ID エラー

エラーメッセージ 原因 解決
"資格情報エラーが原因でエージェントを登録できませんでした。" VM のマネージド ID が正しく構成されていません。 VM に正しいユーザー割り当てマネージド ID がアタッチされていること、および必要なアクセス許可があることを確認します。 詳細な手順については、「 Chaos Agent のインストールと構成 」ページを参照してください。

フォールト実行のための前提条件がみつかりません

エラーメッセージ 原因 解決
"API 例外が原因でエージェントを登録できませんでした"、または "Fault prerequisites not met" (Linux で stress-ng が見つからないなど) 必要な依存関係 (stress-ng など) がありません。 Chaos エージェントのアンインストールと再インストールを試みます。 不足している依存関係をターゲット VM にインストールします。 たとえば、Debian/Ubuntu では次のようになります。

sudo apt-get install stress-ng

詳細については、 OS のサポートと互換性 に関するページを参照してください。

ネットワーク接続のブロック

エラーメッセージ 原因 解決
"エージェント ログは、 https://<region>.agents.chaos-prod.azure.com.に接続できないことを示しています" 送信ネットワーク トラフィックがブロックされます。 Chaos Agent サービス エンドポイントへの HTTPS トラフィックを許可するように NSG ルールを更新します。 送信規則には ChaosStudio サービス タグを使用することを検討してください。 Private Link を使用する環境では、DNS がプライベート エンドポイントの IP に正しく解決されていることを確認します。

拡張機能のタイムアウトまたは ExtensionHandlerFailed

エラーメッセージ 原因 解決
アクティビティ ログの "ExtensionHandlerFailed" またはタイムアウト エラー。 ネットワークまたはリソースの構成の問題が原因で、エージェント拡張機能が正しく起動しませんでした。 - VM を再起動し、ネットワーク接続を確認します。
- 拡張機能をブロックする可能性があるセキュリティ ソフトウェアが干渉していることを確認します。
- 永続的な場合は、Azure CLI を使用して拡張機能を再インストールします (インストールのトラブルシューティングのセクションを参照)。

その他のリソース