次の方法で共有


Azure SRE エージェントで軽減策を実行する

エージェントが問題を診断して修正します。 サービスの再起動、リソースのスケーリング、セキュリティ設定の強化、診断の収集はすべて、選択した制御レベルで行われます。

[!VIDEO <VIDEO_URL>/Azure_SRE_Agent__Verified_Fix.mp4]

ヒント

  • 問題を解決するようにエージェントに依頼します。 ソリューションが提案され、承認され、修正が実行されます。
  • 完全な監査証跡: 誰がそれをトリガーしたか、何が変わったか、そしてそれが機能したかどうか。
  • 信頼レベルを選択します。レビュー モード (各アクションを承認する) または自律モード (エージェントが処理します)。

問題:アクションのない診断は時間を無駄にする

問題を特定しました。 次に何をすればいいですか? Azure portal に移動し、右側のブレードを見つけ、リソースを確認し、確認ダイアログをクリックして操作が完了するのを待ってから、正常に動作したことを確認します。 調査には 5 分かかりました。 修正にはさらに 10 分かかります。

この摩擦は、運用ワークフロー全体に存在します。

  • 毎日の操作: 予想される負荷に合わせてリソースをスケーリングし、メンテナンス期間中にサービスを再起動します。
  • コンプライアンス チェック: 数十のストレージ アカウントにわたってセキュリティ設定を強化します。
  • オンコール応答: エンジニアがスリープ状態に戻ることができるように、既知の修正をすばやく実行します。
  • プロアクティブな最適化: 問題が発生する前に、使用パターンに基づいて SKU を調整します。

エージェントがループを閉じる方法

エージェントが問題を特定しても、何が問題なのかを伝えることに終わりはありません。 特定の修復アクションが提案され、 実行モードに応じて、承認を待機するか、アクションを直ちに実行します。

エージェントは一貫したパターンに従います。 アクションを特定→診断→、修正が機能したことを確認→実行 (または提案) →アクセス許可を確認します。 すべてのアクションは、トリガーしたユーザー、変更された内容、理由、成功したかどうかと共にログに記録されます。

エージェントの応答パス (修正の実行、作業項目の作成、通知の送信) を示す図。

調査の後、エージェントは直接アクションを実行したり、追跡項目を作成したり、チームに通知したりできます。それぞれのコンテキストは完全です。

スクリプトとは何が違うのか

スクリプトは厳密です。 コンテキストに関係なく、同じアクションを実行します。 エージェントが最初に状況に関する理由を説明します。 調査中に見つかった内容、過去のインシデントから覚えている内容、 スキルナレッジ ベース で推奨されるものが考慮されます。 エージェントが証拠に基づいて適応するため、同じ症状が 1 つのケースで再起動し、別のケースでスケールアップにつながる可能性があります。

実行モードを使用 すると、段階的な信頼が得られます。 エージェントが提案し、承認する レビュー モードで開始します。 パターンに自信がある場合は 、自律型 に移動します。 アクションを実行しない監視専用エージェント には ReadOnly を使用します。

エージェントでできること

エージェントは、Azure CLI コマンドを使用して任意の Azure アクションを実行できます。 azで実行できる場合は、エージェントでも実行できます。 この機能には、任意のリソースの種類の管理、構成の変更、リソースの作成、Azure 操作の実行が含まれます。

コマンドの種類 それが可能にするもの
コマンドの読み取り az webapp listaz containerapp showaz vm listaz network vnet showなど、Azure リソースに対してクエリを実行します。 すぐに実行され、承認は必要ありません。
コマンドを記述する azure リソース ( az webapp restartaz containerapp updateaz vm resizeaz role assignment create) を変更します。 レビュー モードで承認が必要です。

エージェントのアクションは、マネージド ID に割り当てられたアクセス許可によってのみ制限されます。 リソース グループに共同作成者を付与すると、エージェントはそのグループ内のすべてを管理できます。 特定のアクションを持つカスタム ロールを付与する場合、エージェントはこれらのアクションに制限されます。

安全ガードレール

エージェントは、コマンド レベルで安全性の制約を適用します。

  • 削除操作がブロックされる - エージェントは delete コマンドと remove コマンドを実行しません。 削除のためにユーザーを Azure portal に誘導するエラーが返されます。
  • Key Vault コマンドがブロックされる — エージェントは、資格情報の公開を防ぐために、すべての az keyvault コマンドをブロックします。
  • 管理ロックが優先 - リソースを変更する前に、エージェントは Azure 管理ロックをチェックします。 ReadOnly ロックを持つリソースは変更できません。
  • サブスクリプションの検証 - エージェントは、実行前に正しい GUID 形式のサブスクリプション ID をコマンドで検証します。

前後

次の表は、手動軽減プロセスとエージェント支援アプローチを比較したものです。

の前に 後の
実行を修正する Azure portal に移動し、リソースを見つけ、ブレードをクリックします エージェントに問い合わせ、承認、完了
確認 修正が機能したかどうかを手動で確認する エージェントが結果を検証して報告する
監査 誰かが彼らが何をしたかを文書化することを願っています Application Insights の完全な監査証跡
知識 あるエンジニアが修正プログラムを知っている エージェントが学習したパターンを一貫して適用する

権限の要件

既定では、エージェントは 閲覧者 アクセス権を持ち、アクションを実行できません。 エージェントのマネージド ID にロールを割り当てることで、書き込みアクセス許可を明示的に付与します。

Scope エージェントが対応できる対象 推奨対象
資源 1 つのリソースのみ 最大制限(ここから開始)
リソース グループ 1 つのグループ内のすべてのリソース 運用ワークロード
Subscription サブスクリプション内の任意のリソース 開発とテストのみ

Warnung

エージェントは、リソースを変更する前に Azure 管理ロックをチェックします。 アクセス許可または実行モードに関係なく、ReadOnly ロックを使用してリソースを変更することはできません。 削除操作と除去操作は完全にブロックされます。 削除には Azure portal を使用できます。

代替応答パス

直接的な軽減策だけが選択肢ではありません。 多くのチームは、アクションを直接実行するのではなく、作業項目またはチケット システムに結果をルーティングすることを好みます。 作業項目は、ヒューマン レビューが必要な場合や、管理プロセスを変更する場合に特に役立ちます。

応答パス どのように機能するのか 最適な用途
直接的な軽減策 エージェントが再起動、スケール、またはハードニングを実行する 信頼できるパターン、非運用環境
作業項目の作成 エージェントが GitHub の問題または Azure DevOps 作業項目を作成する 人間を介在させた変更管理
通知を送信する エージェントが Teams に投稿するか、メールを送信する アクションのない認識
トリガー ワークフロー エージェントが GitHub Actions または Logic Apps を実行する CI/CD 統合、マルチステップ プロセス

コネクタを使用して作業項目の作成と通知を構成 します。 たとえば、GitHub MCP サーバーを接続してエージェントで問題を作成したり、Azure DevOps を接続して作業項目を自動的に作成したりできます。

詳細については、これらの応答の種類 を連結するための通知の送信ワークフローの自動化 に関する記事を参照してください。

例: インシデントによってトリガーされる軽減策

次の例は、スリープ中の午前 3 時 47 分にエージェントがメモリ インシデントを処理する方法を示しています。

午前 3:47 — PagerDuty がアラートを発生します:"prod-api のメモリが高い"

エージェント(レビュー モード)では、すべてを処理します。

  1. インシデントを確認します 。PagerDuty に "SRE エージェントによって確認済み" と表示されます。

  2. 自動的に調査します

    • App Insights のクエリ: メモリ使用率が94%で、過去2時間にわたり上昇傾向にあります。
    • 展開履歴を確認します。最近のデプロイはありません。
    • メモリからの呼び出し: "前回この問題が発生した場合は、再起動して解決しました。"
  3. 修正を提案 - インシデント スレッドに投稿する。

    Memory at 94% on prod-api (App Service).
    Recommended action: Restart the App Service.
    
    Evidence:
    - Memory climbing since 1:30 AM
    - No recent deployments
    - Past incident: restart resolved similar issue on 2026-01-15
    
    [Approve] [Deny]
    
  4. 承認 (または自律モードでは、エージェントはすぐに実行されます)。

  5. エージェントは次を実行して検証します

    ✓ Restarted prod-api
    ✓ Memory now at 42%
    ✓ Incident resolved
    

どうしたのですか: [ 承認 ] をクリックすると、エージェントは調査、アクション、検証を処理しました。

監査証跡

システムは、すべての軽減アクションを完全なコンテキストと共に記録します。

フィールド キャプチャされた情報
アイデンティティ エージェントとマネージドアイデンティティ
アクション 実行された正確な操作
タイムスタンプ 操作が実行されたとき
Trigger アクションにつながった診断または状態
結果 成功または失敗 (事後検証あり)

Application Insights の監査証跡に対してクエリを実行するには、エージェント ポータルの 監視 > ログ を使用します。 システムは、すべての az コマンドを AgentAzCliExecution カスタム イベントとしてログに記録します。 詳細については、「 監査エージェントの行動」を参照してください。

次のステップ