次の方法で共有


Azure SRE エージェントの根本原因分析

ヒント

  • ランダムなログ検索ではなく、仮説主導の調査を使用します。
  • これが原因である 理由 を示す完全な証拠チェーンを提供します。
  • 同様の過去のインシデントとその修正を思い出してください。

問題: ログ検索は調査ではない

ほとんどのデバッグは、"エラーを表示する" から始まります。ログのクエリ、結果のスクロール、タイムスタンプのコピー、ツールの切り替え、別のクエリの実行を行います。 調査していません。 データを手動で関連付け、頭の中で推論を保持している。

実際の問題は、ログが見つからないという問題です。 どの質問をするべきか、どのツールを確認すべきかを知り、ログ、メトリクス、デプロイメント、過去のインシデント間の関連性を理解して結びつけることです。 そのメンタル モデルは、上級エンジニアの頭の中に存在し、すべての呼び出しに参加することはできません。 新しいチーム メンバーは、退役軍人が解決する問題に数分で時間を費やします。理由はどこにも文書化されていないためです。

Azure SRE エージェントがこの問題を解決する方法

証拠収集から仮説検証までの根本原因分析フローを示す図。

エージェントはエキスパート SRE のように調査します。 ログを検索するだけではありません。 これは、何が間違っていたかについての仮説を形成し、証拠を使用して各問題を体系的に検証します。

  1. コンテキストを収集します。Application Insights、Azure Monitor、デプロイ履歴、アクティビティ ログ、リソース プロパティに対してクエリを実行します。
  2. 仮説を形成する: 証拠パターンに基づいて理論を生成します。
  3. それぞれを検証します。仮説を体系的にテストし、誤ったリードを除外します。
  4. 結論について説明します:証拠と引用を支持する完全な推論の道を示します。

これは何が違うのか

ログ検索とは異なり、エージェントは問題に関する理由を説明します。 "エラーを表示" では、解釈するデータが提供されます。 エージェントは、理論を形成し、テストし、結論を説明することで、データを解釈します。

静的ダッシュボードとは異なり、エージェントは特定のインシデントに適応します。 メトリックが表示されるだけではありません。 どのメトリックが重要かを決定し、それらを他の証拠と関連付け、その理由を示します。

スクリプトとは異なり、エージェントは新しい状況を処理します。 スクリプトは毎回同じ手順を実行します。 エージェントは、今回の違いについて理由を考え、それに応じて調査を調整します。

能力 それが貢献するもの
メモリ この同じ問題が3週間前に発生しました。 修正は X でした。
ナレッジ ベース 貴社のランブックとアーキテクチャ ドキュメントは仮説形成の指針となります。
ソースコード エラーをソース コードと関連付け、関連する変更を見つける
サブエージェント サービス固有のスペシャリスト (Application Insights、AKS、Container Apps など) に委任する

前後

カテゴリ の前に 後の
調査アプローチ ログを検索します。何かが見つかるといいですね エージェントはフォームを作成し、仮説をテストする
開かれたツール 4 つ以上のポータル、手動相関 0 (エージェントはすべてのソースに対してクエリを実行)
Reasoning "私はそれがデータベースだと思います..." "98%のデータベース DTU、検証済み"
証拠証跡 頭の中で 説明付きの完全なチェーン
次回 最初から行う メモリが類似する出来事を思い出す

例: データベース タイムアウトの調査

現象: "/api/orders エンドポイントで 500 エラー"

HYPOTHESIS 1: Recent deployment broke something
├─ Checked: Last deployment was 3 days ago
├─ Evidence: Error rate stable until 30 minutes ago
└─ Result: INVALIDATED

HYPOTHESIS 2: Database overloaded
├─ Checked: Azure SQL metrics (CPU, DTU, connections)
├─ Evidence: DTU at 98%, query duration 4x normal
├─ Traced: SELECT * FROM orders WHERE... taking 8.2s
└─ Result: VALIDATED

ROOT CAUSE: Orders table missing index on customer_id column.
Query plan shows full table scan on 2.1M rows.

RECOMMENDED ACTION: Add index on orders.customer_id
Similar fix applied in INC-2341 (3 weeks ago)

概要

根本原因分析は、Azure の組み込みツールで自動的に機能します。 より詳細な分析を有効にするには、次の機能強化を検討してください。

強化 それが可能にするもの セットアップ
ソース管理 エラーからコードへの相関関係、セマンティック コード検索 ソース コードの接続
ナレッジベース 仮説生成のコンテキスト ナレッジをアップロードする
カスタムのテレメトリ Kusto のビジネス メトリック Kusto コネクタ

次のステップ