ヒント
- ランダムなログ検索ではなく、仮説主導の調査を使用します。
- これが原因である 理由 を示す完全な証拠チェーンを提供します。
- 同様の過去のインシデントとその修正を思い出してください。
問題: ログ検索は調査ではない
ほとんどのデバッグは、"エラーを表示する" から始まります。ログのクエリ、結果のスクロール、タイムスタンプのコピー、ツールの切り替え、別のクエリの実行を行います。 調査していません。 データを手動で関連付け、頭の中で推論を保持している。
実際の問題は、ログが見つからないという問題です。 どの質問をするべきか、どのツールを確認すべきかを知り、ログ、メトリクス、デプロイメント、過去のインシデント間の関連性を理解して結びつけることです。 そのメンタル モデルは、上級エンジニアの頭の中に存在し、すべての呼び出しに参加することはできません。 新しいチーム メンバーは、退役軍人が解決する問題に数分で時間を費やします。理由はどこにも文書化されていないためです。
Azure SRE エージェントがこの問題を解決する方法
エージェントはエキスパート SRE のように調査します。 ログを検索するだけではありません。 これは、何が間違っていたかについての仮説を形成し、証拠を使用して各問題を体系的に検証します。
- コンテキストを収集します。Application Insights、Azure Monitor、デプロイ履歴、アクティビティ ログ、リソース プロパティに対してクエリを実行します。
- 仮説を形成する: 証拠パターンに基づいて理論を生成します。
- それぞれを検証します。仮説を体系的にテストし、誤ったリードを除外します。
- 結論について説明します:証拠と引用を支持する完全な推論の道を示します。
これは何が違うのか
ログ検索とは異なり、エージェントは問題に関する理由を説明します。 "エラーを表示" では、解釈するデータが提供されます。 エージェントは、理論を形成し、テストし、結論を説明することで、データを解釈します。
静的ダッシュボードとは異なり、エージェントは特定のインシデントに適応します。 メトリックが表示されるだけではありません。 どのメトリックが重要かを決定し、それらを他の証拠と関連付け、その理由を示します。
スクリプトとは異なり、エージェントは新しい状況を処理します。 スクリプトは毎回同じ手順を実行します。 エージェントは、今回の違いについて理由を考え、それに応じて調査を調整します。
| 能力 | それが貢献するもの |
|---|---|
| メモリ | この同じ問題が3週間前に発生しました。 修正は X でした。 |
| ナレッジ ベース | 貴社のランブックとアーキテクチャ ドキュメントは仮説形成の指針となります。 |
| ソースコード | エラーをソース コードと関連付け、関連する変更を見つける |
| サブエージェント | サービス固有のスペシャリスト (Application Insights、AKS、Container Apps など) に委任する |
前後
| カテゴリ | の前に |
後の |
|---|---|---|
| 調査アプローチ | ログを検索します。何かが見つかるといいですね | エージェントはフォームを作成し、仮説をテストする |
| 開かれたツール | 4 つ以上のポータル、手動相関 | 0 (エージェントはすべてのソースに対してクエリを実行) |
| Reasoning | "私はそれがデータベースだと思います..." | "98%のデータベース DTU、検証済み" |
| 証拠証跡 | 頭の中で | 説明付きの完全なチェーン |
| 次回 | 最初から行う | メモリが類似する出来事を思い出す |
例: データベース タイムアウトの調査
現象: "/api/orders エンドポイントで 500 エラー"
HYPOTHESIS 1: Recent deployment broke something
├─ Checked: Last deployment was 3 days ago
├─ Evidence: Error rate stable until 30 minutes ago
└─ Result: INVALIDATED
HYPOTHESIS 2: Database overloaded
├─ Checked: Azure SQL metrics (CPU, DTU, connections)
├─ Evidence: DTU at 98%, query duration 4x normal
├─ Traced: SELECT * FROM orders WHERE... taking 8.2s
└─ Result: VALIDATED
ROOT CAUSE: Orders table missing index on customer_id column.
Query plan shows full table scan on 2.1M rows.
RECOMMENDED ACTION: Add index on orders.customer_id
Similar fix applied in INC-2341 (3 weeks ago)
概要
根本原因分析は、Azure の組み込みツールで自動的に機能します。 より詳細な分析を有効にするには、次の機能強化を検討してください。
| 強化 | それが可能にするもの | セットアップ |
|---|---|---|
| ソース管理 | エラーからコードへの相関関係、セマンティック コード検索 | ソース コードの接続 |
| ナレッジベース | 仮説生成のコンテキスト | ナレッジをアップロードする |
| カスタムのテレメトリ | Kusto のビジネス メトリック | Kusto コネクタ |