通过


你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

教程:在 Azure SRE 代理中运行深入调查

深入调查为代理提供了一种结构化的方法论来解决复杂问题。 代理形成了多个假设,并用证据验证每个假设。 在本教程中,你将触发来自聊天的深入调查并浏览结果。

本教程中,您将学习如何:

  • 从聊天界面触发深入调查
  • 批准授权提示
  • 阅读交互式假设树
  • 在响应计划中配置自动深入调查

先决条件

  • 处于 “正在运行” 状态的 Azure SRE 代理
  • 至少一个连接的数据源(Azure Monitor、Application Insights 或自定义连接器)
  • 与代理聊天的权限

从聊天开始深入调查

如果要使用结构化推理调查特定问题,请使用此模式。 此模式适用于有关环境的实时问题、性能问题或复杂问题。

启用深入调查

在您的代理聊天窗口中,选择聊天输入区域左下角的+按钮。 此操作将打开配置菜单。

显示深度调查作为第一个菜单项的加号菜单下拉列表。

从菜单中选择 “深入调查 ”。

如果首次启用深入调查,将显示一个确认对话框,说明深入调查查询多个数据源,并花费几分钟时间。 选择“是”继续。

确认对话框询问是否要继续深入调查,并显示一个复选框,用于消除将来的警告。

小窍门

如果计划定期使用深入调查,请勾选 不再显示此消息。 可以通过选择深度调查徽章上的 X 将其关闭。

确认深入调查已启动

确认后,将显示两个指示器:

  • 聊天顶部的状态消息为:“已开启深入调查”,带有一个闪烁的图标。
  • 聊天页脚中亮晶晶徽章+按钮旁边,附带一个X用于关闭。

聊天显示深度调查已开启的状态消息和页脚中的闪光徽章。

提问

键入一个可以通过结构化调查获得收益的问题。 合适的候选项包括:

Investigate why the java-app container app has high memory usage.
Check logs, metrics, and recent deployments to identify the root cause.
Why are API response times for the payment service degraded since yesterday?

Our AKS cluster nodes keep scaling up. Investigate what's driving the resource pressure.

Correlate the recent deployment with the spike in 500 errors on the orders endpoint.

选择“ 发送 ”(或按 Enter)。

批准授权

对于聊天触发的调查,您的代理会在继续之前请求授权。 聊天中会显示一张 授权卡 ,其中包含两个选项:

显示调查卡、审批消息和“继续”和“取消”按钮的授权提示。

  • 继续:批准调查,并授予你的代理提升后的权限以查询 Azure 资源。
  • 取消:拒绝调查。 代理回退到标准响应。

注释

如果在 10 分钟内未响应,调查将自动取消,代理会继续执行标准调查。

选择 “继续 ”进行审批。 卡片会更新,并显示绿色的已批准对勾标记。

观看调查进度

调查详情面板在聊天的右侧打开,显示您的代理工作过程的实时可视化。

正在进行的调查显示“已批准状态”、“事件研究阶段”和“调查步骤”。

调查遵循四个阶段:

第 1 阶段,事件研究: 代理选择调查工具并收集上下文。 摘要卡显示收集的数据和完成的调查步骤。

事件研究阶段显示调查结果摘要和四个已完成的调查步骤。

第 2 阶段,形成假设: 根据收集的上下文,代理生成两到四个关于潜在根本原因的假设。 每个假设卡显示标题和简短说明。

三种假设出现在树中,每个假设都有一个蓝色的验证状态药丸。

第 3 阶段,验证假设: 你的代理并行测试每个假设(最多一次三个)。 验证完成后,状态药片会更新:

地位 颜色 含义
验证中 蓝色 当前正在测试
Validated Green 证据支持此假设
失效 红色 证据排除了这一点
无结论 Yellow 没有足够的证据来确认或排除

浅层验证的假设可以生成 子假设 (最多三个级别深度),从而创建调查路径的分支树。

阶段 4,结论: 你的代理将发现合成为结构化结论。 树底部的结论节点总结了根本原因,并提供了支持证据和推荐的行动方案。

小窍门

选择假设树中的任何节点以打开 详细信息面板。 此面板显示该阶段的完整调查摘要、验证步骤、收集的证据和推理。

关闭深入调查

深度调查模式将在之后的消息中保持活动状态。 若要将其关闭,请将其关闭:

  • 选择 闪烁徽章 上靠近 + 按钮的 X。
  • 或者,选择 + 并取消选择 深入调查

状态消息确认:“深入调查已关闭”。

在事件响应计划中配置深入调查

对于需要自动进行彻底分析的事件(例如生产中断或严重严重性警报),请在响应计划中配置深入调查。

转到门户侧边栏中的 Builder>事件响应计划

创建或编辑响应计划

创建新的响应计划或编辑现有响应计划。 在处理程序配置中:

  1. 优先级 设置为所需的严重性级别(例如 P1、P2)。
  2. 在调查设置中启用 深度调查 切换。

保存响应计划

保存计划。 当事件与响应计划条件匹配时,代理会自动启动深入调查,无需批准。

注释

事件触发的深入调查使用代理的 托管标识 权限,而不是你的个人标识。 确保您的代理的托管标识具备对需要调查的资源的必要角色(读取者或监控读取者)。 有关详细信息,请参阅权限

替代方法:定义为代码

对于管理多个代理的团队,请将响应计划定义为 YAML:

api_version: azuresre.ai/v2
kind: IncidentFilter
metadata:
  name: production-critical-handler
spec:
  incidentPlatform: PagerDuty
  isEnabled: true
  handlingAgent: production-agent
  priorities:
    - P1
    - P2
  agentMode: Autonomous
  maxAutomatedInvestigationAttempts: 5
  deepInvestigationEnabled: true

取消深入调查

如果不再需要调查,可以随时取消调查。

方法 何时使用 方式
“停止”按钮 调查正在进行中 选择聊天页脚中的蓝色 “停止 ”按钮。
取消授权 代理正在等待审批 在授权卡上选择 “取消 ”。
让它超时 你忘记了回复 10 分钟后,授权将自动过期。

部分结果总是被保留 在聊天中选择调查卡以查看取消前完成的任何事项。

验证

深入调查完成后,确认以下条件:

  • 聊天中的调查卡显示一个绿色复选标记,状态为 “完成”。
  • 假设树显示至少一个 已验证 的或 不确定 的假设。
  • “结论”节点出现在树底部,并附带建议的行动。
  • 选择任何假设节点将打开包含证据和验证步骤的详细信息面板。

后续步骤