你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure SRE 代理预览版中的事件响应计划

使用 Azure SRE 代理事件响应计划,可以定义如何在环境中检测、查看和缓解事件。 定义自定义计划时,可以定制代理对事件的响应、设置自治级别,并提供代理如何解决问题的自定义说明。 您可以根据您的需求在半自治和完全自治操作之间进行选择。

在事件响应计划中,可以通过以下方式自定义计划:

  • 通过筛选器可确定计划针对哪些事件运行。

  • 执行模式 描述事件响应计划的自治级别。

  • 通过自定义说明 ,可以自定义代理最初生成的响应计划。

事件响应计划的工作原理

当 Azure SRE 代理检测到环境中的事件时,事件管理工具会介入,帮助你尽快解决问题。 代理可以向团队提供上下文并上报事件以手动解决,或者代理可以代表你解决问题。 代理的行为完全取决于配置事件响应计划的方式。

默认设置

启用事件管理时,默认情况下,所有事件都使用以下计划详细信息进行处理:

  • 已连接到 Azure Monitor 警报
  • 处理所有受影响服务的所有低优先级事件
  • 在审阅模式下运行

虽然此配置表示默认值,但你可以自定义从事件管理系统到筛选器和自治级别的一切。 支持的事件管理平台包括 PagerDuty 和 ServiceNow。

注释

Azure Monitor 作为 Azure SRE 代理的事件管理系统目前处于试验阶段,目前尚未完全正常运行。

自定义响应计划

可以通过选择管理服务、应用筛选器、设置自治级别以及自定义用于处理事件的提示上下文来创建自定义说明。

筛选事件

以下筛选器可用于自定义事件计划说明。

过滤器 Description
事件类型 选择要让您的计划处理的事件类型。 选项包括默认事件、主要事件和安全事件。
受影响的服务 选择您希望计划处理的服务。 选项包括所有受影响的服务,也可以按名称选择服务。
Priority 选择要处理计划的事件优先级。
标题包含 提供与事件标题值匹配的文本字符串。

设置自治级别

在事件响应计划中,可以选择代理的自治级别。

自治级别 Description 默认值
Review 在此半自治模式下,代理首先诊断事件,之后只有在您查看和批准建议的操作后才会缓解或修改资源。 是的
自治 在此完全自治模式下,代理会分析事件,并独立执行缓解或资源修改。

注意:如果代理没有执行操作所需的权限,会提示你授予临时的提升访问权限。

定义自定义说明

若要自定义事件响应计划,SRE 代理将查看一系列以前的事件,以检查这些事件在过去是如何解决的。 代理基于历史事件创建配置文件后,会生成代理用于响应事件的更详细上下文。

可以自定义生成的指令,或将其替换为自己的说明。 根据响应计划的内容,代理会生成它在事件响应期间要使用的工具列表。 可以根据计划添加或删除代理可用的工具。 更改自定义说明时,可以重新生成工具列表以使其保持同步。

测试响应计划

为了确保您的事件响应计划按照您的预期运作,您可以针对历史问题测试该计划。 在测试模式下,计划针对现有事件运行,以便查看代理如何尝试缓解该问题。

当处于测试状态时,代理始终以只读模式运行。

可以测试新的和现有的事件响应计划。

创建新的事件响应计划时,请使用以下说明测试事件响应计划。

  1. 选中“ 添加自定义说明 ”复选框。

  2. “自定义说明 ”框中输入自定义说明。

  3. 然后选择“生成”

  4. 查看代理生成的计划。

  5. 选择“ 测试事件响应 ”选项卡。

  6. 从事件下拉列表中,选择要测试计划的事件。

  7. 选择“运行测试”。