你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure SRE 代理概述(预览版)

站点可靠性工程(SRE)侧重于通过自动化和主动管理创建可靠、可缩放的系统。 Azure SRE 代理通过提供 AI 支持的工具来帮助维持生产云环境,将这些原则引入 Azure 托管的应用程序。 SRE 代理可帮助你快速有效地响应事件,从而缓解手动管理生产环境的工作。 代理使用大型语言模型(LLM)的推理功能来识别快速根本原因分析和问题缓解所需的日志和指标。 Azure SRE 代理可带来更好的服务运行时间并降低运营成本。

代理有权访问与代理关联的资源组中的每个资源。 因此,代理:

  • 持续评估资源活动并监视活动资源

  • 发送有关不正常或不稳定应用的主动通知

Azure SRE 代理还与 Azure Monitor 警报PagerDuty 集成,以支持高级通知解决方案。

注释

SRE 代理功能处于公共预览阶段。 若要注册等待列表,请填写 SRE 代理应用程序

通过使用 SRE 代理,你同意适用于产品的 Microsoft Azure 预览版补充使用条款

主要功能

Azure SRE 代理提供几个关键功能,可增强 Azure 资源的可靠性和性能:

  • 欢迎线程:首次创建代理时,会创建一个新线程,它提供服务的初始分析。 环境分析创建代理管理的所有资源的快照。 此外,代理会生成托管资源组中找到的应用程序列表。

  • 每日线程:每天,代理都会创建一个资源报告,用于汇总托管资源组中服务的状态和状态。

  • 工具:通过 Azure CLI 和 Kubectl 进行查询和操作支持。

  • 数据源:访问 Azure 资源管理器 API 和 Azure Monitor 指标数据源。

  • 事件管理:通过直接与代理聊天或通过将事件管理平台连接到代理来诊断事件。 使用初始分析自动响应 Azure Monitor 警报或 PagerDuty 事件。

  • 主动监视:持续全天候资源监视,并对潜在问题发出实时警报

  • 自动缓解: 自动检测和缓解常见问题,减少停机时间并提高资源运行状况。 当代理尝试代表你工作时,所有自动化都需要你的批准。

  • 基础结构最佳做法:识别不遵循安全最佳做法的资源并进行修正,同时协助完成更新。

  • 加速根本原因分析: 通过分析指标和日志并建议缓解来诊断应用问题的根本原因。

  • 资源可视化:资源依赖项和健康状况的全面视图。

    SRE 代理知识图的屏幕截图。

  • 缓解支持:SRE 代理可以修复应用程序配置和依赖服务。 对于代码问题,代理提供堆栈跟踪,并可以创建 GitHub 问题来帮助解决问题。 以下项描述了代理的服务特定功能:

    • Azure 应用服务:回滚部署、纵向扩展/缩减资源、重启应用程序。

    • Azure 容器应用:回滚部署、纵向扩展/缩减资源以及重启应用程序。

    • Azure Kubernetes 服务:重启 Pod/部署、将部署回滚到以前的修订版本、纵向扩展/缩减资源以及修补资源定义

报告

SRE 代理可用于主动监视和维护 Azure 服务。 代理每天创建每日资源报告,以便深入了解应用程序的运行状况和状态。

这些报告包括:

  • 事件摘要: 生成有关 SRE 代理在前一天引发的事件的信息。 类别包括:活动、缓解或已解决。

  • 应用程序组性能和运行状况: 每个应用程序组用于评估系统稳定性和性能的关键指标。 指标包括:可用性、CPU 使用率和内存使用情况。

  • 作摘要: 有关 Azure 资源的运行状况和维护的重要详细信息和见解的摘要。

应用场景

情景 可能的原因 代理缓解措施
应用程序故障 应用程序代码问题:应用程序代码中的 Bug 或错误可能导致崩溃或无响应。

错误部署:配置不正确或部署失败可能会导致应用程序关闭。

CPU、内存或线程使用率高的问题:由于 CPU、内存或线程使用率高而导致的资源耗尽可能会影响应用程序性能。
SRE代理可以检测这些问题并提供可操作的见解或解决方案。 例如,它可以识别与最近的槽位交换相吻合的 Web 应用可用性的下降,并建议换回槽位作为缓解措施的第一步。
容器映像拉取失败 映像可用性:请求的映像可能不可用或可能缺失。

网络连接:网络问题可能会中断到容器应用的连接。

注册表连接问题:连接到容器注册表时出现问题可能会阻止映像拉取。
SRE 代理可以检测容器映像拉取失败并提供详细的诊断。 它可以建议解决方案,例如回滚到最后一个已知的正常修订并更新映像引用。

代理可以提供有关应用和资源的不同方面的详细信息。 以下示例展示了您可以向您的代理提出的问题类型:

  • 你能帮我什么?
  • 为什么我的应用程序无法正常工作?
  • 我的资源连接到哪些服务?
  • 是否可以为我的资源提供最佳做法?
  • 应用的 CPU 和内存利用率是多少?

此外,下面是一些提示,可用于帮助你与代理交互:

  • 哪些应用已启用 Dapr?
  • 列出你正在跨所有订阅管理的容器应用的副本
  • 哪些应用已启用诊断日志记录?
  • 为每个存储帐户生成单独的热力图。
  • 哪个版本的容器应用处于当前活动状态?
  • 我的应用应遵循哪些最佳做法?
  • 容器应用的入口配置是什么?
  • 是否为此 Web 应用配置了任何过渡槽?
  • 每个容器应用都使用哪些容器映像?
  • 列出你正在跨所有订阅管理的所有资源组。
  • 为存储帐户绘制过去 14 天内存储延迟的热度地图。
  • 显示上周容器应用的响应时间的可视化效果。
  • 列出你正在跨所有订阅管理的[容器应用/Web 应用/等] 。
  • 以饼图形式直观呈现所有订阅中管理的容器应用、Web 应用程序和 AKS 群集的划分。

预览版访问权限

对 SRE 代理的访问仅处于预览阶段。 若要注册访问权限,请填写 SRE 代理应用程序