你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
站点可靠性工程(SRE)侧重于通过自动化和主动管理创建可靠、可缩放的系统。 Azure SRE 代理通过提供 AI 支持的工具来帮助维持生产云环境,将这些原则引入 Azure 托管的应用程序。 SRE 代理可帮助你快速有效地响应事件,从而缓解手动管理生产环境的工作。 代理使用大型语言模型(LLM)的推理功能来识别快速根本原因分析和问题缓解所需的日志和指标。 Azure SRE 代理可带来更好的服务运行时间并降低运营成本。
代理有权访问与代理关联的资源组中的每个资源。 因此,代理:
持续评估资源活动并监视活动资源
发送有关不正常或不稳定应用的主动通知
Azure SRE 代理还与 Azure Monitor 警报 和 PagerDuty 集成,以支持高级通知解决方案。
注释
SRE 代理功能处于公共预览阶段。 若要注册等待列表,请填写 SRE 代理应用程序。
通过使用 SRE 代理,你同意适用于产品的 Microsoft Azure 预览版补充使用条款。
主要功能
Azure SRE 代理提供几个关键功能,可增强 Azure 资源的可靠性和性能:
欢迎线程:首次创建代理时,会创建一个新线程,它提供服务的初始分析。 环境分析创建代理管理的所有资源的快照。 此外,代理会生成托管资源组中找到的应用程序列表。
每日线程:每天,代理都会创建一个资源报告,用于汇总托管资源组中服务的状态和状态。
工具:通过 Azure CLI 和 Kubectl 进行查询和操作支持。
数据源:访问 Azure 资源管理器 API 和 Azure Monitor 指标数据源。
事件管理:通过直接与代理聊天或通过将事件管理平台连接到代理来诊断事件。 使用初始分析自动响应 Azure Monitor 警报或 PagerDuty 事件。
主动监视:持续全天候资源监视,并对潜在问题发出实时警报。
自动缓解: 自动检测和缓解常见问题,减少停机时间并提高资源运行状况。 当代理尝试代表你工作时,所有自动化都需要你的批准。
基础结构最佳做法:识别不遵循安全最佳做法的资源并进行修正,同时协助完成更新。
加速根本原因分析: 通过分析指标和日志并建议缓解来诊断应用问题的根本原因。
资源可视化:资源依赖项和健康状况的全面视图。
缓解支持:SRE 代理可以修复应用程序配置和依赖服务。 对于代码问题,代理提供堆栈跟踪,并可以创建 GitHub 问题来帮助解决问题。 以下项描述了代理的服务特定功能:
Azure 应用服务:回滚部署、纵向扩展/缩减资源、重启应用程序。
Azure 容器应用:回滚部署、纵向扩展/缩减资源以及重启应用程序。
Azure Kubernetes 服务:重启 Pod/部署、将部署回滚到以前的修订版本、纵向扩展/缩减资源以及修补资源定义。
报告
SRE 代理可用于主动监视和维护 Azure 服务。 代理每天创建每日资源报告,以便深入了解应用程序的运行状况和状态。
这些报告包括:
事件摘要: 生成有关 SRE 代理在前一天引发的事件的信息。 类别包括:活动、缓解或已解决。
应用程序组性能和运行状况: 每个应用程序组用于评估系统稳定性和性能的关键指标。 指标包括:可用性、CPU 使用率和内存使用情况。
作摘要: 有关 Azure 资源的运行状况和维护的重要详细信息和见解的摘要。
应用场景
情景 | 可能的原因 | 代理缓解措施 |
---|---|---|
应用程序故障 | ▪ 应用程序代码问题:应用程序代码中的 Bug 或错误可能导致崩溃或无响应。 ▪ 错误部署:配置不正确或部署失败可能会导致应用程序关闭。 ▪ CPU、内存或线程使用率高的问题:由于 CPU、内存或线程使用率高而导致的资源耗尽可能会影响应用程序性能。 |
SRE代理可以检测这些问题并提供可操作的见解或解决方案。 例如,它可以识别与最近的槽位交换相吻合的 Web 应用可用性的下降,并建议换回槽位作为缓解措施的第一步。 |
容器映像拉取失败 | ▪ 映像可用性:请求的映像可能不可用或可能缺失。 ▪ 网络连接:网络问题可能会中断到容器应用的连接。 ▪ 注册表连接问题:连接到容器注册表时出现问题可能会阻止映像拉取。 |
SRE 代理可以检测容器映像拉取失败并提供详细的诊断。 它可以建议解决方案,例如回滚到最后一个已知的正常修订并更新映像引用。 |
代理可以提供有关应用和资源的不同方面的详细信息。 以下示例展示了您可以向您的代理提出的问题类型:
- 你能帮我什么?
- 为什么我的应用程序无法正常工作?
- 我的资源连接到哪些服务?
- 是否可以为我的资源提供最佳做法?
- 应用的 CPU 和内存利用率是多少?
此外,下面是一些提示,可用于帮助你与代理交互:
- 哪些应用已启用 Dapr?
- 列出你正在跨所有订阅管理的容器应用的副本
- 哪些应用已启用诊断日志记录?
- 为每个存储帐户生成单独的热力图。
- 哪个版本的容器应用处于当前活动状态?
- 我的应用应遵循哪些最佳做法?
- 容器应用的入口配置是什么?
- 是否为此 Web 应用配置了任何过渡槽?
- 每个容器应用都使用哪些容器映像?
- 列出你正在跨所有订阅管理的所有资源组。
- 为存储帐户绘制过去 14 天内存储延迟的热度地图。
- 显示上周容器应用的响应时间的可视化效果。
- 列出你正在跨所有订阅管理的[容器应用/Web 应用/等] 。
- 以饼图形式直观呈现所有订阅中管理的容器应用、Web 应用程序和 AKS 群集的划分。
预览版访问权限
对 SRE 代理的访问仅处于预览阶段。 若要注册访问权限,请填写 SRE 代理应用程序。