通过


你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

卓越运营成熟度模型

卓越运营之旅是持续改进之一,每个阶段都建立在最后一个阶段之上,以推动工作负载设计、实施和支持的更高效和有效性。

其核心是简化部署、监视、测试和自动化等关键做法。 旅程以强大的基础开始:共享词汇、标准化做法和鼓励协作和稳定性的 DevOps 思维模式。 从那里,标准化为流程引入了一致性和可预测性。 随着团队越来越熟练,各个任务演变成集成的工作流,由生产就绪的功能(如自动化测试、智能监视和持续集成)提供支持。

当系统投入生产时,运营会变得更加高级。 团队能够快速可靠地管理更改,满足质量基准,并自信地实施来自产品所有者的功能请求。

最成熟的阶段是关于优化和创新。 在这里,团队大规模运营,实时调整系统,以满足不断变化的业务需求和技术转变。 但是,这不是固定目标;这是一种动态的心态,总是改进,总是适应。

该模型分为五个不同的成熟度级别,每个级别都有一个主要目标和一组核心策略。 为了获得有意义的生产力提升,请从一开始就评估 AI 可以嵌入到您的运营中的位置。 使用下面的选项卡式视图浏览每个级别。 在推进过程中,也要回顾关键的权衡和相关风险。

目标图标 通过有意嵌入 AI 驱动的工具实现作业现代化,以减少手动、容易出错的工作,并带来可衡量的价值。

端到端评估运营工作流,以确定 AI 可以在哪里提高一致性和工作效率,同时务实地平衡成本、风险和价值时间。

购买:现成的 GenAI 解决方案

现成的 GenAI 工具具有内置的 AI 功能。 它们可以按意向进行广泛分类。 一种是通用的交互式帮助工具,如 GitHub Copilot,这些工具依赖于上下文,可用于各种任务。 这些工具几乎无需任何设置,并且能够无缝集成到现有开发人员的工作流程中以提供上下文感知的帮助。 另一个类别是专用的工具和代理,例如部署代理、SRE 代理,专为特定功能而设计。 它们可以通过 IDE 和 CLI 助手实现开发人员工作效率的集成。

还有一些 Azure 服务具有集成的 AI 功能,因此可能会产生额外的成本。

生成:使用自定义实现的 GenAI

自定义 GenAI 将 AI 直接嵌入到针对特定工作负载量身定制的运营和开发工作流中。 自定义代理可以从票证、代码存储库、指标和监视系统中提取上下文,以生成反映当前作状态并在定义的边界内采取行动的见解。

更高级的实现可以根据内部标准生成和验证代码或基础结构,根据专业知识或可用性路由工作,并应用自定义 ML 模型进行专用预测。 此方法可实现更深入的自动化,并更紧密地与组织流程保持一致,但需要对工程、数据质量、治理、安全性和维护进行持续投资。

AI 功能模式

以下是在实践中使用的一些最常见且易接近的 AI 功能,但此列表并不详尽。 将此用作灵感来评估在运营中可以注入 AI 以提高工作效率的位置。

注释

采用应随着时间的推移而逐步进行:从重点用例(如摘要或内容生成)开始,然后引入能够对任务和工作流进行推理的代理接口,随着能力和信心的增强。 在更高级别的成熟度下,多代理系统跨集成系统和数据运行,以支持更复杂的作方案。

  • 摘要。 从文档、报表、日志或对话中读取和压缩信息的 AI 工具,使用用户可理解的语言和术语生成简明的摘要、要点。
  • 建议。 用于分析多个数据源、检测模式以及提供上下文感知建议以辅助操作决策的 AI 工具。
  • 工件生成。 将书面要求转换为可执行代码、基础结构定义和自动化测试的 AI 工具,同时遵循定义的标准。
  • 策略验证。 针对策略、标准和设计文档查看代码、配置和工作流的 AI 工具,以强制实施合规性。
  • 优化措施。 使用跨工件见解的 AI 工具来分配工作并针对决策采取措施。

注意

涉及代理时,安全措施不是假想的。 一个未检查的模型、一个错误的自动化或一个过度宽松的访问设置可以大规模传播错误、泄露敏感数据或破坏作完整性。

若要保护敏感数据,所有平台都必须强制实施严格的 PII 掩码和安全修整。 用户仅看到他们有权访问的输出。 这意味着 AI 输出可能不完整,但完全可见性是潜在的暴露成本。

人工审查仍然是必须的,特别是对于架构、安全和运营问题。 评审应侧重于意向、风险,并符合组织标准,而不是低级别语法。 应捕获来自评审的反馈,以持续改进提示、模板和标准。

✓ 摘要工具

摘要代理通常使用简单的Copilot风格架构,具有直接的检索和响应生成功能,因此使其相对容易实现和操作。

风险: 摘要具有固有的正确性风险,尤其是在跨多个文档进行合成时。 虽然无法完全消除错误,但可以通过可解释性和增量导航来降低作风险。 系统应清楚地指示已汇总的内容,并允许用户钻取源材料进行验证。

推理成本可能会随时间而累积。 将简单请求路由到更小、成本较低的模型,并为复杂的多文档综合保留更高级的模型,并接受此过程可能需要的额外协调。 提供简洁的初始摘要,允许用户向下钻取支持详细信息和源内容。

数据管理引入了额外的隐藏成本。 主动管理数据生命周期,以防止由过时文档或冗余版本导致的索引膨胀。 如果需要历史上下文,请通过有意的版本控制保留先前内容,而避免不受控制的重复。

直接用户反馈很有价值。 捕获摘要质量和有用性的输入,并使用它来评估模型路由决策、索引有效性以及缓存或预处理策略的影响。

例子
  • OE:01 DevOps 文化。 从非结构化文档中提取结构化元素,如作项、所有者、截止时间和风险陈述。
  • OE:08 事件响应。 汇总事件、事后调查、安全发现和审核报告,以便快速了解范围、影响和结果

推荐代理

提供建议的 AI 代理依赖于能够分析多个数据源的面向推理的模型。 这些模型必须具有足够的分析深度来支持跨源关联,而不是依赖于轻型或纯生成方法。

平衡: 虽然更广泛的范围可以增加价值,但交叉引用的来源可能会导致与原始意图不匹配或失衡;过度依赖此类 AI 生成的响应可能会放大错误,并使问题在迭代调用中更加复杂。

它们通常会增加每个请求的成本和推理延迟。 通过偏爱较少但更丰富的查询,而不是许多细粒度的查询,来最大程度地减少外部调用。 在运行时访问和关联多个外部源的成本可能很高,因此并行化数据访问,并在可行的情况下将数据预加载到共享索引中。

使用多个源会增加集成复杂性。 单个源中的错误可以通过建议管道传播。 组合输入时应用验证和安全防护措施。 需要低延迟时,并行查询源。 预处理不依赖于特定请求的步骤,例如分类、扩充和查找。 缓存中间结果和常用功能以减少重复计算。

将建议引擎视为决策支持系统,而不是黑盒。 可解释性是建立信任和操作可靠性的核心因素。 系统应为建议提供明确的理由,突出关键信号和贡献数据源。 考虑包括置信度指标(例如 0-100%),以帮助下游系统或用户衡量可靠性。

例子
  • OE:06 设计工作负荷供应链。 查找难以检测且经常被忽略在测试套件中包括的客户为中心的边缘案例和方案。
  • OE:08 事件管理。 通过让 AI 仅使用提供的文档、操作手册、运行状况模型和升级路径来模拟供应商的支持团队,以验证供应商的过渡计划。 模拟在交接前突显出间隙和隐藏依赖项。
  • OE:09 实现自动化。 评估自动化代码、遥测和事件数据,以建议应改进、停用或扩展哪些自动化。

产物生成代理

AI 代理可以帮助生成代码、基础结构定义和测试,但其输出可能成为生产工作负荷的一部分。 代码生成本质上是不确定的,并且将自然语言要求转换为可执行项目可能会产生与原始意向不同的结果。 因此,明确所有权、显式控制以及集成到现有工程实践中至关重要。 AI 在以下情境中最为有效:在问题空间可以很好地被理解且变化有限,例如对重复性或标准化的编码任务,应在其输出中应用护栏进行指导。

选择正确的模型至关重要。 使用适合代码生成和工具执行的模型,并在适当情况下将它们组合在一起。 推理模型可以帮助系统分析、规划或分解,以代码为中心的模型可以自行生成项目,其他模型可以支持测试或部署步骤。

生成应以模板、参考实现、编码准则和反映组织和行业标准的示例为基础。 明确标准有助于检测偏差并确保一致性。 通过使用模板,AI 输出更具可预测性。

如同大多数代理一样,代码生成器可能从多个源获取信息。 所有输出都应被视为不受信任,直到验证为止。 应用最低特权原则来限制工具执行权限和范围。 在未经明确、封闭的批准的情况下,代理不应部署或修改生产资源。

将生成的项目集成到标准开发人员生命周期中。 这包括拉取请求、代码评审、自动测试和安全扫描。 应用与人工创作代码相同的严格性,包括依赖项检查和基础结构即代码扫描,以确保可靠性和符合性。

权衡: 人工评审仍然是成本模型的一部分,必须纳入 ROI。 此外,工件生成增加会转移下游的吞吐量压力;必须相应地扩展测试、验证和部署流程,以避免引入新的瓶颈。 尽可能通过代码审核工具、测试、静态分析和策略检查进行自动验证,对于维护端到端流程并缩短实现价值的时间是必不可少的。

例子
  • OE:02 标准化操作。 生成符合组织标准的代码和文档项目,并随着资产的发展而使标准文档保持更新。
  • OE:07 设计监视系统。 通过跨源自动选择正确的指标,生成集成仪表板配置,使工程指标与业务成果保持一致。
  • OE:10 自动化设计。 自主监视生产环境的配置偏移、推断预期状态和更新引导定义,使系统随时间推移保持一致。

• 策略验证代理

AI 代理可以帮助根据策略和标准审查和验证资产。 他们的作用是支持决策、标记偏差并强制实施合规性,而人类则保留最终监督。

在推出之前,验证从仔细评估和测试开始。 应对标准进行版本控制,每个资产应明确引用适用的策略,确保可追溯性。 随着策略的发展,必须考虑维护开销,并相应地更新验证过程。 尽可能对评审进行批处理和并行处理,并将增量检查集中在更改上,而不是重新扫描所有资产。

成本和性能需要仔细平衡。 考虑根据存储、处理和延迟的影响做出准确预测所需的历史数据量。 数据太少会降低可靠性,而数据过多则会增加成本。

安全性仍然是一个关键因素。 对验证输出的访问应仅限于授权用户,例如安全审阅者,确保敏感信息受到保护。

度量有效性,而不是假定。 使用仪表板跟踪指标,例如检测到的问题与在生产中发现的问题、误报率和覆盖范围。 将这些见解反馈到验证逻辑、提示和操作流程中,不断优化代理的贡献。

例子

动作优化代理

行动优化代理不仅限于分析和建议,还采取直接的操作行动。 由于它们的输出可以修改系统或进程,因此这些代理需要仔细设计、监督和集成到工作流中。

风险: 安全性是一个主要问题。 代理应在“人机协作”工作流中运行,其中建议的操作在投入生产执行之前经过评审和批准。 访问工具和系统应遵循最低特权原则,将代理限制为仅执行其任务所需的权限。 详细的审核至关重要,捕获提出的操作、批准这些操作的人员及其执行日志,以便实现可追溯性。

实施保障机制,确保影响范围最小化,从而将每次更改的力度限制在有限范围内。 工具执行应是幂等的,以允许安全重试,系统应包括验证和回滚机制。 检查点、备份或其他恢复策略可以支持安全更正意外更改。

例子
  • OE:08 事件管理。 一旦警报触发,系统将自动收集上下文信息、关联数据,并进行初步检查。 工程师从明确的事件图片开始,而不是手动数据收集。
  • OE:09 实现自动化。 在人工定义的范围内,使用从监控数据分析中推断的值,持续优化低风险生产设置,例如缓存大小和超时值。
  • OE:11 安全部署做法。 通过自主确定最佳推出时机以及 Canary 部署的正确目标段和百分比,自动执行渐进式曝光部署策略。

后续步骤