你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

有关将例程和非例程任务形式化的建议

适用于此 Azure Well-Architected 框架卓越运营清单建议:

OE:02 使用文档、清单或自动化,根据需要正式化运行例程和紧急操作任务的方式。 通过采用行业领先的做法和方法(例如左移方法),努力实现团队流程和可交付结果的一致性和可预测性。

本指南介绍有关将例程和非例程任务形式化的建议。 高效且成功的工作负载团队具有一致且可预测的工作负载管理做法。 通过采用行业验证的工具和做法,并在可行时自动执行流程来优化效率和一致性。 通过对日常任务、即兴任务和紧急任务的处理方式保持一致,可以最大程度地降低出现问题时未做好准备的风险。 通过采用持续改进的工作负载管理方法,可以提高团队在整个工作负载生命周期中的一致性和效率。

关键设计策略

一致的流程使工作质量可预测,可预测的工作质量使工作负载支持更顺畅。 若要在流程中实现一致性,需要有意且明确说明如何在标准模式中运行进程。 使用自动化和左移方法等策略来最大程度地减少潜在的不可预测性方面。

过程标准化采用多种形式。 描述可能实现标准化的方方面方面方面在本指南中不涉及,但一些常规建议包括:

  • 标准化的流程应涵盖工作负载管理的所有方面:可靠性、安全性、成本优化、性能和操作流程。 工作负载团队应拥有所需的流程所有权,以在组织的整体治理下维护和不断改进工作负荷。

  • 生成的文档会捕获标准操作过程并说明操作的完成方式,但该文档绝不是最终文档。 过程应随着工作负荷和团队的发展而发展。 定期评审和质疑标准,以确保它们现在是团队的正确标准。 文档应进行模板化和版本控制,以确保文档格式的一致性,并有评审和更新记录。 版本控制还有助于强化团队定期对文档进行评审的要求。

  • 将例行任务、即兴任务和紧急任务分解为易于理解的清单项。 例程任务的一个示例是将更新应用于开源依赖项的过程。 工作负荷可能需要使用开源库(如 SDK)来使用第三方消息服务。 应定期更新此 SDK,以便进行安全修补程序、bug 修复和功能改进。

    确定需要更新时,工作负荷团队可能有一个清单,其中包括在较低环境中测试更新、创建更改管理请求以在生产环境中部署更新以及更新文档(如 Wiki 或 知识库)以确保它们反映正确的版本等项。 将每个清单项集中在明确定义的离散任务上。

  • 临时任务和紧急任务是特定于场景的,但操作员仍应清楚地了解其角色和职责。 他们需要知道如何与工作负载团队以及组织中的其他团队交互,以便高效地完成这些类型的任务。

    例如,即兴任务可能会部署已批准用于增强工作负载功能的新类型资源,例如机器学习服务。 对于此类资源的部署和测试,可能没有完全实现的清单。 但是,应该有一般清单,用于将新资源作为代码模板和标准添加到基础结构,涵盖在升级链的每个阶段进行基础结构性能、安全性和可靠性测试。

    同样, 紧急响应计划 应明确定义角色和职责以及一般流程和过程。 在紧急情况下,必须遵循此计划,以确保有效处理这些计划。

    即兴操作和紧急操作也是学习如何改进标准操作程序的良好机会。 要求工作负荷团队反思操作可能更顺利的方式,并确定对现有流程的更新是否有利于未来。

  • 采用经过行业验证的做法,以最大程度地减少团队在发明流程和标准方面花费的时间。 遵循使用 Scrum 的敏捷做法,通过看板组织工作,并采用左移精神都是多年来开发并已证明对任何规模的组织有效的做法示例。 许多成熟的组织使用版本控制的标准操作过程、Wiki、新员工手册和操作手册来强制实施一致性。

    依靠团队的经验来确定哪些做法适合工作负载生命周期管理。 向其他团队了解他们已成功实现的标准,以了解特定做法如何适应组织结构。

    在这种情况下,左移精神意味着工作负载团队应能够寻找可提高工作负荷安全性、可靠性和成本效益的措施。 然后,他们将这些改进措施添加到自己的积压工作中,而不是将责任转移到外部团队。

    例如,探索性测试可能会发现在安全扫描公开之前可能尚未发现的安全性改进领域,这些方面每月发生一次,甚至频率较低。 鼓励工作负载团队在其生命周期的所有方面拥有工作负载的所有权,并主动为其持续改进做出贡献,而不是依赖其他团队。

  • 将组织要求和跨领域功能纳入标准操作过程。 你的组织可能有你应该采用的一些流程的标准。 但是,你可能还有权为其他流程开发自己的标准,因此请寻找将所需标准纳入流程的方法。 你拥有的流程可能会与其他团队的流程相交,因此请努力在可行范围内使标准保持一致。

    记录工作负载团队和其他团队流程的分歧位置,以确保工作负载团队在交集点时能够更好地与其他团队协作。 中心安全团队可能使用与工作负载团队不同的工具和过程,如果团队知道这些差异,则可以更轻松地进行协作。

  • 将合规性要求纳入标准操作过程。 根据你的行业和运营所在的区域,对于如何执行和记录任务可能有严格的要求。 在构建标准时,请确保理解并纳入这些要求。 根据这些要求定期培训工作负荷团队。

  • 使用自动化来帮助实现一致性。 自动执行重复且容易发生人为错误的任务,以减轻团队的管理负担。 寻找自动化流程的机会,例如生成 ITSM 票证。 有关详细信息,请参阅 实现自动化的建议

  • 有意采用开源方法。 标准化有关何时允许使用开源工具的规则,并确保符合组织和合规性要求。 你可能想要创建有关工作负载团队成员对开源项目的贡献的标准,并决定是否向组织中的其他开发团队开放内部代码。

权衡:编纂标准操作程序可能会带来停滞或自满的风险。 应遵循标准,但不应是僵化的或静态的。 努力在严格遵循和创新允许之间找到平衡点,以便流程可以随着时间推移安全发展。

Azure 简化

尽管没有 Azure 产品可以直接促进流程和过程的形式化,但 Microsoft 发布了有关本主题的大量指南。 使用本指南了解经过行业验证和建议的做法,并考虑如何将这些做法应用于工作负载。

Well-Architected 框架还提供了有关应编纂的流程和过程的详细指导,以确保工作负载和工作负荷团队根据行业标准运行。

卓越运营清单

请参阅完整的建议集。