你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

准备好 Azure 云运营

本文可帮助你建立和维护用于管理 Azure 云资产的有效操作。 成功的云操作需要为每个云管理领域明确定义的责任和流程。

CAF 管理过程的示意图:就绪、管理、监控和保护(RAMP)。

确定管理职责

有效地管理 Azure 环境涉及中心(平台范围)职责和工作负荷责任。 中央职责支持整个 Azure 云资产。 工作负载职责侧重于单个工作负载。 使用 表 1 确保您的操作涵盖重要的云操作责任。

表 1. 主要云管理责任

云管理区域 中心责任 工作负荷责任
合规 ▪ 定义 作过程
▪ 强制实施 治理策略
根据需要监视合规性 并修正或升级。
▪ 遵循操作程序。
▪ 使设计与治理策略保持一致。
安全 ▪ 管理组织范围内的 安全运营
▪ 在 Microsoft Entra ID 中管理标识。
▪ 授予 Azure 订阅的访问权限。
▪ 通过 Azure Policy 和 Microsoft Defender for Cloud 定义和维护安全基线。
▪ 监督威胁防护和事件响应与 Microsoft Sentinel 的集成。
▪ 实现 安全工作负载设计
▪ 响应特定于工作负荷的安全警报和事件。
▪ 持续评估工作负荷中的漏洞。
资源管理 ▪ 定义和维护 资源层次结构
▪ 按请求创建工作负载订阅。
▪ 定义 命名和标记策略
▪ 定义 网络拓扑
▪ 配置共享网络(虚拟网络对等互连、本地连接)。
▪ 管理跨工作负荷或共享资源/服务。
▪ 监视订阅 限制 并处理配额增加请求。
▪ 管理特定于工作负载的订阅(如果委派)。
▪ 管理每个工作负荷的资源组和资源。
▪ 遵循并应用命名和标记标准。
▪ 管理应用程序级资源利用率,确保资源保留在订阅配额内。
部署 ▪ 标准化和管理 CI/CD 管道和工具 (Azure DevOps、GitHub Actions)。
▪ 定义引用基础结构即代码模板(Bicep、Terraform、ARM 模板)。
▪ 提供管道安全性(代码扫描、机密管理)的中心最佳做法。
▪ 将中央 CI/CD 框架和 IaC 模板用于 工作负荷部署
▪ 实现特定于工作负荷的部署任务(配置应用设置、数据库)。
▪ 在遵循中心准则的同时,根据工作负载需求调整参考模板。
开发 ▪ 提供并强制实施标准化开发工具链和框架,以加速一致性(编码标准、DevOps 最佳做法)。
▪ 维护共享库或模块的内部存储库或包源。
▪ 采用和调整标准工具链,以便进行 工作负载开发
▪ 拥有应用程序生命周期并纳入最佳做法(单元测试、集成测试)。
▪ 管理工作负荷代码库的持续改进过程。
监测 ▪ 规划 监视策略
▪ 针对中央职责发出警报
▪ 为整个环境中的常见作指标提供仪表板。
▪ 监视 工作负荷
▪ 扩展或微调中心警报以捕获特定于工作负荷的条件。
▪ 根据警报和日志调查和修正工作负荷级事件。
成本 ▪ 分配全局或订阅级云预算
▪ 监视组织范围的 云支出 并创建成本报表。
▪ 将成本分配给业务部门或产品,通常使用标记或自定义成本分配模型。
▪ 为成本分配应用标记策略。
成本优化 工作负荷设计
▪ 尊重预算约束。
可靠性 ▪ 根据工作负荷优先级定义 可靠性要求 (SLO、RPO、RTO)。
▪ 提供有关业务连续性和灾难恢复(BCDR)的指导。
▪ 管理集中式 灾难恢复 解决方案。
▪ 支持跨所有工作负荷进行重大事件管理。
▪ 设计工作负载以满足 可靠性要求
性能 ▪ 监视和维护集中式组件(中心网络、共享服务)的性能。
▪ 提供性能优化和容量规划指南。
▪ 监控配额
▪ 设计工作负荷,提高 性能效率

建立云运营

使用 表 1 中概述的职责来构建有效的运营基础。 按照以下步骤明确定义团队、标准和流程:

  1. 定义云作模型。 根据组织的规模和成熟度选择集中式或共享管理模型,如下表所述:

    运营方法 职责和范围 最适用于 优点 缺点
    集中式 单个团队管理所有任务。 启动或小型云占用空间。 简化云管理。 造成瓶颈的风险。
    共享管理 单独的中央(平台)和工作负荷团队 具有不同工作负荷的组织。 平衡治理和敏捷性。 需要明确分配责任
  2. 建立中心责任。 组建一个专门的团队来处理中心管理任务。 从 表 1 开发技能矩阵,以确定所需的专业知识。

  3. 建立工作负荷责任。 为特定于工作负荷的任务设置专用团队。 使用 表 1 确定责任,然后相应地招聘。

    • 进行 Azure Well-Architected 评审。 使用 Well-Architected 评估工具 在开发和测试设计更改时重新评估每个工作负荷。

    • 使用 Azure Well-Architected Framework。 使用 卓越运营 支柱来指导工作负荷管理职责。

  4. 分配责任。 为所有云管理责任命名特定所有者。 在共享管理模型中,工作负荷团队应具有管理其订阅的自主权。

记录云运营

清楚地记录云运营,以实现高效的危机响应并顺利实施变更。 建立总体过程,并创建常见和特定任务的详细指南。

记录运营过程

定义用于管理自动化无法处理的更改、灾难恢复和日常维护任务的作过程。 执行以下步骤:

  1. 定义变更管理过程。 更改是云中失败的主要原因。 开发一个标准化的过程,用于管理更改,以避免云环境中的故障。 请参阅 “管理更改”。

  2. 定义部署过程(发布管理)。 为了保持一致的配置,请标准化部署、发布和环境升级。 请参阅 “管理部署”。

  3. 定义灾难恢复和业务连续性过程。 若要处理潜在故障,请准备标准化响应计划。 请参阅 “管理灾难恢复和业务连续性”。

  4. 定义其他过程。 记录管理服务请求、修补和配置管理的过程。 请清楚地记录这些流程,以确保利益干系人知道如何启动或完成每个任务。

记录运营指南

为关键运营任务创建详细的分步指南(Runbook 或 playbook)。 此准备可确保一致的执行、提高效率,并缩短关键事件期间的解决时间。

  1. 定义日常任务。 准备涵盖日常职责的手册,例如特权提升请求和日志评审。 为每个系统建立用于监控指标、警报阈值和仪表板的标准操作程序(SOP)。

  2. 创建以 Azure 为中心的运行手册库。 创建特定于 Azure 的运行手册以解决场景,例如:

    应用场景 示例:
    CPU 使用率高 在 Azure 应用服务中管理纵向扩展
    故障转移和故障回复 Azure Site Recovery 中的故障转移和故障回复
    蓝绿部署 Azure Front Door 中的蓝/绿部署
    备份还原 Azure Blob 存储Azure Cosmos DB 中进行备份还原
  3. 将这些 Runbook 存储在中央存储库中。 维护中央存储库中的 Runbook,供呼叫工程师在事件期间立即使用。

  4. 以编程方式实现作。 将基础结构即代码集成到 Runbook 中,以便每次部署通用资源一致且准确。

  5. 查看和更新。 定期查看和修订文档,以反映作调整和云服务更新。

文档工具和解决方案

清晰的文档可确保一致性、降低运营风险并提高团队效率。 创建和维护云工具的综合文档。 定期更新文档以反映当前做法,并确保所有团队成员易于访问。

面积 示例优势
整合 标准化通过合并日志和代码存储库简化了集成。
自动化 跨团队重复使用 IaC 模板、自动化脚本以及跨项目最佳做法。
事件管理 捕获问题并生成补救措施,以便集成到发布周期中去。

管理云操作

有效的云管理可优化运营效率,减少停机时间,并阐明角色和职责。 通过自动化和结构化的支持流程来标准化您的云操作。 遵循以下作准则:

  • 提供持续云支持。通过采用“跟随太阳”模式或结构化的通话轮换的全球团队建立 24/7 支持覆盖。 明确定义职责,以确保及时响应和解决关键事件。 配置自动 警报 以立即通知指定的支持人员。

  • 自动执行重复工作。 使用 Azure 自动化功能来最大程度地减少手动流程并减少运营开销。 自动执行例行活动,消除错误、简化工作流,并使团队能够专注于战略优先级。

    用例 例子
    自动化 在 Azure Boards 或 ITSM 系统中自动执行工作流。 “更改请求”和“事件”工作项的模板。
    事件响应 若要自动生成已填写标准字段的故障单,请将 Azure Monitor 和 Azure Service Health 集成至工单系统。
    变更管理 使用 Azure 逻辑应用 自动批准低风险更改或自动修正某些事件。
    合规 使用 Azure Policy 强制实施和监视云合规性。
    安全 使用 Microsoft Defender for Cloud 和 Microsoft Sentinel 自动执行安全威胁检测和响应。 使用 Microsoft Entra ID Governance 查看权限并自动执行权限管理。

改进运营

通过促进持续改进来优化 Azure 云环境。 定期评估运营,并优先考虑持续的学习和反馈。 执行以下步骤:

  1. 审查要改进的运营。遵循最佳做法来监视运行状况、合规性、安全性、成本、数据和云资源。 每周开展运营评审,讨论关键指标、近期事件、已部署的变更和预期风险。 积极解决 资源蔓延 和技术 债务问题。

  2. 为操作进行培训。 通过优先考虑必要的学习资源,促进持续的技能发展。 通过实际的培训环境确保动态云操作。 下表提供了用于运营培训的资源。

    操作训练 DESCRIPTION
    获取凭据 Microsoft 资历 设定目标,例如应用技能和 Microsoft 认证,以构建专业知识。
    使用运营资源 请参阅 Azure 管理资源
    使用产品文档 使用 Microsoft Learn 查找 有关 Azure 服务的指南。
    进行动手实践 鼓励非生产沙盒环境中的动手实践。

Azure 管理资源

类别 管理资源 DESCRIPTION
合规 CAF 治理 Microsoft的云治理框架
安全 管理安全操作 管理安全运营的指南
安全 Microsoft安全工具 Microsoft和 Azure 安全工具的列表
安全 工作负荷安全性 安全工作负载指南
资源管理 命名和标记策略 用于管理资源的命名和标记建议
资源管理 Azure 缩写 Azure 资源的缩写列表
资源管理 Azure 顾问 符合 Azure 最佳实践的数字助理。
资源管理 Azure 命名规则 所有 Azure 资源的命名规则
资源管理 Azure 服务指南 服务配置决策指南
开发 工作负载软件开发 软件开发工作负载指南
开发 Azure 体系结构中心 不同用例的体系结构和指南
开发 开发人员资源中心 开发人员工具和资源的中心
部署 Bicep、Terraform 和 ARM 模板 每个 Azure 资源的 IaC 模板
部署 Azure 区域对 Azure 配对区域列表
部署 Azure 云服务目录 所有 Azure 服务的目录
部署 工作负荷部署 持续集成的工作负荷指南
监测 监视 Azure 云资产 全面的 Azure 监视指南
监测 工作负荷监视 工作负载监视指南
成本 管理成本 成本管理指南
成本 工作负荷成本优化 成本优化工作负荷指南
可靠性 管理数据可靠性 维护数据可靠性的指导
可靠性 管理云资源可靠性 维护资源可靠性的指导
可靠性 管理安全事件 响应安全事件的建议
性能 工作负荷性能效率 工作负载性能效率指南

后续步骤