你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文可帮助你建立和维护用于管理 Azure 云资产的有效操作。 成功的云操作需要为每个云管理领域明确定义的责任和流程。
确定管理职责
有效地管理 Azure 环境涉及中心(平台范围)职责和工作负荷责任。 中央职责支持整个 Azure 云资产。 工作负载职责侧重于单个工作负载。 使用 表 1 确保您的操作涵盖重要的云操作责任。
表 1. 主要云管理责任
云管理区域 | 中心责任 | 工作负荷责任 |
---|---|---|
合规 | ▪ 定义 作过程。 ▪ 强制实施 治理策略。 ▪ 根据需要监视合规性 并修正或升级。 |
▪ 遵循操作程序。 ▪ 使设计与治理策略保持一致。 |
安全 | ▪ 管理组织范围内的 安全运营。 ▪ 在 Microsoft Entra ID 中管理标识。 ▪ 授予 对 Azure 订阅的访问权限。 ▪ 通过 Azure Policy 和 Microsoft Defender for Cloud 定义和维护安全基线。 ▪ 监督威胁防护和事件响应与 Microsoft Sentinel 的集成。 |
▪ 实现 安全工作负载设计。 ▪ 响应特定于工作负荷的安全警报和事件。 ▪ 持续评估工作负荷中的漏洞。 |
资源管理 | ▪ 定义和维护 资源层次结构。 ▪ 按请求创建工作负载订阅。 ▪ 定义 命名和标记策略。 ▪ 定义 网络拓扑。 ▪ 配置共享网络(虚拟网络对等互连、本地连接)。 ▪ 管理跨工作负荷或共享资源/服务。 ▪ 监视订阅 限制 并处理配额增加请求。 |
▪ 管理特定于工作负载的订阅(如果委派)。 ▪ 管理每个工作负荷的资源组和资源。 ▪ 遵循并应用命名和标记标准。 ▪ 管理应用程序级资源利用率,确保资源保留在订阅配额内。 |
部署 | ▪ 标准化和管理 CI/CD 管道和工具 (Azure DevOps、GitHub Actions)。 ▪ 定义引用基础结构即代码模板(Bicep、Terraform、ARM 模板)。 ▪ 提供管道安全性(代码扫描、机密管理)的中心最佳做法。 |
▪ 将中央 CI/CD 框架和 IaC 模板用于 工作负荷部署。 ▪ 实现特定于工作负荷的部署任务(配置应用设置、数据库)。 ▪ 在遵循中心准则的同时,根据工作负载需求调整参考模板。 |
开发 | ▪ 提供并强制实施标准化开发工具链和框架,以加速一致性(编码标准、DevOps 最佳做法)。 ▪ 维护共享库或模块的内部存储库或包源。 |
▪ 采用和调整标准工具链,以便进行 工作负载开发。 ▪ 拥有应用程序生命周期并纳入最佳做法(单元测试、集成测试)。 ▪ 管理工作负荷代码库的持续改进过程。 |
监测 | ▪ 规划 监视策略。 ▪ 针对中央职责发出警报。 ▪ 为整个环境中的常见作指标提供仪表板。 |
▪ 监视 工作负荷 ▪ 扩展或微调中心警报以捕获特定于工作负荷的条件。 ▪ 根据警报和日志调查和修正工作负荷级事件。 |
成本 | ▪ 分配全局或订阅级云预算 ▪ 监视组织范围的 云支出 并创建成本报表。 ▪ 将成本分配给业务部门或产品,通常使用标记或自定义成本分配模型。 ▪ 为成本分配应用标记策略。 |
▪ 成本优化 工作负荷设计 ▪ 尊重预算约束。 |
可靠性 | ▪ 根据工作负荷优先级定义 可靠性要求 (SLO、RPO、RTO)。 ▪ 提供有关业务连续性和灾难恢复(BCDR)的指导。 ▪ 管理集中式 灾难恢复 解决方案。 ▪ 支持跨所有工作负荷进行重大事件管理。 |
▪ 设计工作负载以满足 可靠性要求。 |
性能 | ▪ 监视和维护集中式组件(中心网络、共享服务)的性能。 ▪ 提供性能优化和容量规划指南。 ▪ 监控配额 |
▪ 设计工作负荷,提高 性能效率。 |
建立云运营
使用 表 1 中概述的职责来构建有效的运营基础。 按照以下步骤明确定义团队、标准和流程:
定义云作模型。 根据组织的规模和成熟度选择集中式或共享管理模型,如下表所述:
运营方法 职责和范围 最适用于 优点 缺点 集中式 单个团队管理所有任务。 启动或小型云占用空间。 简化云管理。 造成瓶颈的风险。 共享管理 单独的中央(平台)和工作负荷团队 具有不同工作负荷的组织。 平衡治理和敏捷性。 需要明确分配责任 建立中心责任。 组建一个专门的团队来处理中心管理任务。 从 表 1 开发技能矩阵,以确定所需的专业知识。
建立工作负荷责任。 为特定于工作负荷的任务设置专用团队。 使用 表 1 确定责任,然后相应地招聘。
进行 Azure Well-Architected 评审。 使用 Well-Architected 评估工具 在开发和测试设计更改时重新评估每个工作负荷。
使用 Azure Well-Architected Framework。 使用 卓越运营 支柱来指导工作负荷管理职责。
分配责任。 为所有云管理责任命名特定所有者。 在共享管理模型中,工作负荷团队应具有管理其订阅的自主权。
记录云运营
清楚地记录云运营,以实现高效的危机响应并顺利实施变更。 建立总体过程,并创建常见和特定任务的详细指南。
记录运营过程
定义用于管理自动化无法处理的更改、灾难恢复和日常维护任务的作过程。 执行以下步骤:
定义变更管理过程。 更改是云中失败的主要原因。 开发一个标准化的过程,用于管理更改,以避免云环境中的故障。 请参阅 “管理更改”。
定义部署过程(发布管理)。 为了保持一致的配置,请标准化部署、发布和环境升级。 请参阅 “管理部署”。
定义灾难恢复和业务连续性过程。 若要处理潜在故障,请准备标准化响应计划。 请参阅 “管理灾难恢复和业务连续性”。
定义其他过程。 记录管理服务请求、修补和配置管理的过程。 请清楚地记录这些流程,以确保利益干系人知道如何启动或完成每个任务。
记录运营指南
为关键运营任务创建详细的分步指南(Runbook 或 playbook)。 此准备可确保一致的执行、提高效率,并缩短关键事件期间的解决时间。
定义日常任务。 准备涵盖日常职责的手册,例如特权提升请求和日志评审。 为每个系统建立用于监控指标、警报阈值和仪表板的标准操作程序(SOP)。
创建以 Azure 为中心的运行手册库。 创建特定于 Azure 的运行手册以解决场景,例如:
应用场景 示例: CPU 使用率高 在 Azure 应用服务中管理纵向扩展 故障转移和故障回复 Azure Site Recovery 中的故障转移和故障回复 蓝绿部署 Azure Front Door 中的蓝/绿部署 备份还原 在 Azure Blob 存储 和 Azure Cosmos DB 中进行备份还原 将这些 Runbook 存储在中央存储库中。 维护中央存储库中的 Runbook,供呼叫工程师在事件期间立即使用。
以编程方式实现作。 将基础结构即代码集成到 Runbook 中,以便每次部署通用资源一致且准确。
查看和更新。 定期查看和修订文档,以反映作调整和云服务更新。
文档工具和解决方案
清晰的文档可确保一致性、降低运营风险并提高团队效率。 创建和维护云工具的综合文档。 定期更新文档以反映当前做法,并确保所有团队成员易于访问。
面积 | 示例优势 |
---|---|
整合 | 标准化通过合并日志和代码存储库简化了集成。 |
自动化 | 跨团队重复使用 IaC 模板、自动化脚本以及跨项目最佳做法。 |
事件管理 | 捕获问题并生成补救措施,以便集成到发布周期中去。 |
管理云操作
有效的云管理可优化运营效率,减少停机时间,并阐明角色和职责。 通过自动化和结构化的支持流程来标准化您的云操作。 遵循以下作准则:
提供持续云支持。通过采用“跟随太阳”模式或结构化的通话轮换的全球团队建立 24/7 支持覆盖。 明确定义职责,以确保及时响应和解决关键事件。 配置自动 警报 以立即通知指定的支持人员。
自动执行重复工作。 使用 Azure 自动化功能来最大程度地减少手动流程并减少运营开销。 自动执行例行活动,消除错误、简化工作流,并使团队能够专注于战略优先级。
用例 例子 自动化 在 Azure Boards 或 ITSM 系统中自动执行工作流。 “更改请求”和“事件”工作项的模板。 事件响应 若要自动生成已填写标准字段的故障单,请将 Azure Monitor 和 Azure Service Health 集成至工单系统。 变更管理 使用 Azure 逻辑应用 自动批准低风险更改或自动修正某些事件。 合规 使用 Azure Policy 强制实施和监视云合规性。 安全 使用 Microsoft Defender for Cloud 和 Microsoft Sentinel 自动执行安全威胁检测和响应。 使用 Microsoft Entra ID Governance 查看权限并自动执行权限管理。
改进运营
通过促进持续改进来优化 Azure 云环境。 定期评估运营,并优先考虑持续的学习和反馈。 执行以下步骤:
审查要改进的运营。遵循最佳做法来监视运行状况、合规性、安全性、成本、数据和云资源。 每周开展运营评审,讨论关键指标、近期事件、已部署的变更和预期风险。 积极解决 资源蔓延 和技术 债务问题。
为操作进行培训。 通过优先考虑必要的学习资源,促进持续的技能发展。 通过实际的培训环境确保动态云操作。 下表提供了用于运营培训的资源。
操作训练 DESCRIPTION 获取凭据 为 Microsoft 资历 设定目标,例如应用技能和 Microsoft 认证,以构建专业知识。 使用运营资源 请参阅 Azure 管理资源。 使用产品文档 使用 Microsoft Learn 查找 有关 Azure 服务的指南。 进行动手实践 鼓励非生产沙盒环境中的动手实践。
Azure 管理资源
类别 | 管理资源 | DESCRIPTION |
---|---|---|
合规 | CAF 治理 | Microsoft的云治理框架 |
安全 | 管理安全操作 | 管理安全运营的指南 |
安全 | Microsoft安全工具 | Microsoft和 Azure 安全工具的列表 |
安全 | 工作负荷安全性 | 安全工作负载指南 |
资源管理 | 命名和标记策略 | 用于管理资源的命名和标记建议 |
资源管理 | Azure 缩写 | Azure 资源的缩写列表 |
资源管理 | Azure 顾问 | 符合 Azure 最佳实践的数字助理。 |
资源管理 | Azure 命名规则 | 所有 Azure 资源的命名规则 |
资源管理 | Azure 服务指南 | 服务配置决策指南 |
开发 | 工作负载软件开发 | 软件开发工作负载指南 |
开发 | Azure 体系结构中心 | 不同用例的体系结构和指南 |
开发 | 开发人员资源中心 | 开发人员工具和资源的中心 |
部署 | Bicep、Terraform 和 ARM 模板 | 每个 Azure 资源的 IaC 模板 |
部署 | Azure 区域对 | Azure 配对区域列表 |
部署 | Azure 云服务目录 | 所有 Azure 服务的目录 |
部署 | 工作负荷部署 | 持续集成的工作负荷指南 |
监测 | 监视 Azure 云资产 | 全面的 Azure 监视指南 |
监测 | 工作负荷监视 | 工作负载监视指南 |
成本 | 管理成本 | 成本管理指南 |
成本 | 工作负荷成本优化 | 成本优化工作负荷指南 |
可靠性 | 管理数据可靠性 | 维护数据可靠性的指导 |
可靠性 | 管理云资源可靠性 | 维护资源可靠性的指导 |
可靠性 | 管理安全事件 | 响应安全事件的建议 |
性能 | 工作负荷性能效率 | 工作负载性能效率指南 |