你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure VMware 解决方案工作负荷的操作注意事项

本文讨论Azure VMware 解决方案的操作设计区域。 本文的目的是为 VMware 软件定义的数据中心(SDDC)中的Azure VMware 解决方案和应用程序构建操作模型。 标准操作过程(SOP)是用于管理工作负荷的记录过程。 每个Azure VMware 解决方案工作负荷都应具有 SOP 来管理操作。 为了保持与业务目标保持一致,并帮助防止偏离最佳做法,请在在Azure VMware 解决方案工作负荷上运行的持续评估和运行状况检查周期中使用 SOP。

跟踪应用程序依赖项

影响:卓越运营

IT 团队不断寻求优化应用程序、站点和服务的部署、管理和维护。 这种做法有助于确保高性能、可靠性、可伸缩性和安全性。 优化涉及了解应用程序如何在 Azure VMware 解决方案 平台内流动。 它还涉及检查私有云外部的外部依赖项和关系。 依赖项映射是开发人员、应用程序架构师和 IT 团队寻求了解应用程序结构和行为的宝贵工具。 深入了解应用程序组件(如软件和基础结构、服务和外部依赖项)可提供一种直观的方式来了解数据流、功能和 API 调用。

建议
  • 使用 Application Insights 跟踪数据库、API 调用和外部服务等依赖项。
  • 使用 Azure Monitor 的服务映射功能自动发现和可视化不同的应用程序和基础结构组件。
  • 使用第三方工具(如 New Relic 和 Datadog)来发现和映射依赖项。
  • 使用自定义脚本或第三方配置管理工具来跟踪依赖项的自动化和部署。

使用自动化、版本控制系统和蓝绿部署

影响:卓越运营

组织可以通过采用 DevOps 做法来缩短上市时间,并受益于改进的协作和软件质量。 例如,自动化可以加快应用程序的部署和维护。

使用基础结构即代码(IaC)来组织基础结构部署时,可以受益于基础结构预配效率的提高。 IaC 还可以促进在基础结构管理中采用 DevOps 原则。

  • 可以使用 IaC 在Azure VMware 解决方案中创建多个资源。 示例包括整个私有云或单个组件,例如群集、网络设备和存储。 Azure 资源管理器、Bicep、Terraform、Azure CLI 和 PowerShell 等工具会自动在 Azure VMware 解决方案 中预配和配置资源。
  • 使用 IaC 时,可以通过修改代码来更新基础结构。 此方法可减少手动配置和预配所需的时间和工作量。
  • 从部署 IaC 返回的输出可用作文档,以帮助维护和提供预配资源的状态和配置的额外可见性。

版本控制系统提供了一种管理代码并使用版本控制根据需要跟踪和回滚更改的方法。

需要跨服务器更新应用程序代码时,蓝绿部署在很多方面都很有帮助:

  • 它们有助于管理应用程序的生命周期,从开发到生产。
  • 它们有助于在应用更新和修补程序时为客户提供一致的 Web 体验。
  • 它们使用加权算法仅在维护期间将流量分发到正常的服务器。

Azure VMware 解决方案不提供云原生应用程序为实现蓝绿部署提供的方法。 但这些部署在Azure VMware 解决方案中仍可能:

  • 在更改应用程序配置之前,请拍摄环境的快照。
  • 使用版本控制来确保可以返回到最后一个已知良好状态。
  • 请考虑创建一个暂存环境,以镜像生产和部署更新,然后再上线。
  • 在过渡环境中,对一部分服务器执行滚动更新并测试应用程序。

可以通过自动执行常规任务(如预配、缩放和修补)来减少手动工作量、最大程度地减少错误并提高资源使用率。 DevOps 方法是设计良好的解决方案的一个重要要素,用于简化运营、节省时间并帮助团队专注于增值活动。

建议
  • 使用 IaC 以可重复、可审核和一致的方式部署和预配基础结构。
  • 使用 IaC 自动扩展和收缩。
  • 使用版本控制系统,根据需要跟踪更改、协作和回滚到以前的版本。
  • 利用蓝绿概念,创建一个暂存环境,以在上线前镜像生产和测试环境。
  • 通过使用快照、克隆磁盘以及使用版本控制代码来维护应用程序的上一次良好状态。

定义角色和进程

影响:卓越运营

明确的角色和职责有助于确保明确、问责和有效管理架构良好的Azure VMware 解决方案工作负荷。 拥有一组定义的标准和结构化流程,并知道谁运行它们会导致高效运营,并帮助 IT 组织将其技术产品/服务与业务目标和策略保持一致。 随着Azure VMware 解决方案环境的发展和演变,定义完善的角色和职责会导致任务委派更加轻松,并有可能在不中断的情况下缩放解决方案。 结果是应用程序用户的更好体验。

必须有一种持续改进的文化,重点介绍私有云中应用程序的高效日常操作。 操作示例包括维护服务级别协议(SLA)、维护可用性、能够最大程度地减少服务中断以及顺利交付。 例如,Azure VMware 解决方案允许使用最少的用户输入来扩展环境。 如果手动扩展合同,则应记录谁执行关联的活动以及如何执行它们。Azure VMware 解决方案操作员应确保节点预留可用于根据需要扩展环境。 例如,指定负责标识未充分利用或空闲资源的个人。 为这些人提供适当调整虚拟机(VM)的流程,以降低不必要的成本。

应用程序团队和开发人员应为代码结构、异常和错误处理定义编码准则。 还应提供跟踪更改的方法,例如常规代码评审、API 文档和常规代码重构。 使用版本控制时,强制实施分支、提交消息和审批工作流等最佳做法。 这些做法有助于使代码保持一致、易于调试和维护。

建议
  • 与卓越云中心(CCoE)团队合作,了解合规性、安全、应用程序体系结构和运营流程的标准和准则。
  • 让安全性和合规性团队专注于特定于Azure VMware 解决方案的安全策略。 此外,团队还会执行风险评估,并确保符合法规要求。
  • 采用信息技术基础结构库(ITIL)等框架。 或使用国际标准化组织(ISO)做法来映射日常运营、流程和活动。 这些做法可能导致更快的知识转移、持续改进和改进的变更管理。
  • 在应用程序开发期间定义编码标准并实施安全做法。

使用标记策略和最佳做法

影响:卓越运营

可以使用标记策略进行退款和资源跟踪。 标记是在资源级别定义的键对值,并在预配期间应用。 可以使用 IaC 创建、更新和销毁来宾 VM。 标记和 IaC 可与配置管理工具协同工作。 可以在以下方面使用标记:

  • 环境。 可以应用生产QA开发测试标记来标识资源。
  • 用于跟踪资源成本和支出的成本中心。
  • SLA,用于确定资源的 SLA 要求。
  • 生命周期。 可以将应用程序 标记为活动存档停用
  • 关键性,基于资源的业务影响和重要性标记资源。

作为治理和合规性策略的一部分,组应负责识别没有标记的资源。 该组可以合并自动化、审核和流程,以帮助识别和修正不符合标记合规性策略的资源。

这些标记注意事项是一般的。 标记策略必须支持Azure VMware 解决方案内的有效资源分类、资源生命周期管理和报告。

建议
  • 使用组织分类来识别工作负载和基础结构,从而应用标记进行资源管理。 分类应包括主机、业务、所有者和环境。
  • 在预配期间使用适当的工具以编程方式维护和应用标记。
  • 使用符合组织的合规性和治理计划(如 SLA、退款策略和生命周期管理做法)的标记。
  • 制定流程来识别并纠正不符合标记要求的资源。

建立事件响应团队

影响:卓越运营

若要跟踪私有云中的工作负荷状态,必须监视 CPU 使用率、操作系统日志和安全警报等指标。 若要确保警报系统的有效性,需要评估几个关键操作方面。 具体而言,请检查:

  • 标识所有关键组件,例如数据库、网络设备和存储。
  • 阈值设置得当。
  • 警报是特定且可操作的。
  • 正确的人员会收到警报。
  • 没有大量的噪音和误报。
  • 适当的升级程序已经到位。

在发生事件或中断之前,建立定义完善的通知过程以确保及时通信至关重要。 确定负责解决的相关人员至关重要。 专用修正团队可以包括运营人员、应用程序所有者和 DevOps 专家,他们拥有快速解决问题所需的专业知识。 运营团队必须了解适当的人员,以便参与对每个问题进行分类。

事件响应团队可以通过维护全面的通讯组列表来有效协调响应。 此列表应包括业务关键部门的关键利益干系人和指定的升级联系人。 业务利益干系人必须被告知对事件产生的运营产生的任何潜在影响。 分配的升级联系人应该是能够做出决策或将问题提升到更高级别的个人,以便获得指导。

定期查看通讯组列表对于确保其准确性和与当前角色和职责保持一致至关重要。 评审可确保及时通知关键利益干系人有关Azure VMware 解决方案中发生的重大事件。

IT 服务管理(ITSM)解决方案可以将事件映射到任务。 例如,Azure 本机 ITSM 可能使用 Azure DevOps 来管理任务。 它可能会使用Azure 自动化自动执行 IT 流程,并使用Azure 逻辑应用来生成工作流。 结果是Azure VMware 解决方案中问题管理的自定义解决方案。

建议
  • 为 Azure VMware 解决方案警报和事件定义了适当的收件人。
  • 明确定义应可访问并有权做出决策或升级问题的升级联系人。
  • 确定关键业务利益干系人或代表,以确保了解任何潜在影响并提供指导。
  • 拥有一个由管理员、基础结构工程师和具有解决问题所需的专业知识的人员组成的修正团队。
  • 将警报与 ITSM(例如 Azure DevOps、JIRA 或 ServiceNow)集成。

文档过程

影响:可靠性

必须清楚地了解环境中存在的备份和恢复基础结构。 若要配置备份解决方案,首先需要为基础结构定义备份目标。 应在 Blob 存储或 Azure 备份保管库中备份应用程序、数据库和资产。 还应指定负责备份和还原应用程序的所有者。

建议
  • 清楚地记录备份和恢复基础结构。
  • 清楚地记录备份和恢复过程。

实现备份和还原解决方案

影响:可靠性

私有云应防范数据丢失,尽量减少停机时间,并在发生意外中断或灾难时保持操作的连续性。

为了保持业务连续性,需要实现可靠的数据保护,以帮助确保 VM 的可用性、完整性和可恢复性以及Azure VMware 解决方案环境中的关键数据。 备份工具需要到位,还必须确认它们正常工作。 Azure VMware 解决方案的主要原则是提供经过Azure VMware 解决方案验证的独立软件供应商(ISV)技术支持。 了解可用的合作伙伴和选项对于备份成功至关重要。

建议
  • 使用Microsoft支持的备份解决方案,例如Microsoft Azure 备份服务器或批准的第三方供应商。

注意

确保备份环境中的 VM 正在运行可支持性的 OS。 了解受支持的 OS

使用 Azure Site Recovery

影响:可靠性

Azure Site Recovery 是一种灾难恢复解决方案,旨在最大程度地减少发生灾难时Azure VMware 解决方案环境中 VM 的停机时间。 Azure Site Recovery 自动执行并协调故障转移和故障回复。 内置的非中断性测试有助于确保实现恢复时间目标(RTO)。 Azure Site Recovery 通过自动化简化了管理,并帮助确保快速且高度可预测的恢复时间。

建议
  • 在长时间的区域中断中,通过将工作负荷复制到备用 Azure 区域来保护工作负荷。
  • 将 Azure Site Recovery 配置为将备份发送到备用区域。

轮换机密

影响:安全性

如果攻击者无法访问加密密钥,则访问或滥用加密数据更具挑战性。 应安全地存储密钥、机密和证书,并且应频繁轮换它们。 保护和维护数据完整性的综合步骤包括:

  • 加密数据。
  • 安全地存储密钥。
  • 在传输数据之前加密应用程序级别的数据。
建议
  • 使用 Azure 密钥库存储加密密钥。

后续步骤

现在,你已了解操作管理过程,了解如何将Azure VMware 解决方案工作负荷与 Azure 登陆区域集成。

使用评估工具评估设计选择。