你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

云管理中的保护和恢复

在准备潜在的工作负荷中断之前,云管理团队应首先确保他们满足以下要求:

他们计划时,团队必须首先假设灾难发生时会失败。 为中断做准备,团队可以更快地检测故障并更快地恢复。 此规则的重点是在系统发生故障后立即执行的步骤。 如何保护工作负荷,以便在发生中断时快速恢复工作负荷?

任何技术解决方案都无法持续提供保证 100% 运行时间的 SLA。 具有最冗余体系结构的解决方案声称可提供 99.9999%(即“六个 9”)的运行时间。 但即使是能提供“六个 9”的解决方案,在任何给定年份也会下降 31.6 秒。 解决方案很少需要大量的持续运营投资,才能达到“9 秒”的运行时间。

转换保护和恢复对话

为业务运营提供支持的工作负载包括:

  • 应用程序
  • 数据
  • 虚拟机 (VM)
  • 其他资产

每个资产可能需要自己的保护和恢复方法。 此规则的重要目标是在管理基线内建立一致的承诺,从而为业务讨论提供起点。

至少,云管理团队应为每个资产创建基线方法,并明确承诺快速恢复和最小数据丢失。

恢复时间目标 (RTO)

恢复时间目标是在发生灾难之前将任何系统恢复到其状态所需的时间。 这包括以下时间:

  • 将最小功能还原到 VM 和应用程序
  • 还原应用程序所需的数据。

在业务方面,RTO 表示业务流程服务不足的时间。 对于任务关键型工作负荷,此变量应相对较低,允许业务流程快速恢复。 对于低优先级的工作负载,标准级别的 RTO 可能不会对公司性能产生显著影响。

企业应创建一个管理基线,用于为非任务关键型工作负荷建立标准 RTO。 然后,企业可使用该基线来证明在恢复时间内进行额外投资的合理性。

恢复点目标 (RPO)

在大多数云管理系统中,某种形式的数据保护定期捕获和存储数据。 恢复点是指上次捕获数据的时间。 当系统发生故障时,只能将其还原到最近的恢复点。

恢复点目标从最近的恢复点到中断进行度量。 如果 RPO 以小时为单位进行度量,则系统故障会导致最后一个恢复点与中断之间的小时数据丢失。 如果 RPO 以天为单位进行度量,则系统故障会导致最后一个恢复点与中断之间的天数丢失数据。 理论上,一天的 RPO 会导致当天所有事务丢失,从而导致失败。

对于任务关键型系统,以分钟或秒为单位测量 RPO 可能有助于避免收入或利润损失。 但是,较短的 RPO 通常会导致管理成本增加。 为了帮助最大程度地降低这些成本,企业应创建一个专注于最长可接受的 RPO 的管理基线。 然后,业务可以减少需要更多投资的特定平台或工作负载的 RPO。

保护和恢复工作负载

IT 环境中的大部分工作负载都支持特定的业务或技术流程。 对业务运营没有系统影响的系统通常不保证快速恢复系统或尽量减少数据丢失所需的增加投资。 通过建立基线,企业可以确定在可以持续管理的价格点需要什么级别的恢复支持。 了解这一点有助于业务利益干系人评估恢复投资增加的价值。

对于大多数云管理团队来说,增强型基线,具有针对各种资产的特定 RPO/RTO 承诺,可产生最有利的相互业务承诺路径。 以下部分概述了一些常见的增强基线,这些基线使企业能够通过可重复的过程轻松添加保护和恢复功能。

保护和恢复数据

数据可以说是数字经济中最有价值的资产。 为生产工作负荷提供支持的数据丢失会导致收入或利润损失。 最常见的增强基线是能够有效地保护和恢复数据。 我们鼓励云管理团队提供支持通用数据平台的增强管理基线级别。

在云管理团队实施平台操作之前,他们通常会支持平台即服务 (PaaS) 数据平台的改进操作。 例如,云管理团队可以轻松对 Azure SQL 数据库 或 Azure Cosmos DB 解决方案强制实施更高频率的备份或多区域副本 (replica)。 这样,开发团队就可通过将其数据平台现代化来轻松改进 RPO。

若要详细了解这一思维过程,请参阅平台操作规则

保护和恢复 VM

大多数工作负荷有些依赖于托管解决方案的各个方面的虚拟机。 企业必须快速恢复某些虚拟机,以便工作负荷在系统发生故障后支持其进程。

这些虚拟机上的每分钟停机都可能导致收入损失或利润减少。 当 VM 停机对业务的财务性能产生直接影响时,RTO 非常重要。 云管理团队可以通过将虚拟机副本 (replica)到辅助站点并使用自动恢复(称为热热恢复模式)来快速恢复虚拟机。 团队还可以采用称为热热或高可用性模型的方法将虚拟机副本 (replica)到功能辅助站点。 热热方法成本更高,但它提供最高的恢复状态。

每个模型都会减少 RTO,这有助于企业更快地恢复其业务功能。 不过,每个模型还会导致云管理成本大幅增加。

另请注意,除了为高可用性副本 (replica)外,还应为以下方案启用备份:

  • 意外删除
  • 数据损坏
  • 勒索软件攻击

若要详细了解这一思维过程,请参阅工作负载操作规则

后续步骤

满足此管理基线组件后,团队可提前了解信息,避免其平台操作工作负载操作出现中断的情况。