你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是 Azure 可靠性文档?

Azure 提供了一组全面的可靠性功能,可帮助你满足工作负荷要求。 Azure 可靠性文档提供有关每个 Azure 服务如何支持这些平台可靠性功能(例如暂时性故障处理、可用性区域、多区域支持和备份支持)的服务特定的指南。 若要查看可靠性服务指南的当前列表,请参阅 按服务列出的可靠性指南

除了可靠性服务指南之外,Azure 可靠性文档还包括一般信息,例如:

  • Azure 区域:有关 Azure 区域、已配对和未配对区域以及区域的不同配置的信息。
  • Azure 可用性区域:有关可用性区域的信息,包括它们如何支持高可用性和灾难恢复。 本部分还包括支持可用性区域的 Azure 服务和区域的列表。
  • 可靠性概念:基本可靠性概念,例如:
    • 业务连续性、高可用性、灾难恢复。
    • 冗余、复制和备份。
    • 故障转移和故障回复。
    • Microsoft 和你之间的共同责任。

什么是可靠性?

可靠性 是指工作负荷能够在可接受的服务级别持续执行,并符合业务连续性要求。 可靠性是云计算中的关键概念。 在 Azure 中,可靠性是通过多种因素共同实现的,包括平台自身的设计、其服务、应用程序的体系结构以及最佳做法的实施。

实现工作负荷可靠性的两个关键方法是:

  • 复原能力: 在出现问题时能够承受并继续运行,例如临时错误、基础设施中断或需求的意外高峰。 复原可帮助你避免中断。

  • 可恢复性: 在中断后还原正常作的能力。 如果发生中断,可恢复性有助于还原回可靠状态。

Azure 平台和服务提供许多可靠性功能,例如可用性区域、多区域支持、数据复制以及备份和还原。 在设计工作负载以满足其业务连续性要求时,必须考虑这些功能。

小窍门

可靠性还涵盖解决方案设计的其他要素,包括如何安全地部署更改、如何管理性能以避免因高负载导致停机,以及如何测试和验证解决方案的各个部分。 若要了解详细信息,请参阅 Azure 架构良好的框架

Azure 服务的可靠性指南

Azure 提供了一组全面的可靠性功能,可帮助你满足工作负荷要求。 Azure 服务的可靠性指南是特定于服务的指南,介绍了每个 Azure 服务如何支持这些平台可靠性功能,例如暂时性故障处理、可用性区域复原能力和区域中断,以及备份和还原。 若要查看可靠性服务指南的当前列表,请参阅 Azure 服务的可靠性指南

Azure 区域

Azure 在全球提供 60 多个区域,这些区域分布在多个不同的地域。 每个区域都是一组物理设施,包括数据中心和网络基础结构。 所有区域都可划分为多个地理区域,称为“地域”。 每个地域都是一个数据驻留边界,可能包含一个或多个区域。

Azure 区域 提供某些类型的复原选项。 许多区域提供可用区,有些区域具有配对区域,而另一些区域则没有配对。 为服务选择区域时,务必注意在该区域中提供的复原能力选项。

Azure 可用性区域

许多 Azure 区域都提供可用性区域,这些区域是区域中的独立数据中心组。 可用性区域是实现 Azure 平台上可靠性的重要方法,因为它们在区域中提供某种级别的物理隔离。

可用性区域足够近,可以与其他可用性区域建立低延迟连接,但它们相距甚远,可以降低多个可用性区域受到本地中断或天气影响的可能性。 各可用性区域具有独立的电源、冷却和连网基础结构。 根据设计,如果一个区域停电,其余区域可支持区域性服务、容量和高可用性。

可靠性概念

可靠性概念部分概述了在 Azure 中支撑可靠性的一些关键概念和原则。

业务连续性、高可用性和灾难恢复

业务连续性规划可以理解为通过高可用性和灾难恢复设计进行风险管理的持续过程。

考虑业务连续性时,请务必了解以下术语:

  • 业务连续性是企业在故障、中断或灾难期间可以继续运营的状态。 业务连续性需要主动规划、准备和实施可复原的系统和流程。

  • 高可用性指的是设计一种解决方案,以满足业务对可用性的需求,并能抵御可能影响正常运行时间要求的日常问题。

  • 灾难恢复是关于规划如何处理不常见的风险和可能导致的灾难性中断。

有关通过高可用性和灾难恢复设计实现业务连续性和业务连续性规划的信息,请参阅什么是业务连续性、高可用性和灾难恢复?

冗余、复制和备份

我们经常将云视为全球分布式、无处不在的系统。 但是,实际上,云由数据中心内运行的硬件组成。 复原要求考虑与云托管组件运行的物理位置相关的一些风险。

冗余是维护服务组件的多个相同副本,并且以阻止任何一个组件成为单一故障点的方式使用这些副本的能力。

复制或数据冗余是能够维护多个数据副本(称为副本)。

备份能够维护可用于还原丢失的数据的时间戳副本。

有关冗余、复制和备份的简介,请参阅什么是冗余、复制和备份?

故障转移和故障回复

维护应用程序和数据副本的冗余副本的一个常见原因是为了能够执行故障转移。 通过故障转移,可以将流量和请求从不正常的实例重定向到正常的实例。 然后,一旦原始实例再次正常运行,可以执行故障回复以返回到原始配置。

有关故障转移和故障回复的详细信息,请参阅什么是故障转移和故障回复?

共同责任

Azure 服务旨在应对许多常见故障,并且每个产品都提供一份服务级别协议 (SLA),其中说明了预期的正常运行时间。 但是,工作负荷的整体可靠性取决于你设计解决方案以满足业务需求的方式。 一些业务连续性计划可能认为某些故障风险无关紧要,而另一些则可能认为它们至关重要。

在 Azure 公有云平台中,可靠性是 Microsoft 和你之间的共担责任。 由于你设计和部署的每个工作负载中的可靠性级别不同,因此必须从可靠性角度了解谁对各个级别负有主要责任。 若要更好地了解共同责任的工作原理,尤其是在遇到中断或灾难时,请参阅 可靠性的共同责任