你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure 数据平台的 DR - 概述

Azure Synapse Analytics

Azure 机器学习

Azure Cosmos DB

Azure Data Lake

Azure 事件中心

概述

本系列提供了一个说明示例，说明组织如何为 Azure 企业数据平台设计灾难恢复（DR）策略。

Azure 提供了广泛的复原能力选项，可在发生灾难时提供服务连续性。但更高的服务级别可能会带来复杂性和成本溢价。涉及到 DR 时，成本、复原能力和复杂性之间的权衡是大多数客户的关键决策因素。

尽管偶尔在 Azure 平台上发生点故障，但Microsoft的 Azure 数据中心和 Azure 服务内置了多层冗余。任何故障通常限制在范围内，通常在几个小时内进行修正。从历史上看，关键服务（如标识管理）更有可能遇到服务问题，而不是整个 Azure 区域脱机。

还应承认，网络攻击（尤其是勒索软件）现在对任何新式数据生态系统都构成了切实威胁，并可能导致数据平台中断。虽然这不在本系列文章的讨论范围中，但建议客户在任何数据平台的安全性和复原能力设计过程中实施针对此类攻击的控制措施。

本系列文章的范围包括：

Azure 数据平台从物理灾难中的服务恢复，以客户为例。此说明性客户是：
- 一个具有定义的运营支持功能的中型组织，遵循基于信息技术基础结构库（ITIL）的服务管理方法。
- 不是云原生服务，其核心企业共享服务（如访问和身份验证管理和事件管理）仍保留在本地。
- 在云迁移到 Azure 的过程中，通过自动化启用。
Azure 数据平台在客户的 Azure 租赁中实现了以下设计：
- 企业登陆区域 – 提供平台基础，包括网络、监视、安全性等。
- Azure 分析平台 - 提供支持服务提供的各种解决方案和数据产品的数据组件。
本文中所述的过程将由 Azure 技术资源而不是专家 Azure 主题专家（SME）执行。因此，资源应具有以下知识/技能级别：
- Azure 基础知识 - Azure 及其核心服务和数据组件的工作知识。
- Azure DevOps 的实践知识。能够导航源代码管理和执行管道部署。
本文中所述的此过程涵盖从主要区域到次要区域的服务故障转移操作。

以下项目被视为不在本系列文章涵盖范围内：

此 DR 工作示例的关键假设包括：

组织遵循基于 ITIL 的服务管理方法，为 Azure 数据平台提供运营支持。
作为 IT 资产服务还原框架的一部分，该组织具有现有的灾难恢复过程。
基础结构即代码（IaC）已用于部署自动化服务（如 Azure DevOps 或类似）启用的 Azure 数据平台。
Azure 数据平台托管的每个解决方案都已完成业务影响评估或类似功能，为恢复点目标（RPO）、恢复时间目标（RTO）和平均恢复时间（MTTR）指标提供明确的服务要求。

现在，你已大致了解了方案，接下来可以继续了解专为用例设计的体系结构。