你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Microsoft Fabric 中的可靠性
本文介绍 Microsoft Fabric 的可靠性支持,以及可用性区域的区域复原能力与跨区域恢复和业务连续性。 有关 Azure 中可靠性的更详细概述,请参阅 Azure 可靠性。
可用性区域支持
Azure 可用性区域是每个 Azure 地区内的至少三个在物理上独立的数据中心组。 每个区域中的数据中心都配备了独立的电源、冷却系统和网络基础结构。 在本地区域发生故障的情况下,设计可用性区域,以便一个区域受到影响时,其余两个区域支持区域服务、容量和高可用性。
故障范围包括软件和硬件故障,以及地震、洪水和火灾等事件。 容错是通过 Azure 服务的冗余和逻辑隔离来实现的。 有关 Azure 中可用性区域的详细信息,请参阅地区和可用性区域。
已启用 Azure 可用性区域的服务旨在提供适当级别的可靠性和灵活性。 可以通过两种方式进行相关配置。 可以采用区域冗余配置,实现跨区域自动复制,也可以采用区域性配置,将实例固定到特定区域。 还可以将这些方法结合。 有关区域与区域冗余体系结构的详细信息,请参阅有关使用可用性区域和地区的建议。
Fabric 做出商业合理的努力来支持区域冗余可用性区域,其中资源会自动跨区域复制,无需进行任何设置或配置。
先决条件
- Fabric 目前在有限数量的区域中提供部分可用性区域支持。 此部分可用性区域支持涵盖体验(和/或体验中的某些功能)。
- 事件流等体验不支持可用性区域。
- 如果使用 OneLake,则数据工程支持可用性区域。 如果使用其他数据源(例如 ADLS Gen2),则需要确保已启用区域冗余存储 (ZRS)。
- 区域可用性不一定适用于预览版的 Fabric 体验和/或功能。
- Power BI 中的本地网关和大型语义模型不支持可用性区域。
- 数据工厂(管道)支持欧洲西部的可用性区域,但在发生区域中断时,新的或正在进行的管道运行可能会失败。
支持的区域
Fabric 通过商业上的合理努力,在以下各区域中提供可用性区域支持:
美洲 | Power BI | 数据市场 | 数据仓库 | 实时分析 | 数据工厂(管道) | 数据工程 |
---|---|---|---|---|---|---|
巴西南部 | ||||||
加拿大中部 | ||||||
美国中部 | ||||||
美国东部 | ||||||
美国东部 2 | ||||||
美国中南部 | ||||||
美国西部 2 | ||||||
美国西部 3 | ||||||
欧洲 | ||||||
法国中部 | ||||||
德国中西部 | ||||||
意大利北部 | ||||||
北欧 | ||||||
挪威东部 | ||||||
波兰中部 | ||||||
英国南部 | ||||||
西欧 | ||||||
中东 | ||||||
卡塔尔中部 | ||||||
以色列中部 | ||||||
非洲 | ||||||
南非北部 | ||||||
亚太区 | ||||||
澳大利亚东部 | ||||||
Japan East | ||||||
东南亚 |
区域故障体验
在区域范围的服务中断期间,无需在区域恢复过程中执行任何操作。 受支持区域中列出的区域中的 Fabric 功能会自动进行自我修复和重新平衡,以利用运行正常区域。 如果主节点位于发生故障的区域,则正在运行的 Spark 作业可能会失败。 在这种情况下,需要重新提交作业。
重要
虽然 Microsoft 努力提供统一且一致的可用性区域支持,但在某些情况下可用性区域发生故障时,位于客户需求波动较大的 Azure 区域中的 Fabric 容量可能会出现高于正常的延迟。
跨区域灾难恢复和业务连续性
灾难恢复 (DR) 是指从会导致故障时间和数据丢失的高影响事件(例如自然灾害或部署失败)中恢复。 不管灾难的原因是什么,最好的补救措施就是一个定义全面且经过测试的 DR 计划,以及一个主动支持 DR 的应用程序设计。 在开始考虑创建灾难恢复计划之前,请参阅设计灾难恢复策略的建议。
在 DR 方面,Microsoft 使用责任共担模型。 在共担责任模型中,Microsoft 会确保基线基础结构和平台服务可用。 同时,许多 Azure 服务不会自动复制数据,也不会从失败区域回退以交叉复制到另一个启用的区域。 对于这些服务,你负责设置适用于工作负载的灾难恢复计划。 大多数在 Azure 平台即服务 (PaaS) 产品/服务上运行的服务都提供支持 DR 的功能和指导,你可以使用特定于服务的功能来支持快速恢复,从而帮助制定 DR 计划。
此部分介绍了 Fabric 的灾难恢复计划,旨在帮助组织在发生意外区域性灾难时保持数据安全和可访问。 计划涵盖以下主题:
跨区域复制:Fabric 为 OneLake 中存储的数据提供跨区域复制。 你可以根据需求选择加入或退出此功能。
发生灾难后的数据访问:在区域性灾难场景中,Fabric 会保证数据访问,但存在某些限制。 虽然故障转移后新项的创建或修改会受到限制,但重点仍是确保现有数据保持可访问且完整。
恢复指导:Fabric 提供了一组结构化的说明来指导用户完成恢复过程。 结构化指导使用户能够更轻松地恢复正常运作。
Power BI 现在是 Fabric 的一部分,拥有可靠的灾难恢复系统并提供以下功能:
默认为 BCDR:Power BI 自动在其默认产品/服务中包含灾难恢复功能。 用户无需单独选择加入或激活此功能。
跨区域复制:Power BI 使用 Azure 存储异地冗余复制和 Azure SQL 异地冗余复制,以确保备份实例存在于其他区域中,并可以使用。 这意味着数据会在不同区域之间复制,从而增强其可用性并降低与区域中断相关的风险。
灾难中持续的服务和访问:即使在中断事件期间,仍可以只读模式访问各 Power BI 项。 项目包括语义模型、报表和仪表板,确保企业可以继续其分析和决策过程,而不会受到严重阻碍。
有关详细信息,请参阅 Power BI 高可用性、故障转移和灾难恢复常见问题解答
重要
对于主区域没有 Azure 对区域且受灾难影响的客户,即使这些容量中的数据已被复制,利用 Fabric 容量的能力也会受到影响。 此限制与主区域基础结构有关,这对于容量的运行至关重要。
主区域和容量功能
要有效地制定灾难恢复计划,关键是要了解主区域与容量位置之间的关系。 了解主区域和容量位置有助于对容量区域以及相应的复制和恢复过程进行战略性选择。
组织的租户和数据存储的主区域设置为注册的第一个用户的帐单邮寄地址位置。 有关租户设置的更多详细信息,请转到 Power BI 实现规划:租户设置。 创建新容量时,数据存储默认设置为主区域。 如果要将数据存储区域更改为另一个区域,则需要启用多地理位置(一项 Fabric Premium 功能)。
重要
为你的容量选择其他区域不会完全将所有数据重新定位到该区域。 某些数据元素仍存储在主区域中。 若要查看哪些数据保留在主区域中,以及哪些数据存储在启用了多地理位置的区域,请参阅配置 Fabric Premium 的多地理位置支持。
在主区域没有配对区域的情况下,如果主区域遇到灾难,则任何启用了多地理位置的区域中的容量都可能会遇到运行问题,因为核心服务功能与主区域息息相关。
如果选择欧洲内启用了多地理位置的区域,则保证数据存储在欧洲数据边界内。
若要了解如何确定主区域,请参阅查找 Fabric 主区域。
灾难恢复容量设置
Fabric 在“容量设置”页上提供灾难恢复开关。 如果 Azure 区域配对与 Fabric 的服务状态一致,则可使用此开关。 下面是此开关的具体信息:
角色访问:只有具有容量管理员角色或更高级别角色的用户才能使用此开关。
粒度:开关的粒度是容量级别。 它适用于 Premium 和 Fabric 容量。
数据范围:灾难恢复切换专门处理 OneLake 数据,其中包括 Lakehouse 和 Warehouse 数据。 该开关不会影响存储在 OneLake 外部的数据。
Power BI 的 BCDR 连续性:尽管可以打开和关闭 OneLake 数据的灾难恢复,但始终支持适用于 Power BI 的 BCDR,无论开关是打开还是关闭。
频率:更改灾难恢复容量设置后,必须等待 30 天才能再次更改它。 设置等待期是为了保持稳定,防止不断切换,
注意
启用灾难恢复容量设置后,数据最多可能需要一周才能开始复制。
数据复制
启用灾难恢复容量设置时,跨区域复制会作为 OneLake 数据的灾难恢复功能启用。 Fabric 平台与 Azure 区域保持一致,以预配异地冗余对。 但是,某些区域没有 Azure 对区域,或者对区域不支持 Fabric。 对于这些区域,数据复制不可用。 有关详细信息,请参阅有可用性区域但无区域对的区域和 Fabric 区域可用性。
注意
虽然 Fabric 在 OneLake 中提供了数据复制解决方案来支持灾难恢复,但存在明显的局限性。 例如,KQL 数据库和查询集的数据存储在 OneLake 的外部,这意味着需要单独的灾难恢复方法。 有关每个 Fabric 项的灾难恢复方法的详细信息,请参阅本文档的其余部分。
计费
Fabric 中的灾难恢复功能可实现数据的异地复制,从而提高安全性和可靠性。 此功能使用更多存储和事务,这些存储和事务分别作为 BCDR 存储和 BCDR 操作计费。 可以在 Microsoft Fabric Capacity Metrics 应用中监视和管理这些成本,这些成本在此应用中显示为单独的细列项目。
如需所有相关灾难恢复成本的详尽明细以帮助你制定相应的计划和预算,请参阅 OneLake 计算和存储使用。
设置灾难恢复
虽然 Fabric 提供灾难恢复功能来支持数据复原,但必须遵循某些手动步骤以在中断期间还原服务。 本部分详细介绍为应对潜在中断而应执行的操作。
阶段 1:准备
激活灾难恢复容量设置:定期查看和设置灾难恢复容量设置以确保它们满足保护和性能需求。
创建数据备份:以符合灾难恢复计划的方式,将存储在 OneLake 外部的关键数据复制到另一个区域。
阶段 2:灾难故障转移
当重大灾难导致主要区域无法恢复时,Microsoft Fabric 会启动区域故障转移。 在故障转移完成并在 Microsoft Fabric 支持页面上发布通知之前,无法访问 Fabric 门户。
故障转移完成所用的时间可能会有所不同,但通常不到一小时。 故障转移完成后,可能会出现以下结果:
Fabric 门户:可以访问门户,浏览现有工作区和项等读取操作将继续工作。 所有写入操作(如创建或修改工作区)都会暂停。
Power BI:可以执行读取操作,例如显示仪表板和报表。 不支持刷新、报表发布操作、仪表板和报表修改以及需要更改元数据的其他操作。
Lakehouse/Warehouse:无法打开这些项,但可以通过 OneLake API 或工具访问文件。
Spark 作业定义:无法打开 Spark 作业定义,但可以通过 OneLake API 或工具访问代码文件。 故障转移后,将保存任何元数据或配置。
Notebook:无法打开笔记本,并且代码内容不会在灾难后保存。
ML 模型/试验:无法打开 ML 模型或试验。 灾难发生后,不会保存代码内容和元数据,例如运行指标和配置。
Dataflow Gen2/Pipeline/Eventstream:无法打开这些项,但可以使用支持的灾难恢复目标(湖屋或仓库)来保护数据。
KQL 数据库/查询集:故障转移后无法访问 KQL 数据库和查询集。 若要保护 KQL 数据库和查询集中的数据,需要执行更多前提步骤。
在灾难场景中,Fabric 门户和 Power BI 处于只读模式,其他 Fabric 项不可用,可以使用 API 或第三方工具访问存储在 OneLake 中的数据。 门户和 Power BI 都保留了对该数据执行读写操作的能力。 此能力可确保关键数据仍可访问和可修改,并缓解业务运营的潜在中断。
OneLake 数据仍可通过多个通道访问:
OneLake ADLS Gen2 API:请参阅连接到 Microsoft OneLake
可连接到 OneLake 数据的工具示例:
Azure 存储资源管理器:请参阅将 OneLake 与 Azure 存储资源管理器集成
OneLake 文件资源管理器:请参阅使用 OneLake 文件资源管理器访问 Fabric 数据
阶段 3:恢复计划
虽然 Fabric 确保数据在灾难发生后仍可访问,但你还可以采取行动,在事件发生前将其服务完全还原到该状态。 本部分提供分步指南,帮助你完成恢复过程。
恢复步骤
灾难发生后,在任何区域中创建新的 Fabric 容量。 鉴于此类事件期间的高需求,我们建议选择主要地理位置之外的区域以提高计算服务可用性的可能性。 有关创建容量的信息,请参阅购买 Microsoft Fabric 订阅。
在新创建的容量中创建工作区。 如有必要,请使用与旧工作区相同的名称。
创建与要恢复的项的名称相同的项。 如果使用自定义脚本来恢复湖屋和仓库,此步骤非常重要。
还原项。 对于每个项,请按照特定于体验的灾难恢复指南中的相关部分还原该项。