你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure NetApp 文件是一种本机企业级文件存储解决方案,可在Azure中无缝集成,并通过网络文件系统(NFS)和服务器消息块(SMB)协议跨客户端实现文件共享。 Azure NetApp 文件旨在实现高性能,并提供可缩放且安全的文件存储,以服务的形式进行管理。
使用 Azure 时,可靠性是共同的责任。 Microsoft提供了一系列功能来支持复原和恢复。 你负责了解这些功能如何在你使用的所有服务中工作,并选择满足业务目标和运行时间目标所需的功能。
本文介绍如何使 NetApp 文件能够灵活应对各种潜在的中断和问题,包括暂时性故障、可用性区域中断和区域中断。 它还介绍了如何使用备份从其他类型的问题中恢复,并重点介绍了有关Azure NetApp 文件服务级别协议(SLA)的一些关键信息。
生产部署建议
若要了解如何部署Azure NetApp 文件以支持解决方案的可靠性要求,以及可靠性如何影响体系结构的其他方面,请参阅 Azure Well-Architected Framework 中有关Azure NetApp 文件的 Architecture 最佳做法。
可靠性体系结构概述
若要使用 Azure NetApp 文件,必须配置包含托管容量池的 NetApp 帐户,这些容量池托管卷。 可以独立配置容量和吞吐量,并管理适应各种需求的数据保护选项。 可以启用卷之间的复制,即使各个卷位于不同的位置。
暂时性故障的复原能力
暂时性故障是指组件发生短暂的间歇性故障。 这些故障经常出现在云之类的分布式环境中,在运营过程中比较常见。 暂时性故障在短时间内自行纠正。 应用程序通常可以通过重试受影响的请求来处理暂时性故障,这一点很重要。
与任何云托管的 API、数据库和其他组件通信时,所有云托管的应用程序都应遵循Azure暂时性故障处理指南。 有关详细信息,请参阅有关处理暂时性故障的建议。
除了可能影响任何基于云的解决方案的暂时性故障类型外,偶尔的计划内维护(如平台更新、服务更新和软件更新)还会影响Azure NetApp 文件。
从文件协议(例如 NFS 和 SMB)的角度来看,如果应用程序可以处理可能在这些事件期间短暂发生的输入/输出 (I/O) 暂停,暂时性故障不会造成中断。 I/O 暂停通常只持续较短时间,从几秒到 30 秒不等。 某些应用程序可能需要进行优化才能处理 I/O 暂停。
NFS 协议十分可靠,客户端-服务器文件操作通常都会正常持续。 某些应用程序可能需要进行优化才能处理长达 30-45 秒的 I/O 暂停。 确保知悉应用程序的复原设置以应对存储服务维护事件。
对于利用 SMB 协议的人机交互应用程序,通常标准协议设置就已足够。 Azure NetApp 文件还支持 SMB 连续可用性,进而实现 SMB 透明故障转移。 SMB 透明故障转移可避免服务维护事件导致的中断。 它还提升了可靠性,优化了用户体验。
SMB 持续可用性仅适用于特定应用程序。
有关更多建议,请参阅 Azure NetApp 文件的复原能力常见问题解答。
应对可用区故障的弹性
可用区是物理上相互独立的Azure区域中的数据中心组。 当某个区域发生故障时,服务可以切换到其他可用的区域。
Azure NetApp 文件支持卷的 区域性 部署。 使用 可用性区域卷放置功能,在 Azure NetApp 文件 中将每个卷部署到您选择的单个可用性区域中。 仅当该可用性区域中存在Azure NetApp 文件且容量足够时,才能使用此功能。 如果您有对延迟敏感的应用程序,可以将存储卷部署到与您的 Azure 的计算资源和其他服务相同的可用区。
在下图中,带有实心箭头的橙色箭头表示对等虚拟网络区域内所有虚拟机(VM)如何访问所有Azure NetApp 文件资源。 绿色箭头表示访问同一区域中Azure NetApp 文件卷的 VM 如何共享可用性区域故障域。 平台级别的不同卷之间没有复制。
此图显示了Azure区域中的三个可用性区域。 带有实心箭头的橙色箭头连接了表示虚拟机 (VM) 和 Azure NetApp 文件资源的图标,这些图标跨越可用性区域。 绿色箭头连接同一可用性区域中的 VM 和 Azure NetApp 文件 卷。
单区域部署不足以满足较高可靠性的要求。 若要在不同可用性区域中的卷之间异步复制数据,可以使用跨可用性区域复制。 跨可用性区域复制的配置必须与可用性区域卷放置的配置分开进行。
如果可用性区域发生故障,你需要负责检测故障并切换到其他区域中的备用卷。
要求
区域支持: 跨区域复制可在支持 Azure NetApp 文件 的所有可用性区域中使用。
Azure NetApp 文件 中的可用性区域卷分布提供了区域卷的定位功能。 连接到同一可用性区域中的 VM 时,将看到低延迟。 但可用性区域卷放置不提供与 VM 或其他资源的邻近放置,并且卷可能位于数据中心的不同物理位置。
仅当订阅位于同一Microsoft Entra租户中时,才允许在不同Azure订阅之间进行复制。
有关Azure NetApp 文件中可用性区域的更多注意事项,请参阅 使用跨区域复制的要求和注意事项 和 管理可用性区域卷放置。
成本
在 Azure NetApp 文件 中启用可用区卷放置不需要额外付费。 只需为在这些区域中部署的容量池和资源付费。
复制的卷托管在容量池上。 跨可用性区域复制的成本通常由预配的容量池大小和层来决定。 数据复制无需额外费用。
配置可用性区域支持
需要分别单独配置卷放置功能和跨可用性区域复制功能。
卷放置:
创建支持可用性区域的新卷或为现有卷配置可用性区域支持。 若要在 Azure NetApp 文件 中为卷配置可用性区域,请参阅 管理 Azure NetApp 文件 的可用性区域卷放置。
如果要部署由 Terraform 管理且带有可用性区域的卷,还需要进行其他配置。 有关详细信息,请参阅为 Terraform 托管卷填充可用性区域。
如果使用基于角色的访问控制,请确保配置正确的权限。
在可用性区域之间迁移卷。 将卷配置为将其放入可用性区域后,无法修改指定的可用性区域。 不能在可用性区域之间移动卷。
禁用卷的可用性区域支持。 将卷配置为将其放入可用性区域后,无法禁用可用性区域支持。
跨可用性区域复制:
取用跨可用性区域复制。 若要提高解决方案的复原能力,请为另一卷配置跨可用性区域复制。
禁用跨可用性区域复制。 可以通过中断复制配对来禁用跨可用性区域复制。 有关详细信息,请参阅使用 Azure NetApp 文件 管理灾难恢复。
所有区域正常时的行为
本部分介绍将多个Azure NetApp 文件卷部署到单独的可用性区域、启用跨区域复制以及所有可用性区域正常运行时会发生什么情况。
区域之间的流量路由:传入请求将路由到所选可用性区域中的特定卷。
跨区域的数据复制: Azure NetApp 文件 跨区域复制意味着源卷的所有更改都被异步复制到目标卷。 你可以决定复制的发生频率。 跨可用性区域复制支持 3 个复制计划:每 10 分钟、每小时和每天。
重要
使用跨可用性区域复制的大型卷不支持 10 分钟复制计划。
区域故障期间的行为
本部分介绍将多个Azure NetApp 文件卷部署到单独的可用性区域、启用跨区域复制以及可用性区域中断时会发生什么情况。
检测和响应:你负责检测可用性区域故障并启动故障转移。
故障转移是一个手动过程。 需要激活目标卷时(例如要故障转移到目标可用性区域时)时,需要中断复制对等互连,然后装载目标卷。 有关详细信息,请参阅因故障转移到目标卷。
Notification: 若要监视 Azure NetApp 文件 卷的健康状况,可以使用 Azure Monitor 指标。 Azure Monitor通过实时指标(例如每秒输入/输出操作(IOPS)、延迟和容量使用率)检测到任何指示区域中断的异常情况。 可以配置要向管理员发送的警报和通知,以便他们可以通过重新均衡文件共享或启动故障转移或其他灾难恢复协议来立即做出响应。
活动请求:在区域故障事件期间,活动请求可能会遇到中断或延迟增加的情况。
预期数据丢失:区域故障转移期间可能出现的数据丢失量(也称为恢复点目标,即 RPO)取决于配置的跨可用性区域复制计划。
复制计划 典型 RPO 每 10 分钟 20 分钟 小时 两小时 Daily 少于 48 小时 预期的停机时间:故障转移到另一个区域要求中断对等互连关系以激活目标卷,并在第二个站点提供数据的读写访问权限。 触发对等互连中断后,故障转移预计会在一分钟内完成。
然而,区域故障转移期间的总停机时间(也称为恢复时间目标,即 RTO)取决于多个因素,包括系统或流程检测到区域故障并启动故障转移流程所需的时间。 决定是自动执行响应,还是需要手动步骤,这一点也很重要。 对于准备充分的配置,整个过程通常需要几分钟到一个小时才能完成。
流量重新路由:你负责重定向应用程序流量以连接到新转为活动状态的目标卷。 有关详细信息,请参阅因故障转移到目标卷。
区域恢复
故障恢复是一个手动过程,需要执行重新同步操作、重新建立复制关系,以及重新挂载源卷以供客户端访问。 有关详细信息,请参阅使用 Azure NetApp 文件 管理灾难恢复。
测试区域故障
可以使用卷的快照安全地测试跨可用性区域复制配置。 若要了解测试您的跨区域复制配置的整体方法,请参阅 测试 Azure NetApp 文件 的灾难恢复。
对区域范围的故障的复原能力
默认情况下,Azure NetApp 文件是单区域服务。 如果区域变得不可用,则存储在该区域中的卷也不可用。 若要在发生区域性中断时提高复原能力,Azure NetApp 文件支持跨区域复制。 可以将数据从一个区域中Azure NetApp 文件卷(源)异步复制到Microsoft预选的另一个区域中的另一个Azure NetApp 文件卷(目标)。 借助此功能,可以在发生区域范围的中断或灾难时对关键应用程序进行故障转移。
注释
也可以将单个卷复制到另一个可用性区域以及另一个区域。 有关详细信息,请参阅 了解 Azure NetApp 文件 复制。
要求
区域支持: 可以复制卷的次要区域取决于主要区域。 有关详细信息,请参阅支持的区域配对。
注意事项
仅当订阅位于同一Microsoft Entra租户中时,才允许在不同Azure订阅之间进行复制。
有关与Azure NetApp 文件中的跨区域复制相关的其他注意事项,请参阅 有关使用跨区域复制的注意事项。
成本
跨区域复制费用基于复制的数据量。 如需了解更多信息和查看一些示例方案,请参阅跨可用性区域复制的费用模型。
配置多区域支持
启用跨可用性区域复制:若要提高解决方案的复原能力,请配置跨可用性区域复制。
禁用跨区域复制:可以通过中断复制配对来禁用跨区域复制。 有关详细信息,请参阅使用 Azure NetApp 文件 管理灾难恢复。
当所有区域都正常时的行为
本部分介绍将Azure NetApp 文件卷配置为使用跨区域复制且这两个区域都正常运行时会发生什么情况。
区域之间的流量路由:传入请求将路由到主要区域中的特定卷。
区域间的数据复制:Azure NetApp 文件 的跨区域复制意味着源卷的所有更改都会异步复制到目标卷。 你可以决定复制的发生频率。 跨区域复制支持三种复制计划:每 10 分钟、每小时和每天。
重要
使用跨区域复制的大型卷不支持 10 分钟复制计划。
监视复制运行状况:可以监视对等互连关系的状况,并且可以配置警报,在复制滞后时间超出预期阈值时接收通知。 有关详细信息,请参阅显示运行状况并监视复制关系的状态。
区域故障期间的行为
本部分介绍当 Azure NetApp 文件 卷配置为使用跨区域复制且主要区域发生中断时,可以预期会发生的情况。
检测和响应:你负责检测区域故障并启动故障转移。 故障转移是一个手动过程。 需要激活目标卷时(例如要故障转移到目标区域时)时,需要中断复制对等互连,然后装载目标卷。 有关详细信息,请参阅因故障转移到目标卷。
Notification: 若要监视 Azure NetApp 文件 卷的运行状况,可以使用 Azure Monitor 监控指标。 Azure Monitor通过实时指标(如 IOPS、延迟和容量使用情况)检测指示区域关闭方案的任何异常。 可以配置要向管理员发送的警报和通知,以便他们可以通过重新均衡文件共享或启动故障转移或其他灾难恢复协议来立即做出响应。
活动请求:在区域故障事件期间,活动请求可能会遇到中断或延迟增加的情况。
预期数据丢失:区域故障转移期间可能出现的数据丢失量(也称为 RPO)取决于配置的跨可用性区域复制计划。
复制计划 典型 RPO 每 10 分钟 少于 20 分钟 小时 少于两小时 Daily 少于 48 小时 预期的停机时间:故障转移到另一个区域要求中断对等互连关系以激活目标卷,并在第二个站点提供数据的读写访问权限。 触发对等互连中断后,故障转移预计会在一分钟内完成。
然而,区域故障转移期间的总停机时间(也称为 RTO)取决于多个因素,包括系统或流程检测到区域故障并启动故障转移流程所需的时间。 决定是自动执行响应,还是需要手动步骤,这一点也很重要。 对于准备充分的配置,整个过程通常需要几分钟到一个小时才能完成。
流量重新路由:你负责重定向应用程序流量以连接到新转为活动状态的目标卷。 有关详细信息,请参阅因故障转移到目标卷。
区域恢复
主要区域恢复后,你负责故障回复。 故障恢复是一个手动过程,需要执行重新同步操作、重新建立复制关系,以及重新挂载源卷以供客户端访问。 有关详细信息,请参阅使用 Azure NetApp 文件 管理灾难恢复。
针对区域故障进行测试
可以使用卷的快照安全地测试跨区域复制配置。 若要了解测试跨区域复制配置的高级方法,请参阅 测试 Azure NetApp 文件 的灾难恢复。
备份和还原
Azure NetApp 文件备份通过提供完全托管的备份解决方案来扩展Azure NetApp 文件的数据保护功能,以实现长期恢复、存档和合规性。 服务创建的备份存储在Azure存储中,与可用于短期恢复或克隆的卷快照无关。 服务执行的备份可以还原到该区域内新的 Azure NetApp 文件卷。 Azure NetApp 文件备份支持基于策略的(计划)备份和手动(按需)备份。
为了进一步提高安全性,Azure NetApp 文件 snapshots添加了稳定性、可伸缩性和快速可恢复性,而不会影响性能。 它们为其他冗余解决方案(包括备份、跨区域复制和跨可用性区域复制)提供基础。
对于大多数解决方案,不应只依赖于备份。 请改用本指南中所述的其他功能来支持复原要求。 但是,备份可以防范其他方法没有的一些风险。 有关详细信息,请参阅什么是冗余、复制和备份?。
服务级别协议
Azure服务的服务级别协议(SLA)描述了每个服务的预期可用性以及解决方案必须满足的条件,以实现该可用性预期。 有关详细信息,请参阅 SLa for 联机服务。