通过


你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 虚拟 WAN 的体系结构最佳做法

Azure 虚拟 WAN 是一种网络服务,提供统一的连接、安全性和路由。 它通过虚拟专用网络(VPN)连接和 Azure ExpressRoute 连接全局连接分支和用户,支持加密的专用链接,并与 Azure 防火墙集成以集中保护。 虚拟 WAN 使用为全球传输网络中的规模和性能而构建的中心辐射型体系结构。

本文中的指南提供了对应于 Well-Architected 框架支柱原则的架构建议。

技术范围

此次审查重点分析以下 Azure 资源的相关决策:

  • Azure 虚拟 WAN
  • Azure VPN 网关

Reliability

可靠性支柱的目的是通过 建立足够的复原能力和从故障快速恢复来提供持续的功能。

可靠性设计原则 为各个组件、系统流和整个系统提供高级设计策略。

工作负荷设计清单

根据可靠性设计评审核对清单开始实施您的设计策略。 确定其与业务需求的相关性,同时牢记应用程序的性质及其组件的关键性。 扩展策略以根据需要包含更多方法。

  • 查看服务限制和已知问题: 在规划体系结构之前,请查看 虚拟 WAN 限制已知问题 。 虚拟 WAN 对每个中心和每个订阅的连接资源强制实施限制。 已知问题包括可用的解决方法。

    选择用于生产部署的虚拟 WAN 标准 SKU 以获取区域冗余和高级路由功能。

  • 通过故障模式分析预测潜在故障(FMA): FMA 可帮助你预测故障方案并制定缓解策略。

    Failure 缓解措施
    影响单区域虚拟 WAN 中心的区域中断 跨区域部署多个中心,以在一个区域不可用时保持连接。
    ExpressRoute 连接失败 部署冗余线路或备份 VPN 连接,以在中断期间保持混合连接。
    分支站点 VPN 连接失败 配置站点到站点 VPN 并使用冗余 Internet 服务提供商 (ISP) 链接,以防止服务商级别的连接问题。
  • 了解服务级别协议(SLA)和复合可靠性目标: 虚拟 WAN 中心路由基础结构具有 99.95% SLA。 在停机期间,无法建立或维护连接。 请参阅服务额度的 SLA 条款。

    端到端连接需要复合 SLA 计算。 每个中心、网关和防火墙都有独立的 SLA。 计算关键连接路径的综合服务水平协议 (SLA)。

    SLA 排除客户责任,例如本地设备故障、Azure 控制外部的 Internet 连接问题以及配置错误。

  • 规划中心部署的多区域冗余: 跨多个 Azure 区域分配虚拟中心以实现区域级冗余。

    选择区域时,确定以下因素的优先级:

    • 靠近用户和工作负载
    • 用于灾难恢复的配对区域
    • 跨区域连接要求
    • 法规和数据驻留约束

    建立路由以支持自动或手动区域故障转移。 规划故障期间的非对称路由模式,并记录预期的中断行为。 法规和数据驻留要求可能会限制多区域部署策略。

  • 规划分层冗余: 虚拟 WAN 支持三个冗余层。 每个层都解决了不同的故障方案。

    防止
    区域级别 区域中的数据中心故障
    连接级别 单通道故障
    路由级别 通过流量工程和故障转移控制的首选路径故障

    根据可用性需求、实现复杂性和成本平衡冗余决策。 评估每个故障域对工作负载操作的影响。 选择与作功能匹配的对称或非对称路由模式。

  • 制定可靠的中心和网关扩展计划:根据预期增长调整基础设施规模,以应对预期增长而不是当前流量。 中心路由器会自动缩放,但最多需要 25 分钟。 网关需要手动调整大小和定期维护,以适应变化。 过度预配容量,以在需求高峰期间保持可靠性。

  • 为点对站 VPN 设计弹性:使用全局 VPN 配置文件实现自动枢纽选择和故障转移。 调整点到站点地址池的配置,以能够处理至少两倍于预期的并发用户,从而在网关重新分配期间防止资源耗尽。

  • 设置用于故障转移的 VPN 备份: 将 VPN 网关与 ExpressRoute 网关一起部署。 设置边界网关协议(BGP)首选项以优先使用 ExpressRoute 而不是 VPN 进行自动故障转移。

  • 验证故障转移行为: 在故障转移方案中测试路由和网络虚拟设备(NVA)行为。 记录每个故障转移模式的预期流量流和客户端影响。

  • 合并业务连续性测试: 测试故障转移配置,以避免在实际中断期间出现意外情况。

    在测试期间模拟以下方案:

    • 验证多区域故障转移行为的区域失败
    • 当 ExpressRoute 电路发生故障时,以确认 VPN 备份已激活
    • 用于标识非对称路由模式的并行路径方案
    • 故障转移事件期间的 BGP 路由通告
  • 为服务运行状况启用监视和警报: 为中心路由器、网关和路由基础结构设置监视,以在用户报告服务中断之前检测问题。 为提前响应创建性能降低警报。

    跨所有虚拟 WAN 组件启用诊断日志,以支持通过事件关联进行故障排除。 Azure 资源运行状况将 Azure 服务问题与客户端连接问题区分开来。

配置建议

建议 益处
选择用于生产部署的 虚拟 WAN 标准 SKU 以获取关键可靠性功能。 标准 SKU 提供区域冗余,支持高级路由方案,并提供中心到中心和分支到分支连接模式。 跨可用性区域提供区域冗余网关部署,以实现数据中心级容错。 支持多区域连接模式的全球传输架构。
选择与原生 Virtual WAN 中心集成的 NVA。 原生集成提供更好的可靠性和支持,并避免复杂的自定义路由配置。 消除用户定义的路由维护开销。 提供结合微软与合作伙伴支持的集成解决方案。
在至少两个 Azure 区域中 部署虚拟中心以建立冗余。 选择靠近用户和工作负荷的区域。 请考虑使用 Azure 配对区域来增强灾难恢复功能。 在整个区域故障期间维护网络运营。 通过备用区域中心保留分支和虚拟网络连接。 支持工作负荷分发,以便进行负载均衡。
使用 区域冗余 SKU 设置 VPN 网关,以跨可用性区域提供自动分发。 验证目标区域是否支持可用性区域,并通过网关属性确认区域分发成功。 维护可用性区域故障期间的 VPN 隧道可用性。 通过自动实例分发消除单个数据中心依赖项。
在主动-主动配置中设置 站点到站点 VPN 隧道 。 使用相同的设置为每个 VPN 网关实例创建单独的隧道。 在两个隧道上使用 BGP 对等互连实现动态路由和即时故障转移,且无收敛延迟。 消除故障转移事件期间的收敛延迟。 当主节点发生故障时,通过备用隧道提供即时流量路由。 与主动-被动部署相比,提高了吞吐量。
跨所有 ExpressRoute 线路 发布从本地到 Azure 的路由,以进行主动-主动路由广告。 根据需要,使用 BGP 自治系统(AS)路径预置进行流量工程。 监视所有连接的路由播发状态。 通过自动故障转移实现 ExpressRoute 的冗余和带宽最大化。 通过 AS 路径预置控制流量分配。 通过主动-主动转发优化网络利用率。
设置 虚拟中心路由基础结构单元 以超出基线要求以适应预期增长。 根据预期的流量和增长预测设置单位。 监视路由容量利用率指标,以确定缩放需求,并防止流量增加时性能下降。 当流量超过基线容量时,避免路由性能瓶颈。 防止 25 分钟的缩放延迟影响活动连接。 支持工作负荷扩展,而不会造成服务中断。
为预期的聚合吞吐量配置 VPN 和 ExpressRoute 网关扩展单元,并为未来增长预留额外的容量。 根据吞吐量要求和增长预测调整网关规模单位。 网关不会自动扩展,调整扩展单元需要维护时段。 防止因网关耗尽导致容量瓶颈和连接质量下降。 当流量超过容量时,避免数据包丢失。 通过最小化网关大小调整任务,从而减少运维开销。
跨所有中心创建 全局 VPN 配置文件 ,为点到站点连接提供自动中心选择。 全局配置文件将 VPN 客户端定向到最近的可用中心,并在主中心不可用时提供复原能力。 确保在集线器中断期间通过自动故障转移保持远程用户连接。 将用户连接到最近的中心以获得最佳延迟。 在区域性故障期间保持工作效率。
点到站点地址池 规划容量,以支持预计用户数量的两倍。 调整地址池的大小,以防止在网关实例重新分发期间耗尽。 监视地址池利用率,以便进行正在进行的容量规划。 防止在网关维护或故障期间出现地址耗尽。 提供单一 VPN 配置文件以供所有用户进行部署。 支持远程员工业务连续性。
通过在虚拟中心中将 VPN 网关与 ExpressRoute 网关一起部署,使用站点到站点 VPN 作为 ExpressRoute 线路的备份连接。 设置 BGP 首选项以偏向 ExpressRoute 而不是 VPN。 在 ExpressRoute 发生故障时保持连接。 保留本地依赖服务的应用程序可用性。
为所有虚拟 WAN 资源(例如虚拟中心、网关和防火墙)启用 诊断设置 。 将日志发送到 Log Analytics 工作区以获取可见性。 支持主动问题检测和快速事件响应。 在用户报告中断之前标识连接问题。 在发生故障时立即通知运营团队。
虚拟 WAN 指标和资源运行状况 事件创建警报。 为网关连接失败和 BGP 对等会话状态更改创建警报。 为路由基础结构容量阈值设置警报并启用资源运行状况警报。 通过集中式日志关联加速故障排除。 提供用于模式标识的历史数据。 支持针对常见问题的自动修正工作流。
查看 虚拟 WAN 灾难恢复指南 ,了解故障方案和缓解策略。 系统 FMA 在设计初期识别可靠性风险。 在生产部署之前,通过冗余和故障转移机制支持主动缓解。

安全性

安全支柱的目的是为工作负荷提供 保密性、完整性和可用性 保证。

安全设计原则通过向虚拟 WAN 的技术设计应用方法,为实现这些目标提供了高级设计策略。

工作负荷设计清单

根据 设计评审清单制定针对安全 的设计策略,并确定漏洞和控制,以增强安全防御能力。 扩展策略以根据需要包含更多方法。

  • 建立安全基线:将虚拟 WAN 的 Azure 安全基线应用为基础安全基线。 基线涵盖特定于虚拟 WAN 的中心安全性、网关配置、路由安全性和连接加密控制。

    此标准化方法解决了虚拟 WAN 服务终结点,例如虚拟中心、VPN 网关、ExpressRoute 网关和 Azure 防火墙集成。 它为网络基础结构要求提供符合性映射。

  • 通过路由控制实现网络分段: 通过路由表控制虚拟 WAN 中的网络分段。 创建自定义路由表以隔离路由域并防止区域之间的未经授权的流量。 当标准路由表隔离不符合连接要求时应用路线映射。

    部署安全的虚拟中心以集中检查流量。 使用 Azure 防火墙进行威胁情报和 Azure 服务集成,或部署合作伙伴 NVA 进行深度数据包检查和高级威胁防护。

  • 建立专用连接并保护公共终结点: 在发散网络中部署专用终结点,以访问 Azure 平台即服务(PaaS)解决方案,避免通过互联网暴露。 本地用户通过 ExpressRoute 或 VPN 连接访问这些服务。 通过安全中心进行路由可提供检查,但会增加延迟和成本。

    在虚拟网络或 IP 地址级别使用 Azure DDoS 防护来保护面向公众的辐射工作负荷。 中心公共 IP 地址不支持 DDoS 防护。

  • 实现标识和访问管理: 根据要求选择点到站点 VPN 身份验证方法。

    • Microsoft Entra ID 身份验证提供Microsoft Entra 条件访问策略、多重身份验证(MFA)、设备符合性检查和基于风险的身份验证。
    • 基于证书的身份验证需要公钥基础结构(PKI)和证书生命周期管理。
    • 远程身份验证拨入用户服务(RADIUS)身份验证与现有的 RADIUS 基础结构集成。

    使用基于角色的访问控制(RBAC):控制虚拟 WAN 配置访问:

    • 应用 RBAC 分配来控制谁可以修改虚拟 WAN 配置。
    • 在大多数情况下,使用内置的网络贡献者和读取者角色。
    • 当内置角色权限过于宽松时,创建自定义角色来限定更精细的权限边界。
  • 使用深度防御来控制和筛选网络流量: 在多个网络层部署安全控制。 使用虚拟 WAN 标准 SKU 在中心内部署 Azure 防火墙或合作伙伴安全解决方案,以便进行集中式应用程序感知筛选和威胁防护。 在辐射型网络中部署网络安全组(NSG),以便基于 IP 地址、端口和协议进行子网级筛选。

    每个层都解决了不同的安全要求。 中心安全控制强制实施组织范围的策略,并检测所有连接的网络中的威胁。 分支 NSG 提供团队根据应用程序要求定义的特定于工作负荷的控件。

  • 确保加密连接: 选择强加密算法(如 AES-256-GCM 或 AES-256-CBC)来保护数据机密性。 使用强完整性算法(如 SHA-256 或 SHA-384)防止篡改。 若要防止隧道建立失败,请协调 Azure 与本地 VPN 设备之间的站点到站点 VPN 的 Internet 协议安全性(IPsec)和 Internet 密钥交换(IKE)加密策略。

  • 管理 ExpressRoute 和点到站点 VPN 的加密: 分别评估 ExpressRoute 加密要求和 VPN 的要求,因为每种连接类型都需要不同的配置。 根据客户端要求和安全策略管理点到站点 VPN 加密。

  • 遵循零信任原则强化体系结构: 假设破坏并限制爆炸半径。 对网络访问控制实施默认拒绝,并仅为所需流量设置显式允许规则。

    关闭未使用的功能以减少攻击面:

    • 避免使用旧版或弱 VPN 密码套件,例如 DES、3DES 和 MD5。
    • 删除不必要的点到站点身份验证模式。
    • 消除不需要的公共 IP 地址分配。

    启用诊断日志记录、指标警报和Microsoft Sentinel 威胁检测来监视违规情况。

  • 实现安全监视和威胁检测: 为虚拟 WAN 组件(例如中心、网关和 Azure 防火墙)启用诊断日志记录,以提高安全事件可见性。 使用 Log Analytics 工作区提供集中式日志收集、长期保留和基于查询的分析。

    为特定指标阈值或日志模式的被动通知创建 Azure Monitor 警报。 部署 Microsoft Sentinel,通过机器学习添加主动威胁检测,并与更广泛的组织信号关联。

配置建议

建议 益处
创建自定义路由表,这些表与定义的安全区域匹配。 在辐射虚拟网络连接上设置 路由表关联 。 设置路由表的传播规则,以控制哪些路由表从连接中接收路由。 将路由表关联设置为 “无” ,以完全隔离连接并阻止任何路由共享。 通过路由控制防止分段区域之间的未经授权的流量。 通过限制与已泄露资源的通信来减少爆炸半径。 提供精细的连接控制。
在需要专用连接的 PaaS 服务的分支虚拟网络中创建 专用终结点 ,例如 Azure 存储、Azure SQL 数据库、Azure Cosmos DB 和其他 受支持的服务。 将专用终结点与分支虚拟网络子网集成。 需要检查时,通过安全虚拟中心路由专用终结点流量。 消除 PaaS 服务中的数据外泄风险。 通过删除公共终结点来减少攻击面。 从本地网络提供安全的 PaaS 访问。
在虚拟网络级别启用 DDoS 防护 ,或为单个公共 IP 地址启用 DDoS IP 防护。 将保护应用于工作负荷资源上的公共 IP 地址。

虚拟 WAN 中心的公共 IP 地址不支持 DDoS 防护,因此需要在辐射网络级别上实现它。
检测并缓解试图压倒网络带宽的批量攻击。 在攻击流量到达工作负荷之前进行吸收。 在攻击期间自动调整缓解能力。
在 Microsoft Entra ID 租户中注册 Azure VPN 应用程序 ,并为 VPN 网关使用 Microsoft Entra ID 身份验证。 将 Azure VPN 客户端部署到具有通过 Microsoft Entra ID 进行身份验证的配置文件的用户设备。 防止通过 MFA 进行未经授权的 VPN 访问。 支持适应用户风险、登录风险和设备状况的基于风险的身份验证。
创建面向 Azure VPN 应用程序 的条件访问策略 ,以强制实施 MFA、设备符合性和位置限制。 对 VPN 连接强制实施自适应访问控制。 要求使用 MFA 进行高风险登录。限制访问合规设备和受信任位置。
“网络参与者”角色 分配完全管理权限,并为“读取者”角色分配仅查看访问权限。 当内置角色超出所需权限时,创建自定义 RBAC 角色。 通过权限限制防止未经授权的配置更改。 通过实施最低特权原则,减少已泄露帐户的影响。 支持通过基于角色的作业职能分离职责。
选择虚拟 WAN 标准 SKU 以部署安全解决方案。 在虚拟中心部署 Azure 防火墙 或合作伙伴安全解决方案,以便进行集中筛选。 使用 路由意图 自动通过安全解决方案路由流量。 使用 Internet 流量路由意图进行出站流量检查。 通过集中式安全中心和分布式辐射状控制实现流量筛选。 支持通过分支 NSG 管理特定工作负荷的控制。 提供在适当体系结构层实现控件的灵活性。
在辐射虚拟网络中的子网上实现 NSGs ,以便进行子网级筛选。 部署用于应用程序和威胁检查的中心安全解决方案。 使用分支 NSG 根据 IP 地址、端口和协议进行网络级筛选。 Spoke NSG 提供针对工作负载的细化控制,以强化中心安全策略。 此分层方法支持针对所需流量的显式允许规则,并强制实施默认拒绝状态。 它减少了攻击面,并限制了入侵后的横向移动。
在虚拟 WAN 资源、虚拟中心、VPN 网关、ExpressRoute 网关、点到站点网关和 Azure 防火墙上启用 诊断设置 。 打开日志类别,包括 AllMetrics、GatewayDiagnosticLog、TunnelDiagnosticLog、RouteDiagnosticLog 和 IKEDiagnosticLog。

将日志路由到 Log Analytics 工作区进行集中收集。 生成面向安全相关事件的查询,例如身份验证失败、连接异常和配置更改。
通过分析可疑活动和异常行为,支持安全事件检测。 通过将事件长期保留来支持合规性和审计要求。 提供安全事件调查的取证证据。
为安全相关的指标(例如 VPN 网关连接状态、ExpressRoute 线路状态、BGP 对等状态和带宽利用率异常)创建 指标警报 。 根据正常运营的已建立基线指标设置警报阈值。 使用操作组将警报路由到安全操作或自动响应系统。 支持快速检测指示安全问题或拒绝服务的连接故障。 标识指示数据外泄的带宽异常。 提供对影响分段的 BGP 路由问题的早期检测。
将 Microsoft Sentinel 连接到接收虚拟 WAN 日志的 Log Analytics 工作区。 在 Microsoft Sentinel 中打开 Azure 防火墙数据连接器

为虚拟 WAN 威胁方案创建分析规则,例如异常 VPN 身份验证模式、异常流量量和防火墙策略冲突。 创建自动化事件响应的手册,用于执行阻止可疑源IP地址和被入侵的VPN用户等操作。
通过机器学习和行为分析提供高级威胁检测。 将虚拟 WAN 安全事件与组织安全遥测相关联。 提供安全运营团队的统一监视。

成本优化

成本优化侧重于 检测支出模式、优先考虑关键领域的投资,以及优化其他 以满足组织预算,同时满足业务需求。

成本优化设计原则提供了一套高级设计策略,以实现这些目标,同时在与虚拟 WAN 及其环境相关的技术设计中根据需要做出权衡。

工作负荷设计清单

根据投资的成本优化设计评审核对清单开始实施您的设计策略。 微调设计,使工作负荷与为工作负荷分配的预算保持一致。 设计应使用正确的 Azure 功能,监视投资,并查找随时间推移进行优化的机会。

  • 了解用于创建准确成本模型的定价结构: 虚拟 WAN 定价具有固定组件和可变组件。 固定成本包括 SKU 选择以及分配的缩放和连接单位。 可变成本包括数据传输费用和启用功能。

    数据传输成本表示重大可变支出。 跨区域的中心到中心传输将会产生跨区域费用,而中心路由器的处理会导致中心数据处理成本。 在部署之前估算固定成本和可变成本,以避免预算意外。

  • 监视成本和中心利用率,以持续优化: 实现虚拟 WAN 支出的每日成本跟踪。 专注于中心数据处理费用、网关连接使用情况和跨区域数据传输成本。

    使用标记进行成本分配,按业务部门或应用程序组织资源。 实施费用回退或成本回传报告。 根据预算监视支出,以提前检测意外增长。

  • 使用预算和警报建立支出防护措施: 实施预算和警报以防止意外支出。 为预算用完前的早期警告设置分级警报阈值。

    跟踪直接影响可变成本的指标。 监控中心路由器的流量,以了解中心的数据处理费用以及与容量成本相关的连接单位使用情况。

    应用治理策略以防止未经授权的成本增加。 在添加容量之前,使用 Azure Policy 要求对高成本变更进行审批,并强制进行评审。

  • 根据实际工作负荷要求对基础结构容量进行权限化: 根据实际工作负荷需求调整路由基础结构单元的大小,而不是最大理论容量。 每个单元都会增加虚拟机(VM)容量和成本。

    无论流量如何,每个中心都会产生固定的每月成本。 仅当连接要求证明成本合理的情况下,才添加中心。 根据实际吞吐量要求调整网关规模单位。 跟踪使用情况模式,并在监视显示持续的需求变化时调整容量。

  • 选择经济高效的连接类型和集成的服务 SKU: 站点到站点 VPN 为较低的带宽和非关键连接提供经济高效的连接。 ExpressRoute 以更高的成本提供更高的性能。 点到站点 VPN 支持具有不同成本特征的远程用户。

    将 VPN 用于开发和测试环境,其成本较低,可证明可变性能。 将 ExpressRoute 用于需要一致带宽和可靠性的生产工作负荷。 实现混合方法,这些方法通过 VPN 路由常规流量,并通过 ExpressRoute 定向业务关键型应用程序。

  • 优化路由以最大程度地降低数据传输成本: 流量模式直接影响可变成本。 跨区域的中心到中心通信会产生跨区域费用。 中心路由器处理增加了中心数据处理的成本。

    优化路由拓扑,在不牺牲连接的情况下降低成本。 使用直接虚拟网络对等互连进行辐射到辐射的通信,以绕过中心的处理费用。 根据主要流量模式评估中心位置,以尽量减少跨区域传输费用。 根据安全性和路由策略要求平衡成本优化。

  • 制定经济高效的增长缩放策略: 规划中心放置,以平衡延迟要求与成本。 将中心定位到用户群体附近,以减少延迟并避免中心计数过多。 合并可接受的延迟阈值允许的区域。

    根据实际带宽要求而不是理论容量优化连接单元分配。 监视利用率,确定需求波动时优化机会。

配置建议

建议 益处
在实施之前,使用 Azure 定价计算器 为部署成本建模。 跨区域设置预期中心,选择具有适当缩放单元的连接类型,并估算每月数据传输量。 估算带宽需求以确定网关扩展单元。 根据预期的 VM 工作负荷和吞吐量需求计算路由基础结构单元中的最小中心容量。 通过准确的成本估算支持预算规划和审批。 在部署之前,预计数据传输和集线器处理可能产生的可变成本。
将标记应用于虚拟 WAN 中心、VPN 网关、ExpressRoute 网关和连接。 使用一致的命名约定,例如业务部门、应用程序名称、环境或成本中心。 使用 Azure Policy 在资源创建时强制实施强制标记。 创建Microsoft成本管理报表,以按标记值聚合和筛选成本。 使用带标记的成本数据进行退款或回发到业务部门。 为业务部门或应用程序提供准确的成本分配。 支持内部成本恢复和部门问责的退款模型。
使用 Azure Monitor 持续收集中心路由器流量指标。 创建一段时间内可视化趋势的工作簿或仪表板。 建立基线流量模式,以识别正常行为与异常行为。

使用流量数据确定优化机会。 检测可以使用直接对等连接而非中心路由的高容量辐射到辐射流量、需要调查的意外流量高峰或因低效路由模式增加中心处理成本的情况。
支持基于实际流量模式的数据驱动优化决策。 支持通过流量趋势跟踪进行成本预测。
根据成本模型预测为虚拟 WAN 资源组或订阅创建 成本管理预算 。 将警报阈值设置为 90%、100%和 110%。 将利益相关者的电子邮件地址或操作组分配到每个阈值,以接收警报。

在中心路由器流量量接近与预算问题相关的级别时,针对中心路由器流量创建指标警报。 分析历史模式,以在流量达到预算关键级别之前建立基线并设置警报阈值。
主动通知可防止意外成本溢出,并支持在成本超出预算之前及时干预。 为了更好地管理成本,提供对虚拟 WAN 支出模式更深入的可见性。
将虚拟中心路由基础结构单元设置为足以满足当前工作负荷的最低级别。 使用基线容量而不是预期的峰值,以保守方式开始。 每个单元都支持特定的 VM 计数和 吞吐量容量。 设置 VPN 网关缩放单元 以匹配预期的站点到站点吞吐量,每个单元每秒提供 500 兆比特(Mbps)容量。

将 ExpressRoute 网关缩放单元设置为符合连接需求,每个单元每秒提供 2 千兆位(Gbps)带宽。 在计划的维护时段内安排容量调整。 当监控显示利用率接近上限时增加容量,或当监控显示利用率一直较低时减少容量。
将容量与实际工作负荷对齐来优化集线器成本,从而防止因过多的单元分配而造成的过度配置浪费。 保持足够的容量以满足性能要求,而无需过多的支出。
评估每个站点、分支或连接终结点的连接要求,根据工作负荷关键性和性能需求确定适当的连接类型。 将 站点到站点 VPN 连接 用于开发环境、测试工作负载、非生产方案、备份连接路径或不需要有保证 SLA 的中等带宽要求。

对需要保证带宽的任务关键型生产工作负荷使用 ExpressRoute 连接 。 使用 VPN 连接和 ExpressRoute 相结合来实现混合连接。 通过 VPN 路由常规连接,并通过 ExpressRoute 定向关键应用程序流量。
通过适当使用低成本 VPN 选项来降低连接成本。 维护关键工作负荷的性能和可靠性。 使用 VPN 连接来支持非关键业务的增长,实现经济高效的扩展。
评估特定虚拟网络到虚拟网络的流量流是否需要中心介导的路由,可以通过确定是否需要集中式路由策略实施,或是否需要进行 Azure 防火墙或 NVA 检查。

在具有大容量通信且不需要中心处理的虚拟网络之间使用 直接虚拟网络对等互连 。 在源虚拟网络和目标虚拟网络之间创建对等互连连接,更新路由表以使用对等互连而不是中心路由器,并通过直接路径验证连接。
通过将中心路由器从虚拟网络到虚拟网络的流量路径中移除,从而减少中心的数据处理成本。 改善对等虚拟网络的网络延迟性能并节省资金。

卓越运营

卓越运营主要侧重于 开发实践、可观测性和发布管理的各个过程。

卓越运营设计原则 提供了一个高级设计策略,用于实现这些运营需求目标。

工作负荷设计清单

根据 卓越运营的设计评审清单 启动设计策略,以定义与虚拟 WAN 相关的可观测性、测试和部署过程。

  • 实现基础结构即代码(IaC),以实现一致的部署: 使用 Azure 资源管理器模板(ARM 模板)、Bicep 或 Terraform 跨环境进行可重复的虚拟 WAN 部署。 ARM 模板和 Bicep 提供原生 Azure 集成。 Terraform 支持多云方案。

  • 设计模块化 IaC 模板: 将核心中心基础结构与连接策略和路由规则分开。 核心基础结构更改不常见,路由规则会更频繁地更改。 参数化特定于环境的值,如缩放单元和地址空间。

  • 协调资源依赖项: 按照正确顺序进行操作,因为网关需要集线器,连接需要网关,路由策略需要连接。 在标记部署完成之前,请在自动化流程中加入等待条件,以验证路由传播。

  • 建立用于自动化的生成和部署管道: 设计阶段分离的部署管道,以便进行验证、审批和部署。 在各阶段之间实施质量关卡,以阻止有问题的更改。

    包括用于语法检查、策略符合性和安全规则验证的静态验证。 针对组织标准实施配置验证的预部署测试。

  • 实现对拓扑、服务和依赖项的监视: 跨拓扑、服务运行状况和作遥测建立完整的可见性。 监视全球枢纽分布、分支连接和网关运行状态。

    为吞吐量利用率和连接计数收集网关性能指标。 跟踪隧道可用性的连接可靠性指标。 监视路由传播状态的运行状况指标。

    设计基于角色的操作视图。 为运营团队创建实时的健康仪表板,为架构师提供容量趋势视图。 设置数据保留期,以平衡历史调查与存储成本的需求。

  • 为连接和性能问题创建警报: 针对影响操作的故障情景设计警报。 目标连接失败,导致用户访问中断、性能降低导致应用程序变慢,以及指示错误的配置异常。

    定义特定的可度量条件,例如隧道断开连接、网关 CPU 饱和度超过安全阈值,以及意外的路由更改。 在早期检测和警报疲劳之间平衡警报阈值。 建立与警报严重性匹配且具有适当紧迫性的通知路由。

  • 自动执行作任务和连接验证: 自动执行重复的虚拟 WAN 任务,例如连接状态验证和多Hub 配置更新。 自动化处理时间紧迫的操作以减少手动工作量。

    实现常规健康检查任务的自动化计划。 使用事件驱动的自动化进行配置偏移修正。 创建操作员可按需运行的验证脚本和故障排除工具。

    使用虚拟 WAN 原生自动化功能,包括自动路由播发、跨中心基础设施的路由传播,以及响应负载模式的网关自动缩放。

  • 实施渐进式部署做法: 先部署到开发,然后再部署到过渡,并在每个步骤中验证。 在部署之前运行静态配置验证和策略符合性检查。 在部署之后进行冒烟测试,以验证网关的可达性和连接的建立。

  • 建立回滚功能: 在 IaC 存储库中维护配置版本控制。 记录用于还原网关设置和路由策略的回滚程序。 将例程部署与紧急情况分开。 通过审批和完全验证来处理路由规律的变更。 允许紧急情况跳过扩展审批,同时仍验证语法。

配置建议

建议 益处
ARM 模板Bicep 用于虚拟 WAN 基础结构部署。 定义用于分隔资源类型的模块化模板,例如中心、VPN 和 ExpressRoute 网关、连接和路由策略。

参数化特定于环境的值,例如中心地址空间、网关缩放单元、连接设置和路由首选项。 将 Azure CLI 或 Azure PowerShell 与特定于环境的参数文件配合使用来部署模板。 使用持续集成和持续交付(CI/CD)管道集成将模板存储在版本控制中。
通过声明性语法确保配置一致。 跟踪更改并支持通过版本控制回滚。 使用参数化跨环境部署相同的体系结构。
使用 Azure PipelinesGitHub Actions 创建用于虚拟 WAN 部署自动化的 CI/CD 管道。 定义具有用于验证、开发部署和生产部署的独立阶段的多阶段管道。

使用 ARM 模板验证、Azure Policy 符合性检查和安全扫描设置验证阶段。 在生产部署之前添加需要手动审批的审批入口。 使用特定于环境的参数和服务连接定义部署阶段。
减少手动工作量,并通过自动化消除人为错误。 使用审批入口防止有问题的更改到达生产。 支持通过部署历史记录进行合规性和事件调查。
使用适用于虚拟 WAN 的 Azure Monitor Insights 访问集成的拓扑可视化和 指标工作簿。 收集网关吞吐量、连接计数、BGP 对等状态和路由表运行状况的指标。

根据监视要求设置指标收集间隔和聚合粒度。 对于长期分析,请将指标导出到 Log Analytics 工作区,以便保留期超过默认 93 天。
该系统在各地区和枢纽之间提供统一的可视性。 通过内置仪表板提供即时价值,而无需进行自定义开发。 支持通过历史数据快速诊断和容量规划。
为虚拟 WAN 中心、VPN 网关和 ExpressRoute 网关资源启用 诊断设置 。 收集 GatewayDiagnosticLog、TunnelDiagnosticLog、RouteDiagnosticLog 和 IKEDiagnosticLog 类别的日志。 将日志发送到 Log Analytics 工作区进行集中分析。

使用 Azure 仪表板工作簿 创建运营仪表板,以可视化网关状态、连接计数、错误趋势和吞吐量指标。 为操作监控需求设置仪表板刷新间隔和时间范围。
支持通过详细遥测进行有效的故障排除。 通过捕获网关事件和状态变更来提供操作可见性。 通过变更文档支持审核和合规需求。
为虚拟 WAN 网关和中心资源创建 指标警报规则 。 为 VPN 网关指标设置警报条件,例如 TunnelEgressPacketDropCount、TunnelIngressPacketDropCount 和 TunnelBandwidth 阈值。 设置 ExpressRoute 网关警报,当 BitsInPerSecond 和 BitsOutPerSecond 接近线路容量时触发。

为 PacketCount 减少和 RoutingState 更改创建虚拟 WAN 枢纽警报,以指示路由传播问题。 创建指定通知方法的操作组,例如电子邮件、短信(SMS)或 Webhook。 根据警报严重性分配收件人。

设置警报评估频率和回溯窗口,以平衡检测延迟与警报准确性。 此方法可防止误报过多,并及时维护问题检测。
通过快速检测连接或性能问题,最大程度地减少业务影响。 在严重故障之前提供早期警告。 通过历史警报数据支持根本原因分析和主动容量规划。
使用 Azure 网络观察者连接监视器 在虚拟 WAN 基础结构上进行自动连接测试。 定义包含中心到中心、中心到辐射和本地路径的源终结点和目标终结点的测试组。

定义测试参数,例如传输控制协议(TCP)或 Internet 控制消息协议(ICMP)、端口号、探测频率和成功阈值。 为超过可接受的限制的测试失败和延迟设置警报阈值。 将结果与操作仪表板集成,以便持续可见连接性。
持续验证在影响用户之前检测到连接问题。 自动测试会验证所有路径并立即识别失败。

端到端测试验证完整的连接性,包括路由和网络路径。 与反应式用户报告相比,此方法减少了平均检测时间(MTTD)。
为重复的虚拟 WAN 任务创建 Azure 自动化运行手册。 示例包括监视容量指标和更新配置的网关扩展自动化、用于批量操作的 VPN 站点管理,以及检查网关状态和路由表的健康状况验证。

使用计划触发器来调用 Runbook,以执行常规任务或使用基于 Azure Monitor 警报的事件驱动触发器。

使用 Azure Policy 进行偏移检测和自动修正。 定义验证网关 SKU 符合性、诊断设置和网络安全规则的策略。 使用 DeployIfNotExists 或 Modify 效果设置 自动修正
消除耗时的重复任务。 统一在枢纽和网关中应用标准。 提供对运营事件的主动维护和响应。 通过偏移修正维护所需状态并降低配置错误的风险。
为 VPN 和 ExpressRoute 网关定义 客户控制的维护 时段。 定义与低流量时段一致的一周、开始时间和持续时间的维护计划。 将日程分别应用于网关,或在集线器之间交错应用它们。

CI/CD 管道中使用分阶段部署。 首先将部署到开发和测试环境,并进行连接验证。 然后部署到第一个生产中心。 在扩展到剩余集线器之前,请监视集线器一段时间。

通过 IaC 版本控制维护回滚功能。 使用 Git 存储库中的回滚标记维护以前的配置版本。 使用以前的 ARM 模板版本和参数文件执行回滚操作。 考虑使用蓝绿部署模式进行即时流量转移。
可预测的维护时间可减少计划外中断风险。 在计划好的时间段进行维护可以与应用程序团队进行协调。

分阶段部署会在问题影响到生产之前检测出开发中的问题。 自动回滚支持即时恢复,蓝绿模式支持即时流量转移。

性能效率

性能效率就是通过管理容量来保持用户体验,即使负载增加也不例外。 该策略包括缩放资源、识别和优化潜在瓶颈,以及优化峰值性能。

性能效率设计原则 提供了一个高级设计策略,用于根据预期使用量实现这些容量目标。

工作负荷设计清单

根据 性能效率的设计评审清单 ,根据虚拟 WAN 的关键绩效指标定义基线,启动设计策略。

  • 对组件执行容量规划: 通过评估 VPN 和 ExpressRoute 网关、中心路由器和路由基础结构来规划虚拟 WAN 容量。 首先估算每个隧道的 VPN 网关吞吐量,因为所有活动隧道共享总网关容量。

    监视网关和中心路由器的当前利用率,以建立性能基线。 使用这些基线准确预测将来的容量需求。 在容量计划中包括高峰流量方案、预期的业务增长和计划内站点连接。

  • 实现性能监视: 为每个虚拟 WAN 组件实现性能监视,以保持最佳作。 在正常作期间建立性能基线,以识别典型行为并检测偏差。

    监视数据支持容量规划计划,并在性能下降之前识别优化机会。 跟踪一段时间内的性能趋势有助于预测未来的要求并主动规划基础结构更改。

  • 可缩放体系结构的设计: 在要求超出每个中心限制时,通过在区域内添加中心来规划水平缩放。 设计路由基础结构,以支持预期的中心间和辐射间流量,同时平衡性能要求和成本考量。

    通过性能监视和容量利用率分析来验证缩放有效性,以确保体系结构在需求不断发展时满足业务需求。

  • 建立性能测试做法: 性能测试做法需要部署与生产配置匹配的不生产虚拟 WAN 环境进行验证。 在生产部署之前测试路由配置、连接方案和功能激活,以确保最佳性能。

    使用测试来验证分支到 Azure、分支到分支以及虚拟网络到虚拟网络的流量模式性能。 评估高峰流量和并发连接负载下的网关性能。 在实施更改以防止生产环境中出现性能问题之前,将测试结果与性能目标和基线进行比较。

  • 优化中心放置以降低延迟: 通过在靠近用户群体和分支机构位置的区域定位中心来优化中心位置,以最大程度地减少网络延迟。 针对主流流量模式(例如分支到 Azure、分支到分支或虚拟网络到虚拟网络连接)优化枢纽节点的放置。 考虑跨区域流量要求和中心间连接性能。

  • 优化性能配置: 通过根据带宽要求和流量预测评估 VPN 和 ExpressRoute 网关容量来评估网关大小调整策略。 在选择适当的网关 SKU 时,考虑高峰流量方案和预期业务增长。

    选择 IPsec 加密算法,以平衡安全要求与网关 CPU 效率。 设计路由路径首选项以优化业务关键型流量模式。 请考虑不同路由选项的性能特征,例如虚拟网络到虚拟网络方案的中心到中心路径与 ExpressRoute 路径。

  • 验证路由以排查性能问题: 设计作过程,验证跨混合网络组件的路由学习和传播。 记录与路由相关性能问题的故障排除工作流。 应用路由事件的结果,以改善监视和预防措施。

  • 持续监视和优化容量: 建立在需求发展时保持性能的主动做法。 设计包括定期性能评审的主动容量管理方法。 在利用率达到限制之前规划容量调整,以避免对性能产生负面影响。 此方法将容量优化与业务增长和不断变化的连接模式保持一致。

配置建议

建议 益处
为中心路由器、ExpressRoute 网关和 VPN 网关组件启用 本机 Azure Monitor 指标。 使用适当的保留期收集吞吐量指标、连接运行状况指示器、带宽利用率、数据包丢失率和延迟度量。

设置指标保留期以支持历史趋势分析和容量规划要求。 为关键性能阈值(包括网关吞吐量限制和中心容量约束)创建警报规则。
在影响用户之前标识性能瓶颈。 支持通过历史数据规划容量。 通过原生的 Azure Monitor 集成简化监视。
根据计算的中心间和边缘到边缘吞吐量要求,在中心部署中设置路由结构单元。 当流量量超过单个中心限制或需要不同的路由配置时,在同一区域中部署多个中心。 防止中心间和辐射型连接中的瓶颈。 支持预期流量,且无需过度配置。 通过权限化基础结构支持经济高效的性能。
确定用户、分支机构和本地数据中心的地理分布,以便以最佳方式定位中心,以实现最高容量和最关键的流量模式。 测试网络路径延迟,以在部署之前验证区域选择。 当人口跨越大型地理区域时评估多区域部署。 最大程度地减少用户和应用程序的网络延迟。 提高应用程序性能和用户体验。 减少关键工作负荷的网络往返时间。
根据发散到发散流量的主要连接类型和性能要求,将 中心路由首选项 设置为 ExpressRouteVPN 网关AS Path。 当 ExpressRoute 线路在辐射虚拟网络之间提供较低的延迟路径时,请选择 ExpressRoute

在生产部署之前,在非生产环境中测试所选的路由首选项。
减少关键连接方案的延迟。 提供高效的流量路径选择。 提高中心间和辐射流量的吞吐量效率。
为站点到站点 VPN 连接 自定义 IPsec 策略上的 IPsec 加密和 IPsec 完整性参数设置GCMAES256算法。 在创建连接期间,将具有GCMAES256设置的自定义 IPsec 策略应用于 VPN 连接。 减少 VPN 网关上的 CPU 开销,并支持 VPN 站点到站点连接上的更高吞吐量。 维护安全性和最大化网关容量利用率,以提高性能。
监视虚拟中心路由表中的有效路由。 验证预期路由是否存在,并从连接的资源中正确获取。 监视 VM 网络接口卡(NIC)有效路由,以确认 VM 从虚拟 WAN 中心接收正确的路由。

验证来自本地 BGP 路由器的路由通告是否通过预期指标到达虚拟 WAN 中心。 为路由异常创建 Azure Monitor 警报,例如缺少预期的路由或路由指标更改。
在路由问题影响用户之前识别路由问题,并减少解决连接和性能问题的平均时间(MTTR)。 通过主动监控,防止由于路由配置错误导致的性能下降。
监视 VPN 网关 吞吐量指标和 ExpressRoute 网关 吞吐量指标。 跟踪利用率是否超出网关 SKU 的容量限制。 监视连接计数、每秒数据包速率和活动隧道指标,以确定容量约束。

设置 70% 容量的利用率阈值警报,以便触发网关重新调整大小的评估。 当持续使用率超过 80% 容量时,或在性能下降期间,调整网关 SKU 大小。
随着使用量的增长,主动容量管理会保持网络性能。 随着流量模式的变化,保持一致的连接速度和应用程序响应时间。

70% 容量时的早期检测为计划好的维护时段内规划网关升级提供了时间。 防止性能突然下降,迫使进行紧急变更和干扰用户体验。 监视连接计数和数据包速率可以帮助您在容量趋势成为问题之前识别它们。

Azure Policy

Azure 提供了一组与虚拟 WAN 及其依赖项相关的大量内置策略。 可以通过 Azure Policy 审核上述一些建议。 例如,可以检查以下情况:

  • Azure 防火墙保护虚拟中心进行集中安全检查。
  • VPN 网关避免使用基本 SKU,因为它缺乏可靠性和性能功能。
  • 点到站点 VPN 连接使用 Microsoft Entra ID 身份验证来提高安全性。

若要进行全面的治理,请查看 虚拟 WAN 的 Azure Policy 内置定义 ,以及可能影响网络基础结构安全性的其他策略。

Azure 顾问建议

Azure 顾问是一名个性化的云顾问,可帮助你遵循最佳做法来优化 Azure 部署。

有关详细信息,请参阅 Azure 顾问

示例体系结构

演示主要建议的基础架构:使用虚拟 WAN 的中心辐射式网络拓扑