你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
监视 Azure 虚拟 WAN
本文介绍:
- 可以为此服务收集的监视数据的类型。
- 分析这些数据的方法。
如果具有依赖于 Azure 资源的关键应用程序和业务流程,则需要监视并获取系统的警报。 Azure Monitor 服务会从系统的每个组件收集并聚合指标和日志。 Azure Monitor 提供可用性、性能和复原能力视图,并在出现问题时向你发送通知。 可以使用 Azure 门户、PowerShell、Azure CLI、REST API 或客户端库来设置和查看监视数据。
- 有关 Azure Monitor 的详细信息,请参阅 Azure Monitor 概述。
- 有关监视 Azure 资源的常规方法的详细信息,请参阅使用 Azure Monitor 监视 Azure 资源。
洞察力
Azure 中的某些服务在 Azure 门户中具有内置的监视仪表板,可以从此入手来监视服务。 这些仪表板称为“见解”,可以在 Azure 门户的 Azure Monitor 的“见解中心”找到它们。
虚拟 WAN 使用 Azure Monitor 见解使用户和操作员能够查看通过自动发现的拓扑映射显示的虚拟 WAN 的状态。 资源状态和在映射上的状态覆盖为你提供了虚拟 WAN 整体运行状况的快照视图。 可以通过对虚拟 WAN 门户资源配置页使用一键式访问,在映射上导航资源。 有关详细信息,请查看虚拟 WAN 的 Azure Monitor 网络见解。
资源类型
Azure 使用资源类型和 ID 的概念来标识订阅中的所有内容。 资源类型也是 Azure 中运行的每个资源的资源 ID 的一部分。 例如,虚拟机的一种资源类型是 Microsoft.Compute/virtualMachines
。 有关服务及其关联资源类型的列表,请参阅资源提供程序。
同样的,Azure Monitor 根据资源类型(也称为“命名空间”)将核心监视数据组织为指标和日志。 不同的指标和日志可用于不同的资源类型。 服务可能与多种资源类型关联。
有关虚拟 WAN 的资源类型的详细信息,请参阅 Azure 虚拟 WAN 监视数据参考。
数据存储
对于 Azure Monitor:
- 指标数据存储在 Azure Monitor 指标数据库中。
- 日志数据存储在 Azure Monitor 日志存储中。 Log Analytics 是 Azure 门户中可以查询此存储的工具。
- Azure 活动日志是一个单独的存储区,在 Azure 门户中有自己的接口。
可以选择将指标和活动日志数据路由到 Azure Monitor 日志存储。 然后,可以使用 Log Analytics 查询数据并将其与其他日志数据关联。
许多服务可以使用诊断设置将指标和日志数据发送到 Azure Monitor 外部的其他存储位置。 示例包括 Azure 存储、托管的合作伙伴系统和使用事件中心的非 Azure 合作伙伴系统。
有关 Azure Monitor 如何存储数据的详细信息,请参阅 Azure Monitor 数据平台。
Azure Monitor 平台指标
Azure Monitor 为大多数服务提供平台指标。 这些指标是:
- 针对每个命名空间单独定义。
- 存储在 Azure Monitor 时序指标数据库中。
- 是轻型数据,并且能够支持准实时警报。
- 用于跟踪资源随时间推移的性能变化。
集合:Azure Monitor 会自动收集平台指标。 不需要任何配置。
路由:还可将某些平台指标路由到 Azure Monitor 日志/Log Analytics,从而可以使用其他日志数据对其进行查询。 检查每个指标的“DS 导出”设置,查看是否可以使用诊断设置将指标路由到 Azure Monitor 日志/Log Analytics。
- 有关详细信息,请参阅指标诊断设置。
- 要为服务配置诊断设置,请参阅在 Azure Monitor 中创建诊断设置。
有关可以为 Azure Monitor 中的所有资源收集的所有指标的列表,请参阅 Azure Monitor 中支持的指标。
有关虚拟 WAN 可用指标的列表,请参阅 Azure 虚拟 WAN 监视数据参考。
可以使用 Azure 门户查看虚拟 WAN 的指标。 以下步骤可帮助你查找和查看指标:
选择“监视网关”,然后选择“指标”。 还可以选择底部的“指标”,以查看对于站点到站点和点到站点 VPN 最重要指标的仪表板。
在“指标”页上,可以查看指标。
若要查看虚拟中心路由器的指标,可以从虚拟中心“概述”页中选择“指标”。
有关详细信息,请参阅分析 Azure 资源的指标。
PowerShell 步骤
可以使用 PowerShell 查看虚拟 WAN 的指标。 若要进行查询,请使用以下示例 PowerShell 命令。
$MetricInformation = Get-AzMetric -ResourceId "/subscriptions/<SubscriptionID>/resourceGroups/<ResourceGroupName>/providers/Microsoft.Network/VirtualHubs/<VirtualHubName>" -MetricName "VirtualHubDataProcessed" -TimeGrain 00:05:00 -StartTime 2022-2-20T01:00:00Z -EndTime 2022-2-20T01:30:00Z -AggregationType Sum
$MetricInformation.Data
- 资源 ID。 可在 Azure 门户找到虚拟中心的资源 ID。 导航到 vWAN 中的“虚拟中心”页,然后选择“基本信息”下的“JSON 视图”。
- 指标名称。 指要查询的指标的名称,在本例中称为
VirtualHubDataProcessed
。 此指标显示虚拟中心路由器在中心的选定时间段处理的所有数据。 - 时间粒度。 指想要查看聚合的频率。 在当前命令中,每 5 分钟会看到一个选定的聚合单元。 可以选择 - 5 分钟/15 分钟/30 分钟/1 小时/6 小时/12 小时和 1 天。
- 开始时间和结束时间。 这时间是基于 UTC 的。 请确保在输入这些参数时输入 UTC 值。 如果未使用这些参数,则默认显示过去一小时的数据。
- 总和聚合类型。 此总和聚合类型显示所选时间段内遍历虚拟中心路由器的字节总数。 例如,如果时间粒度设置为 5 分钟,则每个数据点将对应于 5 分钟时间间隔内发送的字节数。 若要将此值转换为 Gbps,可以将此数字除以 37500000000。 根据虚拟中心的容量,中心路由器可支持 3 Gbps 至 50 Gbps。 此时“最大值”和“最小值”聚合类型没有意义。
Azure Monitor 资源日志
借助资源日志,可以深入了解 Azure 资源已执行的操作。 日志是自动生成的,但必须将日志路由到 Azure Monitor 日志以保存或查询它们。 日志按类别进行组织。 给定的命名空间可能具有多个资源日志类别。
收集:在创建诊断设置并将日志路由到一个或多个位置之前,不会收集和存储资源日志。 创建诊断设置时,请指定要收集的日志类别。 可以通过多种方式创建和维护诊断设置,包括 Azure 门户、编程方式以及通过 Azure Policy。
路由:建议的默认设置是将资源日志路由到 Azure Monitor 日志,以便可以使用其他日志数据查询它们。 也可使用其他位置(例如 Azure 存储、Azure 事件中心和某些 Microsoft 监视合作伙伴)。 有关详细信息,请参阅 Azure 资源日志和资源日志目标。
有关收集、存储和路由资源日志的详细信息,请参阅 Azure Monitor 中的诊断设置。
有关 Azure Monitor 中所有可用资源日志类别的列表,请参阅 Azure Monitor 中支持的资源日志。
Azure Monitor 中的所有资源日志都具有相同的标头字段,后跟特定于服务的字段。 Azure Monitor 资源日志架构概述了常见架构。
有关可用的资源日志类别、其关联的 Log Analytics 表以及虚拟 WAN 的日志架构,请参阅 Azure 虚拟 WAN 监视数据参考。
架构
有关顶级诊断日志架构的详细说明,请参阅 Azure 诊断日志支持的服务、架构和类别。
通过 Log Analytics 查看任何指标时,输出包含以下列:
列 | 类型 | 说明 |
---|---|---|
TimeGrain | 字符串 | PT1M(每分钟推送一次指标值) |
Count | real | 通常等于 2(每个 MSEE 每分钟推送一个指标值) |
最低配置 | real | 两个 MSEE 推送的两个指标值中的最小值 |
最大值 | real | 两个 MSEE 推送的两个指标值中的最大值 |
平均值 | real | 等于 (最小值 + 最大值)/2 |
总计 | real | 来自两个 MSEE 的两个指标值的总和(所查询指标的需关注的主要值) |
创建用于查看日志的诊断设置
以下步骤可帮助你创建、编辑和查看诊断设置:
在门户中,导航到虚拟 WAN 资源,然后在“连接”组中选择“中心”。
在左侧的“连接性”组下,选择要检查其诊断的网关:
在页面右侧,选择“监视网关”,然后单击“日志”。
在此页中,可以创建新的诊断设置(“+ 添加诊断设置”)或编辑现有诊断设置(“编辑设置”)。 可以选择将诊断日志发送到 Log Analytics(如以下示例所示)、流式传输到事件中心、发送到第 3 方解决方案或存档到存储帐户。
单击“保存”后,应该会在几个小时内开始看到日志出现在此 Log Analytics 工作区中。
若要监视安全中心(使用 Azure 防火墙),则必须通过访问“诊断设置”选项卡完成诊断和日志记录配置:
重要
启用这些设置需要额外的 Azure 服务(存储帐户、事件中心或 Log Analytics),这可能会增加成本。 若要估算成本,请访问 Azure 定价计算器。
监视受保护的中心(Azure 防火墙)
如果已选择使用 Azure 防火墙保护虚拟中心,则可访问以下链接了解相关的日志和指标:Azure 防火墙日志和指标。
可以使用 Azure 防火墙日志和指标监视受保护的中心。 此外,可以使用活动日志来审核对 Azure 防火墙资源执行的操作。 对于安全并转换为安全中心的每个 Azure 虚拟 WAN,Azure 防火墙都会创建一个显式防火墙资源对象。 该对象位于中心所在的资源组中。
Azure 活动日志
活动日志包含订阅级事件,这些事件跟踪从资源外部看到的每个 Azure 资源的操作;例如,创建新资源或启动虚拟机。
收集:活动日志事件会自动生成并收集在单独的存储中,以便在 Azure 门户中查看。
路由:可将活动日志数据发送到 Azure Monitor 日志,以便可以将它们与其他日志数据一起进行分析。 也可使用其他位置(例如 Azure 存储、Azure 事件中心和某些 Microsoft 监视合作伙伴)。 有关如何路由活动日志的详细信息,请参阅 Azure 活动日志概述。
分析监视数据
有许多工具可用于分析监视数据。
Azure Monitor 工具
Azure Monitor 支持以下基本工具:
指标资源管理器,它是 Azure 门户中的工具,可用于查看和分析 Azure 资源的指标。 有关详细信息,请参阅使用 Azure Monitor 指标资源管理器分析指标。
Log Analytics,它是 Azure 门户中的一种工具,支持使用 Kusto 查询语言 (KQL) 来查询和分析日志数据。 有关详细信息,请参阅 Azure Monitor 日志查询入门。
活动日志,它在 Azure 门户中具有用于执行查看和基本搜索的用户界面。 要进行更深入的分析,必须将数据路由到 Azure Monitor 日志,并在 Log Analytics 中运行更复杂的查询。
支持更复杂可视化效果的工具包括:
- 仪表板,它支持将不同类型的数据合并到 Azure 门户的单个窗格中。
- 工作簿,它们是可在 Azure 门户中创建的可自定义报表。 工作簿可以包括文本、指标和日志查询。
- Grafana,它是一个适用于操作仪表板的开放平台工具。 可以使用 Grafana 创建包含来自除 Azure Monitor 以外多个源的数据的仪表板。
- Power BI,它是一项业务分析服务,可提供跨各种数据源的交互式可视化效果。 可将 Power BI 配置为自动从 Azure Monitor 导入日志数据,以利用这些可视化效果。
Azure Monitor 导出工具
可以使用以下方法将数据从 Azure Monitor 中提取到其他工具中:
指标:使用适用于指标的 REST API 从 Azure Monitor 指标数据库提取指标数据。 API 支持使用筛选表达式优化检索到的数据。 有关详细信息,请参阅 Azure Monitor REST API 参考。
日志:使用 REST API 或关联的客户端库。
另一个选项是工作区数据导出。
要开始使用适用于 Azure Monitor 的 REST API,请参阅 Azure 监视 REST API 演练。
Kusto 查询
可使用 Kusto 查询语言 (KQL) 来分析 Azure Monitor 日志/Log Analytics 存储中的监视数据。
重要
在门户的服务菜单中选择“日志”时,会打开 Log Analytics,并且其查询范围设置为当前服务。 此范围意味着日志查询将仅包含来自该资源类型的数据。 如果希望运行的查询包含来自其他 Azure 服务的数据,请从“Azure Monitor”菜单中选择“日志”。 有关详细信息,请参阅 Azure Monitor Log Analytics 中的日志查询范围和时间范围。
有关任何服务的常见查询的列表,请参阅 Log Analytics 查询界面。
警报
在监视数据中发现特定情况时,Azure Monitor 警报会主动向你发出通知。 有了警报,你就可以在客户注意到你的系统中的问题之前找出和解决问题。 有关详细信息,请参阅 Azure Monitor 警报。
Azure 资源的常见警报具有许多来源。 有关 Azure 资源常见警报的示例,请参阅示例日志警报查询。 Azure Monitor 基线警报 (AMBA) 站点提供了实现重要平台指标警报、仪表板和指南的半自动化方法。 该站点适用于持续扩展的 Azure 服务子集,包括属于 Azure 登陆区域 (ALZ) 的所有服务。
通用警报模式对 Azure Monitor 警报通知的使用体验进行了标准化。 有关详细信息,请参阅常见警报架构。
警报类型
可以针对 Azure Monitor 数据平台中的任何指标或日志数据源发出警报。 警报具有许多不同类型,具体取决于要监视的服务以及要收集的监视数据。 不同类型的警报各有优缺点。 有关详细信息,请参阅选择正确的监视警报类型。
以下列表介绍了可以创建的 Azure Monitor 警报类型:
- 指标警报会定期评估资源指标。 指标可以是平台指标、自定义指标、Azure Monitor 中的日志转换为的指标或 Application Insights 指标。 指标警报还可以应用多个条件和动态阈值。
- 日志警报支持用户使用 Log Analytics 查询按照预定义的频率评估资源日志。
- 当发生匹配所定义条件的新活动日志事件时,会触发活动日志警报。 资源运行状况警报和服务运行状况警报是报告服务和资源运行状况的活动日志警报。
某些 Azure 服务还支持智能检测警报、Prometheus 警报或建议的警报规则。
对于某些服务,你可以通过将相同的指标警报规则应用于同一 Azure 区域中的多个相同类型资源,进行大规模的监视。 将为每个受监视的资源发送单独通知。 有关支持的 Azure 服务和云,请参阅使用一个警报规则监视多个资源。
注意
如果要创建或运行在服务中运行的应用程序,Azure Monitor Application Insights 提供其他类型的警报。
虚拟 WAN 警报规则
可以为 Azure 虚拟 WAN 监视数据参考中列出的任何指标、日志条目或活动日志条目设置警报。
监视 Azure 虚拟 WAN - 最佳实践
本文提供了用于监视虚拟 WAN 及其可部署的不同组件的配置最佳做法。 本文中提供的建议主要基于 Azure 虚拟 WAN 生成的现有 Azure Monitor 指标和日志。 有关为虚拟 WAN 收集的指标和日志的列表,请参阅监视虚拟 WAN 数据参考。
本文中的大多数建议都建议创建 Azure Monitor 警报。 当监视数据中发生重要事件时,Azure Monitor 警报会主动通知你。 此信息可帮助你更快地解决根本原因,并最终减少停机时间。 若要了解如何创建指标警报,请参阅教程:创建用于 Azure 资源的指标警报。 若要了解如何创建日志查询警报,请参阅教程:为 Azure 资源创建日志查询警报。
虚拟 WAN 网关
本部分会介绍虚拟 WAN 网关的最佳做法。
站点到站点 VPN 网关
设计清单 - 指标警报
- 为隧道出口和/或入口数据包放置计数的增加创建警报规则。
- 创建警报规则以监视 BGP 对等机状态。
- 创建警报规则以监视播发和学习的 BGP 路由数。
- 为 VPN 网关的过度使用创建警报规则。
- 为隧道的过度使用创建警报规则。
建议 | 说明 |
---|---|
为隧道出口和/或入口数据包放置计数的增加创建警报规则。 | 隧道出口和/或入口丢包数量的增加可能表明 Azure VPN 网关或远程 VPN 设备出现问题。 创建警报规则时,选择“隧道出口/入口数据包放置计数”指标。 定义大于 0 的静态阈值,并在配置警报逻辑时定义“总计”聚合类型。 可以选择将连接作为一个整体来监视,或者按实例和远程 IP 拆分警报规则,以针对涉及单个隧道的问题发出警报。 若要了解 VPN 连接概念、链接和虚拟 WAN 中的隧道之间的区别,请参阅虚拟 WAN 常见问题解答。 |
创建警报规则以监视 BGP 对等机状态。 | 在站点到站点连接中使用 BGP 时,请务必监视网关实例与远程设备之间的 BGP 对等互连的运行状况,因为反复失败可能会中断连接。 创建警报规则时,选择 BGP 对等状态指标。 使用静态阈值,选择“平均”聚合类型,并将警报配置为在值小于 1 时触发。 建议按“实例”和“BGP 对等地址”来拆分警报,以检测单个对等互连的问题。 避免选择网关实例 IP 作为 BGP 对等地址,因为此指标会监视每个可能组合(包括始终为 0 的实例本身)的 BGP 状态。 |
创建警报规则以监视播发和学习的 BGP 路由数。 | 播发的 BGP 路由数和学习的 BGP 路由数分别监视 VPN 网关播发的路由数以及从对等机学习的路由数。 如果这些指标意外下降到零,可能是因为网关或本地出现问题。 建议同时为这两个指标配置在其值为零时触发的警报。 选择“总计”聚合类型。 按实例拆分,以监视单个网关实例。 |
为 VPN 网关的过度使用创建警报规则。 | 每个实例的缩放单元数决定了 VPN 网关的聚合吞吐量。 在同一网关实例中终止的所有隧道都会共享其聚合吞吐量。 如果一个实例长时间满负荷工作,隧道稳定性可能会受到影响。 创建警报规则时,请选择“网关 S2S 带宽”。 将警报配置为在平均吞吐量大于一个接近两个实例的最大聚合吞吐量的值时触发。 或者,按实例拆分警报,并使用每个实例的最大吞吐量作为参考。 最好提前确定每个隧道的吞吐量需求,以便选择适当的缩放单元数。 若要详细了解站点到站点 VPN 网关支持的缩放单元值,请参阅虚拟 WAN 常见问题解答。 |
为隧道的过度使用创建警报规则。 | 网关实例终止的缩放单元确定了每个隧道允许的最大吞吐量。 如果隧道面临接近最大吞吐量的风险,则可能会导致性能和连接问题,此时你可能需要得到警报。 通过调查隧道利用率增加的根本原因或增加网关缩放单元来主动采取行动。 创建警报规则时,选择“隧道带宽”。 按实例和远程 IP 拆分,以监视所有单个隧道或选择特定的隧道。 将警报配置为在平均吞吐量大于接近每个隧道允许的最大吞吐量的值时触发。 若要详细了解网关缩放单元如何影响隧道的最大吞吐量,请参阅虚拟 WAN 常见问题解答。 |
设计清单 - 日志查询警报
若要配置基于日志的警报,必须先为站点到站点/点到站点 VPN 网关创建诊断设置。 诊断设置用于定义要收集的日志和/或指标,以及如何存储稍后要分析的数据。 与网关指标不同,如果未配置诊断设置,则网关日志将不可用。 若要了解如何创建诊断设置,请参阅创建诊断设置以查看日志。
- 创建隧道断开连接警报规则。
- 创建 BGP 断开连接警报规则。
建议 | 说明 |
---|---|
创建隧道断开连接警报规则。 | 使用隧道诊断日志跟踪站点到站点连接中的断开连接事件。 断开连接事件可能是由于无法协商 SA、远程 VPN 设备无响应以及其他原因造成的。 隧道诊断日志还提供断开连接的原因。 请参阅此表下面的创建隧道断开连接警报规则 - 日志查询,以在创建警报规则时选择断开连接事件。 将警报配置为在因运行查询而产生的行数大于 0 时触发。 若要使此警报生效,请为聚合粒度选择介于 1 到 5 分钟之间的值,而评估频率也介于 1 到 5 分钟之间。 这样,在超过聚合粒度间隔后,新间隔的行数为 0。 有关分析隧道诊断日志时的故障排除提示,请参阅使用诊断日志排查 Azure VPN 网关问题。 此外,使用 IKE 诊断日志为故障排除提供补充,因为这些日志包含特定于 IKE 的详细诊断。 |
创建 BGP 断开连接警报规则。 | 使用路由诊断日志来跟踪 BGP 会话的路由更新和问题。 重复的 BGP 断开连接事件可能会影响连接并导致故障。 请参阅此表下面的创建 BGP 断开连接规则警报 - 日志查询,以在创建警报规则时选择断开连接事件。 将警报配置为在因运行查询而产生的行数大于 0 时触发。 若要使此警报生效,请为聚合粒度选择介于 1 到 5 分钟之间的值,而评估频率也介于 1 到 5 分钟之间。 这样,在超过聚合粒度间隔后,如果还原了 BGP 会话,新间隔的行数再次为 0。 有关路由诊断日志收集的数据的详细信息,请参阅使用诊断日志排查 Azure VPN 网关问题。 |
日志查询
创建隧道断开连接警报规则 - 日志查询:可以使用以下日志查询在创建警报规则时选择隧道断开连接事件:
AzureDiagnostics | where Category == "TunnelDiagnosticLog" | where OperationName == "TunnelDisconnected"
创建 BGP 断开连接规则警报 - 日志查询:可以使用以下日志查询在创建警报规则时选择 BGP 断开连接事件:
AzureDiagnostics | where Category == "RouteDiagnosticLog" | where OperationName == "BgpDisconnectedEvent"
点到站点 VPN 网关
以下部分仅详细介绍了基于指标的警报的配置。 但是,虚拟 WAN 点到站点网关也支持诊断日志。 若要详细了解点到站点网关可用的诊断日志,请参阅虚拟 WAN 点到站点 VPN 网关诊断。
设计清单 - 指标警报
- 为网关的过度使用创建警报规则。
- 为接近限制的 P2S 连接计数创建警报。
- 为接近限制的用户 VPN 路由计数创建警报。
建议 | 说明 |
---|---|
为网关的过度使用创建警报规则。 | 配置的缩放单元数确定了点到站点网关的带宽。 若要了解有关点到站点网关缩放单元的详细信息,请参阅点到站点(用户 VPN)。 使用网关 P2S 带宽指标来监视网关的利用率,并配置一个警报规则,该规则在网关带宽大于接近其聚合吞吐量的一个值时触发,例如,如果网关配置了 2 个缩放单元,则其聚合吞吐量将为 1 Gbps。 在这种情况下,可以定义阈值为 950 Mbps。 使用此警报主动调查利用率增加的根本原因,并在需要时最终增加缩放单元数。 配置警报规则时,选择“平均”聚合类型。 |
为接近限制的 P2S 连接计数创建警报 | 允许的最大点到站点连接数也取决于网关上配置的缩放单元数。 若要了解有关点到站点网关缩放单元的详细信息,请参阅点到站点(用户 VPN)的常见问题解答。 使用 P2S 连接计数指标监视连接数。 选择此指标来配置一个警报规则,该规则在连接数接近允许的最大值时触发。 例如,1 缩放单元网关最多支持 500 个并发连接。 在这种情况下,可以将警报配置为在连接数大于 450 时触发。 使用此警报来确定是否需要增加缩放单元数。 配置警报规则时,选择“总计”聚合类型。 |
为接近限制的用户 VPN 路由计数创建警报规则。 | 使用的协议确定用户 VPN 路由的最大数目。 IKEv2 的协议级别限制为 255 个路由,而 OpenVPN 的路由限制为 1000 个。 若要详细了解此事实,请参阅 VPN 服务器配置概念。 你可能希望在快要达到最大用户 VPN 路由数时收到警报,并主动采取行动来避免任何故障。 使用用户 VPN 路由计数来监视此情况,并配置在路由数超过接近限制的值时触发的警报规则。 例如,如果限制为 255 个路由,则适当的阈值值可以为 230。 配置警报规则时,选择“总计”聚合类型。 |
ExpressRoute 网关
以下部分重点介绍基于指标的警报。 除了此处所述的警报(侧重于网关组件)之外,建议使用可用的指标、日志和工具来监视 ExpressRoute 线路。 若要了解有关 ExpressRoute 监视的详细信息,请参阅 ExpressRoute 监视、指标和警报。 若要了解如何使用 ExpressRoute 流量收集器工具,请参阅为 ExpressRoute Direct 配置 ExpressRoute 流量收集器。
设计清单 - 指标警报
- 针对每秒接收的位数创建警报规则。
- 为 CPU 的过度使用创建警报规则。
- 针对每秒数据包数创建警报规则。
- 针对播发到对等机的路由数创建警报规则。
- 计算有关从对等机学习的路由数的警报规则。
- 为路由更改中的高频率创建警报规则。
建议 | 说明 |
---|---|
为每秒接收的位数创建警报规则。 | 每秒接收的位数监视网关从 MSEE 接收的流量总量。 你可能希望在网关收到的流量面临达到最大吞吐量的风险时收到警报。 这种情况可能会导致性能和连接问题。 这方法可以通过调查网关利用率增加的根本原因或增加网关允许的最大吞吐量来主动采取行动。 选择“平均”聚合类型并为“阈值”选择一个接近配置警报规则时为网关预配的最大吞吐量的值。 此外,建议设置一个在“每秒接收的位数”接近零时触发的警报,因为这可能表明网关或 MSEE 出现了问题。 预配的缩放单元数决定了 ExpressRoute 网关的最大吞吐量。 若要详细了解 ExpressRoute 网关性能,请参阅关于 Azure 虚拟 WAN 中的 ExpressRoute 连接。 |
为 CPU 的过度使用创建警报规则。 | 使用 ExpressRoute 网关时,监视 CPU 使用率非常重要。 长时间的高利用率运行可能会影响性能和连接。 使用 CPU 使用率指标来监视使用情况,并在 CPU 使用率大于 80% 时创建警报,以便可以调查根本原因,并最终根据需要增加缩放单元数。 配置警报规则时,选择“平均”聚合类型。 若要详细了解 ExpressRoute 网关性能,请参阅关于 Azure 虚拟 WAN 中的 ExpressRoute 连接。 |
为每秒接收的文件包数创建警报规则。 | 每秒数据包数监视遍历虚拟 WAN ExpressRoute 网关的入站数据包数。 你可能希望在“每秒数据包数”接近网关上配置的缩放单元数的允许上限时收到警报。 配置警报规则时,选择“平均”聚合类型。 根据网关的缩放单元数,为阈值选择一个接近允许的最大每秒数据包数的值。 若要详细了解 ExpressRoute 性能,请参阅关于 Azure 虚拟 WAN 中的 ExpressRoute 连接。 此外,建议设置一个在“每秒数据包数”接近零时触发的警报,因为这可能表明网关或 MSEE 出现了问题。 |
针对播发到对等机的路由数创建警报规则。 | “播发到对等机的路由计数”会监视从 ExpressRoute 网关播发到虚拟中心路由器和 Microsoft Enterprise 边缘设备的路由数。 建议添加筛选器,以仅选择显示为“ExpressRoute 设备”的两个 BGP 对等方,并创建警报以识别已播发路由计数何时接近记录的 1000 条限制。 例如,将警报配置为在播发的路由数大于 950 时触发。 我们还建议配置一个在播发到 Microsoft 边缘设备的路由数为零时触发的警报,以便主动检测任何连接问题。 若要添加这些警报,请选择“播发到对等机的路由计数”指标,然后选择“添加筛选器”选项和 ExpressRoute 设备。 |
针对从对等机学习的路由数创建警报规则。 | “从对等机学习的路由计数”会监视 ExpressRoute 网关从虚拟中心路由器和 Microsoft Enterprise 边缘设备学习的路由数。 建议添加筛选器,以仅选择显示为“ExpressRoute 设备”的两个 BGP 对等方,并创建警报以识别已获知路由计数何时接近记录的限制(标准 SKU 4000 条线路,高级 SKU 10,000 条线路)。 我们还建议配置一个在播发到 Microsoft 边缘设备的路由数为零时触发的警报。 此方法有助于检测本地何时停止播发路由。 |
为路由更改中的高频率创建警报规则。 | 路由更改频率显示从/向对等机学习和播发路由的更改频率,包括其他类型的分支,例如站点到站点和点到站点 VPN。 此指标显示新分支或更多线路连接/断开连接的时间。 此指标在识别 BGP 播发问题(例如浮点)时是一个有用的工具。 如果环境是静态的且不需要 BGP 更改,则建议设置警报。 为阈值选择一个大于 1 的值,为聚合粒度选择 15 分钟,以一致地监视 BGP 行为。 如果环境是动态的,并且经常需要 BGP 更改,则可以选择不设置警报,以避免误报。 但是,仍可以考虑在观察网络时使用此指标。 |
虚拟中心
以下部分重点介绍虚拟中心的基于指标的警报。
设计清单 - 指标警报
- 针对 BGP 对等状态创建警报规则
建议 | 说明 |
---|---|
创建警报规则以监视 BGP 对等机状态。 | 创建警报规则时,选择 BGP 对等状态指标。 使用静态阈值,选择“平均”聚合类型,并将警报配置为在值小于 1 时触发。 此方法可以确定虚拟中心路由器何时存在有关中心内部署的 ExpressRoute、站点到站点 VPN 和点到站点 VPN 网关的连接问题。 |
Azure 防火墙
本文的这一部分重点介绍基于指标的警报。 Azure 防火墙提供用于监视目的的指标和日志综合列表。 除了配置以下部分所述的警报外,还可以了解 Azure 防火墙工作簿如何帮助监视 Azure 防火墙。 此外,了解使用 Microsoft Sentinel 的 Azure 防火墙连接器将 Azure 防火墙日志连接到 Microsoft Sentinel 的好处。
设计清单 - 指标警报
- 为 SNAT 端口耗尽的风险创建警报规则。
- 为防火墙的过度使用创建警报规则。
建议 | 说明 |
---|---|
为 SNAT 端口耗尽的风险创建警报规则。 | Azure 防火墙为每个后端虚拟机规模实例配置的每个公共 IP 地址提供 2,496 个 SNAT 端口。 请务必提前估计满足发到 Internet 的出站流量的组织要求的 SNAT 端口的数量。 不这样做会增加耗尽 Azure 防火墙上可用 SNAT 端口数的风险,这可能会导致出站连接失败。 使用 SNAT 端口利用率指标监视当前正在使用的出站 SNAT 端口的百分比。 为此指标创建一个警报规则,使其在此百分比超过 95%(例如,由于流量意外增加)时触发,以便可以在 Azure 防火墙上配置其他公共 IP 地址,或使用 Azure NAT 网关 来相应地操作。 配置警报规则时,使用“最大”聚合类型。 若要详细了解如何解释 SNAT 端口利用率指标,请参阅 Azure 防火墙日志和指标概述。 若要详细了解如何在 Azure 防火墙中缩放 SNAT 端口,请参阅使用 Azure NAT 网关缩放 SNAT 端口。 |
为防火墙的过度使用创建警报规则。 | Azure 防火墙的最大吞吐量因启用的 SKU 和功能而异。 若要详细了解 Azure 防火墙性能,请参阅 Azure 防火墙性能。 如果防火墙接近其最大吞吐量,可能需要发出警报。 可以排查根本原因,因为这种情况可能会影响防火墙的性能。 创建一个警报规则,使其在吞吐量指标超过接近防火墙最大吞吐量的值时触发 - 例如,如果最大吞吐量为 30 Gbps,则配置 25 Gbps 作为阈值值。 吞吐量指标单位为位/秒。创建警报规则时,选择“平均”聚合类型。 |
资源运行状况警报
还可以通过服务运行状况为以下资源配置资源运行状况警报。 此方法可确保你了解虚拟 WAN 环境的可用性。 警报让你可以排查网络问题是否是由于 Azure 资源进入不正常状态,而不是来自本地环境的问题。 建议配置在资源状态发生降级或变为不可用时触发的警报。 如果资源状态已发生降级/变为不可用,可以分析这些资源处理的流量、播发到这些资源的路由或创建的分支/VNet 连接数最近是否出现过激增。 有关虚拟 WAN 中支持的限制的详细信息,请参阅 Azure 虚拟 WAN 限制。
- Microsoft.Network/vpnGateways
- Microsoft.Network/expressRouteGateways
- Microsoft.Network/azureFirewalls
- Microsoft.Network/virtualHubs
- Microsoft.Network/p2sVpnGateways
相关内容
- 有关为虚拟 WAN 创建的指标、日志和其他重要值的参考信息,请参阅 Azure 虚拟 WAN 监视数据参考。
- 有关监视 Azure 资源的一般详细信息,请参阅使用 Azure Monitor 监视 Azure 资源。