你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 运营商关系可观测性指标

在运营商关系网络结构 (NNF) 中,以太网监视是维持最佳网络性能、确保可用性以及在潜在问题导致结构中断之前主动解决潜在问题的关键组件。 监视包括流量分析、设备运行状况、安全性以及特定于各个以太网接口的详细信息。 通过密切监视结构基础设施,我们可以确保 NNF 平稳高效地运行,并尽早发现和解决任何潜在问题。

NNF 设备的以下方面受到监视:

  • 可用性:监视设备的连接性可确保网络可用并防止停机

  • 性能:跟踪接口带宽利用率、数据包丢失、延迟和抖动等指标,让我们能够评估网络性能并查明任何瓶颈

  • 安全性:监视有助于识别网络上的任何可疑活动、未经授权的访问尝试或潜在的安全威胁

  • 运行状况:监视设备 CPU、内存、温度、风扇、电源状态和接口运行状态,以便我们识别任何潜在的故障

ACL 状态计数器

网络设备中的访问控制列表 (ACL) 状态计数器可帮助你监督和控制网络流量。 它们提供与每个 ACL 条目匹配的数据包数量的数据。 可以在全局范围内对这些计数器进行检查,也可以按接口以及按传入和传出流量这样做。

指标类别 说明/用法 收集间隔 度量单位
ACL(访问控制列表)匹配的数据包 与网络设备中当前访问控制列表 (ACL) 条目设置的条件匹配的网络数据包总数。 此计数有助于监视和管理网络流量。 5 分钟 数据包数。

BGP 状态

边界网关协议 (BGP) 连接对于 BGP 对等机之间的有效通信和最佳网络性能至关重要。 网络管理员可以通过观察这些状态来检测网络问题或中断。 例如,连接保持“空闲”状态可能表明存在配置问题。 “已建立”状态表示在 BGP 对等机之间成功进行了路由信息交换,对于网络正常运行至关重要。

指标类别 说明/用法 收集间隔 度量单位
BGP 对等方状态 BGP 对等机状态,由 RFC 4271 定义,在此表后进行了汇总。 5 分钟和按需 不适用

BGP 连接状态为:

  • 空闲(1):BGP 连接的初始状态。
  • 连接(2):系统正在等待 TCP 连接完成。
  • 活动(3):系统正在尝试启动与对等机的 TCP 连接。
  • OpenSent (4):系统正在等待接收来自对等机的 OPEN 消息。
  • OpenConfirm (5):系统正在等待来自对等机的 KEEPALIVE 或 NOTIFICATION 消息。
  • 已建立(6):BGP 连接完全建立,对等机可以交换 UPDATE 消息。

组件运行状态

硬件或软件组件的运行状态显示其当前的运行状态。

指标类别 说明/用法 收集间隔 度量单位
组件运行状态 属于设备清单一部分的实体(例如线卡、收发器、风扇、电源等)的运行状态。该表后面描述了可能的值。 5 分钟和按需 不适用

可能的运行状态为:

  • 活动(0):组件已启用,处于活动状态(启动)
  • 非活动(1):组件已启用,但处于非活动状态(关闭)
  • 已禁用(2):组件已被管理员禁用

接口运行状态

网络设备中接口的运行状态显示其当前的运行状态。

指标类别 说明/用法 收集间隔 度量单位
接口工作状态 接口的运行状态。 该表后面描述了可能的值。 5 分钟 不适用

可能的运行状态为:

  • 启动(0):接口可运行且能够传输和接收数据
  • 关闭(1):接口不能运行,不能够传输或接收数据
  • Lower_layer_down (2):接口由于网络堆栈的较低层出现故障而关闭
  • 正在测试(3):接口正在进行测试,尚无法正常运行
  • 未知(4):接口状态未知,可能是由于设备的监视系统出现故障
  • 休眠(5):接口可以运行,但当前处于休眠状态,这意味着它不传输或接收数据
  • Not_present (6):设备中不存在该接口,可能是因为它已被物理删除或尚未安装

接口状态计数器

接口状态计数器跟踪符合特定条件的帧或数据包的数量。 所有这些都是每隔 5 分钟收集一次。

指标类别 说明/用法
CRC 错误中的以太网接口 长度在 64 到 1,518 个八位字节之间且具有 FCS 错误或对齐错误的已接收帧的总数。 这些错误表明数据传输存在问题,需要解决这些问题才能实现可靠的通信。
片段帧中的以太网接口 这是一个仪表,用于量化通过以太网接口接收到的错误片段帧的数量。 比以太网协议规定的长度短的片段帧具有不正确的校验和值(称为“FCS 错误”)或不正确的位计数(称为“对齐错误”)。
Jabber 帧中的以太网接口 通过接口接收的 jabber 帧的计数。 jabber 帧是超出标准大小并且还具有错误的循环冗余校验 (CRC) 的帧。
MAC 控制帧中的以太网接口 接口接收到的 MAC 层控制帧。
MAC 暂停帧中的以太网接口 通过接口接收到的 MAC 层的 PAUSE 帧。
已超出最大大小中的以太网接口 由于超过最大帧大小而在接口上丢弃的结构良好的帧的总数。
超大帧中的以太网接口 收到的长度超过 1,518 个八位字节的结构良好的帧总数(不计算帧位,但包括 FCS 八位字节)。
以太网接口输出 MAC 控制帧 接口发送的 MAC 层控制帧
以太网接口输出 MAC 暂停帧 通过接口发送的 MAC 层 PAUSE 帧。
接口输入广播数据包数 寻址到该子层广播地址的数据包总数,包括那些被丢弃的或未发送的数据包。
丢弃数据包中的接口 即使未检测到会阻止将其传送到更高层协议的错误也仍然被丢弃的入站数据包的数量。
错误中的接口 对于面向数据包的接口,包含错误导致其无法被传递到更高层协议的入站数据包数量。
FCS 错误中的接口 在帧检查序列 (FCS) 中存在错误的已接收数据包的数量。
接口输入多播数据包数 由此子层传送到更高层或子层的数据包的数量,这些数据包寻址到此子层上的多播地址。 对于 MAC 层协议,这些地址包括组地址和功能地址。
八位字节中的接口 接口上收到的八进制数,包括成帧字符。
接口输入数据包数 在接口上接收的数据包总数,包括所有单播、多播、广播和错误数据包。
接口输入单播数据包数 由此子层传送到更高层或子层的数据包的数量,这些数据包未寻址到此子层上的多播或广播地址。
接口输出广播数据包数 已寻址到该子层广播地址的数据包总数,包括被丢弃的或未发送的数据包。
接口输出丢弃 即使未检测到会阻止其被传输的错误也仍然被丢弃的出站数据包的数量。
接口输出错误 由于错误而不能传输的出站数据包的数目(适用于面向数据包的接口)。
接口输出多播数据包数 已寻址到该子层多播地址的出站数据包总数,包括被丢弃的或未发送的数据包。 对于 MAC 层协议,这些地址包括组地址和功能地址。
接口输出八进制数 从接口传出的八进制数总数,包括成帧字符。
接口输出数据包数 从接口传出的数据包总数,包括所有单播、多播、广播和错误数据包。
接口输出单播数据包数 未寻址到该子层多播或广播地址的出站数据包总数,包括被丢弃的或未发送的数据包。

接口状态频率

接口状态频率会对网络性能和可靠性产生影响。 频繁的状态更改可能表明网络连接不稳定,可能导致性能下降和网络拥塞。

所有状态频率度量都是每隔 5 分钟收集一次。

指标类别 说明/用法
接口输入丢弃率 在网络接口上丢弃传入数据包的频率。 数据包可能因各种原因而被丢弃,例如网络拥塞、硬件故障或配置问题。
接口输入数据包频率 在接口上接收数据包的频率,包括所有单播、多播、广播和错误数据包。
接口输出丢弃率 即使未检测到会阻止其被传输的错误也仍然被丢弃的出站数据包的丢弃率。
接口输出数据包频率 从接口输出数据包的频率,包括所有单播、多播、广播和错误数据包。

LACP 状态频率

监视 LACP 状态频率至关重要,因为该频率对网络性能和可靠性有潜在影响。 链路聚合控制协议上下文中的术语“LACP 状态频率”表示支持 LACP 的接口发送或接收 LACP 控制数据包的速度。

所有状态频率度量都是每隔 5 分钟收集一次。

指标类别 说明/用法
Lacp 错误数 术语“LACPDU 非法数据包错误数”表示链路聚合控制协议数据单元 (LACPDU) 的计数,这些数据单元尽管已被接收,但由于其形成的结构不正确或“协议子类型”的值未经授权而被视为非法。
Lacp 输入数据包数 收到的 LACPDU 数。
Lacp 输出数据包数 传输的 LACPDU 数。
Lacp 接收错误数 收到的 LACPDU 错误数。
Lacp 传输错误数 传输的 LACPDU 错误数。
Lacp 未知错误数 LACPDU 未知错误的数量。

LLDP 状态计数器

LLDP 状态计数器显示网络设备发送的和接收的 LLDP 帧数量。 LLDP 代表链路层发现协议,这是一种标准协议,允许设备在局域网上播发其标识、功能和邻居。 LLDP 状态计数器可以帮助网络管理员监视网络的运行状况和性能、排查连接性问题以及发现设备的拓扑和配置。

所有度量都是每隔 5 分钟收集一次。

指标类别 说明/用法
Lldp 帧输入 网络设备中的 LLDPFrameIn 是指设备接收到的链路层发现协议 (LLDP) 帧的数量。
Lldp 帧输出 网络设备中的 LLDPFrameOut 是指设备发送的链路层发现协议 (LLDP) 帧的数量。 网络设备使用 LLDP 向同一网络上的其他设备播发其标识和功能。
Lldp TLV 未知 网络设备中的 LLDPTLVUnknown 是指收到的包含未知类型-长度-值 (TLV) 条目的链路层发现协议 (LLDP) 帧的数量。 TLV 在网络协议中用于指定可选信息。 TLV“未知”表明设备收到了无法识别或无法解释的数据,这可能表明网络内存在兼容性问题。

网络结构设备资源利用率

资源利用率指标提供了有关网络资源使用效率的重要见解。 借助这些指标,你可以深入了解网络结构设备的性能和运行状况。 资源利用率指标提供了系统性能和运行状况的整体视图。 它们度量 CPU 工作负荷、冷却效率、内存可用性、电源性能和热量水平。 这些指标对于优化系统性能、有效管理资源以及防止因过热而损坏硬件至关重要。

指标类别 说明/用法 收集间隔 度量单位
CPU 平均利用率 CPU 平均利用率指标是处理器在特定时间间隔内使用的计算资源的平均百分比。 1 分钟 百分比
CPU 即时利用率 处理器在特定时间使用的计算资源的即时百分比。 它可以实时洞察 CPU 的工作负荷和性能。 1 分钟 百分比
CPU 最大利用率 处理器在特定时间间隔内使用的计算资源的最高百分比。 1 分钟 百分比
CPU 最小利用率 处理器在给定时间间隔内使用的计算资源的最低百分比。 1 分钟 百分比
风扇速度 冷却风扇旋转的即时速率。 它是维持最佳工作温度和确保设备组件使用寿命的关键指标。 1 分钟 Rpm(不可用)
可用内存 物理安装的可用内存,或以逻辑方式分配给组件。 1 分钟 字节
电源输入电流 电源装置 (PSU) 从电源汲取的电流量(以安培为单位)。 它是决定 PSU 效率和设备整体功耗的关键因素。 1 分钟 安培(不可用)
电源输入电压 电源装置 (PSU) 从电源汲取的电势大小(以伏特为单位)。 它是确保 PSU 能够充分将 AC 电源转换为 DC 电源以满足设备需求的关键参数。 1 分钟 伏特(不可用)
电源最大功率 电源的最大功率。 1 分钟 瓦特(不可用)
电源输出电流 电源提供的输出电流。 1 分钟 安培(不可用)
电源输出电压 电源提供的输出电压。 1 分钟 伏特(不可用)
电源输出功率 电源装置 (PSU) 提供给设备组件的电量(以瓦特为单位)。 它是确保设备拥有足够电量以实现最佳性能的关键因素。 1 分钟
即时温度 设备的组件的实时温度。 1 分钟
最大温度 设备的组件的最高安全工作温度。 超过此限制可能会导致过热,这可能导致性能问题、组件损坏,甚至导致设备故障。 监视和管理设备的温度对于确保其使用寿命和最佳性能至关重要。 1 分钟