你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

容器见解收集的指标

容器见解从 Azure Kubernetes 服务 (AKS) 以及已启用 Azure Arc 的 Kubernetes 群集节点和 Pod 收集自定义指标。 使用自定义指标,可以:

  • 在性能图表中及时提供聚合计算(平均值、计数、最大值、最小值、总和)。
  • 将性能图表固定在 Azure 门户仪表板中。
  • 利用指标警报

重要

从 2024 年 5 月 31 日起,将不再收集这些指标,如容器见解建议的警报(自定义指标)(预览版)将于 2024 年 5 月 31 日停用中所述。 请参阅启用 Prometheus 和 Grafana,以启用 Prometheus 指标收集。

使用自定义指标

可以使用与从其他数据源(包括指标资源管理器指标警报)收集的自定义指标相同的方法访问容器见解收集的自定义指标。

收集的指标

以下部分介绍为群集收集的指标值。

节点指标

命名空间:Insights.container/nodes
维度:host

指标 说明
cpuUsageMillicores 按主机列出的 CPU 使用量,以毫核为单位。
cpuUsagePercentage、cpuUsageAllocatablePercentage(预览) CPU 使用率百分比(分别按节点和可分配)。
memoryRssBytes 按主机列出的内存 RSS 使用量,以字节为单位。
memoryRssPercentage、memoryRssAllocatablePercentage(预览) 内存 RSS 使用率百分比(分别按主机和可分配)。
memoryWorkingSetBytes 按主机列出的内存工作集使用量,以字节为单位。
memoryWorkingSetPercentage、memoryRssAllocatablePercentage(预览) 内存工作集使用率百分比(分别按主机和可分配)。
nodesCount 按状态列出的节点计数。
diskUsedPercentage 节点上使用的磁盘百分比,按设备列出。

Pod 指标

命名空间:Insights.container/pods
维度:controllerNameKubernetes namespace

指标 说明
podCount 按控制器、命名空间、节点和阶段列出的 Pod 计数。
completedJobsCount 早于用户可配置的阈值(默认阈值为 6 小时)的已完成作业计数,按控制器和 Kubernetes 命名空间列出。
restartingContainerCount 按控制器和 Kubernetes 命名空间列出的容器重启次数。
oomKilledContainerCount 按控制器和 Kubernetes 命名空间列出的 OOM 终止容器计数。
podReadyPercentage 按控制器和 Kubernetes 命名空间列出的处于就绪状态的 Pod 百分比。

容器指标

命名空间:Insights.container/containers
维度:containerNamecontrollerNameKubernetes namespacepodName

指标 说明
(旧)cpuExceededPercentage 超过用户可配置的阈值(默认阈值为 95.0)的容器 CPU 利用率百分比,按容器名称、控制器名称、Kubernetes 命名空间和 Pod 名称列出。
已收集
(新)cpuThresholdViolated 容器 CPU 利用率百分比超过用户可配置的阈值(默认阈值为 95.0)时触发的指标,按容器名称、控制器名称、Kubernetes 命名空间和 Pod 名称列出。
已收集
(旧)memoryRssExceededPercentage 超过用户可配置的阈值(默认阈值为 95.0)的容器内存 RSS 百分比,按容器名称、控制器名称、Kubernetes 命名空间和 Pod 名称列出。
(新)memoryRssThresholdViolated 容器内存 RSS 百分比超过用户可配置的阈值(默认阈值为 95.0)时触发的指标,按容器名称、控制器名称、Kubernetes 命名空间和 Pod 名称列出。
(旧)memoryWorkingSetExceededPercentage 超过用户可配置的阈值(默认阈值为 95.0)的容器内存工作集百分比,按容器名称、控制器名称、Kubernetes 命名空间和 Pod 名称列出。
(新)memoryWorkingSetThresholdViolated 容器内存工作集百分比超过用户可配置的阈值(默认阈值为 95.0)时触发的指标,按容器名称、控制器名称、Kubernetes 命名空间和 Pod 名称列出。

永久性卷指标

命名空间:Insights.container/persistentvolumes
维度:kubernetesNamespacenodepodNamevolumeName

指标 说明
(旧)pvUsageExceededPercentage 超过用户可配置的阈值(默认阈值为 60.0)的永久性卷 PV 利用率百分比,按声明名称、Kubernetes 命名空间、卷名称、Pod 名称和节点名称列出。
(新)pvUsageThresholdViolated 超过用户可配置的阈值(默认阈值为 60.0)的永久性卷 PV 利用率百分比时触发的指标,按声明名称、Kubernetes 命名空间、卷名称、Pod 名称和节点名称列出。

启用自定义指标

如果群集对容器见解使用托管标识身份验证,则会为你启用自定义指标。 如果没有启用,则需要使用下面的方法之一启用自定义指标。

此过程将“监视指标发布者”角色分配给群集的服务主体。 监视指标发布者仅有权将指标推送到资源。 它不能更改任何状态、更新资源或读取任何数据。 有关角色的详细信息,请参阅“监视指标发布者”角色。 “监视指标发布者”角色要求不适用于已启用 Azure Arc 的 Kubernetes 群集。

先决条件

在更新群集之前,请确认你是 AKS 群集资源上的所有者角色的成员,这样才能收集节点和 Pod 自定义性能指标。 此要求不适用于已启用 Azure Arc 的 Kubernetes 群集。

启用选项

使用以下方法之一为订阅中的单个群集或所有群集启用自定义指标。

  1. 在 Azure 门户中选择群集的“见解”菜单。

  2. 在窗格顶部出现的横幅中,选择“启用”以启动更新。

    Screenshot that shows the Azure portal with the banner for upgrading an AKS cluster.

    完成此过程可能需要数秒钟的时间。 可以在菜单中的“通知”下面跟踪操作进度。

验证更新

若要验证是否启用了自定义指标,请打开指标资源管理器,并从指标命名空间验证是否列出了见解。

后续步骤