你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 机器学习监视数据引入

本文包含此服务的所有监视参考信息。

有关可为 Azure 机器学习收集的数据以及如何使用这些数据的详细信息,请参阅监视机器学习

指标

本部分列出了为此服务自动收集的所有平台指标。 这些指标也是 Azure Monitor 中支持的所有平台指标的全局列表的一部分。

有关指标保留的信息,请参阅 Azure Monitor 指标概述

这些指标的资源提供程序是 Microsoft.MachineLearningServices/workspaces。

指标类别包括模型、配额、资源、运行和流量。 “配额”信息仅用于机器学习计算。 “运行”指标提供有关工作区训练运行的信息

Microsoft.MachineLearningServices/workspaces 支持的指标

下表列出了可用于 Microsoft.MachineLearningServices/workspaces 资源类型的指标。

  • 并非所有列都显示在每个表中。
  • 某些列可能超出了页面的查看区域。 选择“展开表”以查看所有可用列。

表标题

  • 类别 - 指标组或分类。
  • 指标 - 在 Azure 门户中显示的指标显示名称。
  • REST API 中的名称 - 在 REST API 中引用的指标名称
  • 单位 - 度量单位。
  • 聚合 - 默认的聚合类型。 有效值:平均值(平均)、最小值(最小值)、最大值(最大值)、总计(总和)、计数。
  • 维度 - 适用于指标的维度
  • 时间粒度 - 对指标采样的间隔 例如,PT1M 表示该指标每分钟采样一次,PT30M 表示每 30 分钟一次,PT1H 表示每小时一次,以此类推。
  • DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。 要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置
类别 指标 REST API 中的名称 Unit 聚合 维度 时间粒度 DS 导出
配额 活动核心

活动核心数
Active Cores 计数 平均值、最大值、最小值、总计 Scenario, ClusterName PT1M
配额 活动节点

活动节点数。 这些节点是正在运行作业的节点。
Active Nodes 计数 平均值、最大值、最小值、总计 Scenario, ClusterName PT1M
运行 取消请求的运行

此工作区请求取消的运行数。 当收到用于运行的取消请求时,将更新计数。
Cancel Requested Runs 计数 总计、平均值、最小值、最大值、计数 Scenario、、RunTypePublishedPipelineIdComputeTypePipelineStepTypeExperimentName PT1M
运行 已取消的运行

此工作区取消的运行数。 成功取消运行时,将更新计数。
Cancelled Runs 计数 总计、平均值、最小值、最大值、计数 Scenario、、RunTypePublishedPipelineIdComputeTypePipelineStepTypeExperimentName PT1M
运行 已完成的运行

已成功为此工作区完成的运行数。 当运行完成并收集输出时,将更新计数。
Completed Runs 计数 总计、平均值、最小值、最大值、计数 Scenario、、RunTypePublishedPipelineIdComputeTypePipelineStepTypeExperimentName PT1M
资源 CpuCapacityMillicores

CPU 节点的最大容量(以毫核为单位)。 容量每分钟聚合一次。
CpuCapacityMillicores 计数 平均值、最大值、最小值、总计 RunIdInstanceId、、 ComputeName PT1M
资源 CpuMemoryCapacityMegabytes

CPU 节点的最大内存利用率(以 MB 为单位)。 利用率每分钟聚合一次。
CpuMemoryCapacityMegabytes 计数 平均值、最大值、最小值、总计 RunIdInstanceId、、 ComputeName PT1M
资源 CpuMemoryUtilizationMegabytes

CPU 节点的内存利用率(以 MB 为单位)。 利用率每分钟聚合一次。
CpuMemoryUtilizationMegabytes 计数 平均值、最大值、最小值、总计 RunIdInstanceId、、 ComputeName PT1M
资源 CpuMemoryUtilizationPercentage

CPU 节点的内存利用率百分比。 利用率每分钟聚合一次。
CpuMemoryUtilizationPercentage 计数 平均值、最大值、最小值、总计 RunIdInstanceId、、 ComputeName PT1M
资源 CpuUtilization

CPU 节点上的使用率百分比。 利用率每分钟报告一次。
CpuUtilization 计数 平均值、最大值、最小值、总计 Scenario、、runIdNodeId、、ClusterName PT1M
资源 CpuUtilizationMillicores

CPU 节点的利用率(以毫核为单位)。 利用率每分钟聚合一次。
CpuUtilizationMillicores 计数 平均值、最大值、最小值、总计 RunIdInstanceId、、 ComputeName PT1M
资源 CpuUtilizationPercentage

CPU 节点的利用率百分比。 利用率每分钟聚合一次。
CpuUtilizationPercentage 计数 平均值、最大值、最小值、总计 RunIdInstanceId、、 ComputeName PT1M
资源 DiskAvailMegabytes

可用磁盘空间(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。
DiskAvailMegabytes 计数 平均值、最大值、最小值、总计 RunIdInstanceId、、 ComputeName PT1M
资源 DiskReadMegabytes

从磁盘读取的数据(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。
DiskReadMegabytes 计数 平均值、最大值、最小值、总计 RunIdInstanceId、、 ComputeName PT1M
资源 DiskUsedMegabytes

已用磁盘空间(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。
DiskUsedMegabytes 计数 平均值、最大值、最小值、总计 RunIdInstanceId、、 ComputeName PT1M
资源 DiskWriteMegabytes

写入磁盘的数据(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。
DiskWriteMegabytes 计数 平均值、最大值、最小值、总计 RunIdInstanceId、、 ComputeName PT1M
运行 错误

此工作区中的运行错误数。 运行遇到错误时,将更新计数。
Errors 计数 总计、平均值、最小值、最大值、计数 Scenario PT1M
运行 失败的运行次数

此工作区失败的运行数。 运行失败时,将更新计数。
Failed Runs 计数 总计、平均值、最小值、最大值、计数 Scenario、、RunTypePublishedPipelineIdComputeTypePipelineStepTypeExperimentName PT1M
运行 完成运行

此工作区的进入完成状态的运行数。 运行已完成但输出收集仍在进行时,将更新计数。
Finalizing Runs 计数 总计、平均值、最小值、最大值、计数 Scenario、、RunTypePublishedPipelineIdComputeTypePipelineStepTypeExperimentName PT1M
资源 GpuCapacityMilli GPU

GPU 设备的最大容量(以毫 GPU 为单位)。 容量每分钟聚合一次。
GpuCapacityMilliGPUs 计数 平均值、最大值、最小值、总计 RunId、、InstanceIdDeviceId、、ComputeName PT1M
资源 GpuEnergyJoules

GPU 节点上的间隔功耗(焦耳)。 功耗每分钟报告一次。
GpuEnergyJoules 计数 平均值、最大值、最小值、总计 Scenario、、runIdrootRunIdInstanceIdDeviceIdComputeName PT1M
资源 GpuMemoryCapacityMegabytes

GPU 设备的最大内存容量(以兆字节为单位)。 容量每分钟聚合一次。
GpuMemoryCapacityMegabytes 计数 平均值、最大值、最小值、总计 RunId、、InstanceIdDeviceId、、ComputeName PT1M
资源 GpuMemoryUtilization

GPU 节点上内存利用率的百分比。 利用率每分钟报告一次。
GpuMemoryUtilization 计数 平均值、最大值、最小值、总计 Scenario、、runIdNodeIdDeviceIdClusterName PT1M
资源 GpuMemoryUtilizationMegabytes

GPU 设备的内存利用率(以兆字节为单位)。 利用率每分钟聚合一次。
GpuMemoryUtilizationMegabytes 计数 平均值、最大值、最小值、总计 RunId、、InstanceIdDeviceId、、ComputeName PT1M
资源 GpuMemoryUtilizationPercentage

GPU 设备的内存利用率百分比。 利用率每分钟聚合一次。
GpuMemoryUtilizationPercentage 计数 平均值、最大值、最小值、总计 RunId、、InstanceIdDeviceId、、ComputeName PT1M
资源 GpuUtilization

GPU 节点上的使用率百分比。 利用率每分钟报告一次。
GpuUtilization 计数 平均值、最大值、最小值、总计 Scenario、、runIdNodeIdDeviceIdClusterName PT1M
资源 GpuUtilizationMilli GPU

GPU 设备利用率(以毫 GPU 为单位)。 利用率每分钟聚合一次。
GpuUtilizationMilliGPUs 计数 平均值、最大值、最小值、总计 RunId、、InstanceIdDeviceId、、ComputeName PT1M
资源 GpuUtilizationPercentage

GPU 设备的利用率百分比。 利用率每分钟聚合一次。
GpuUtilizationPercentage 计数 平均值、最大值、最小值、总计 RunId、、InstanceIdDeviceId、、ComputeName PT1M
资源 IBReceiveMegabytes

通过 InfiniBand 接收的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。
IBReceiveMegabytes 计数 平均值、最大值、最小值、总计 RunId、、InstanceIdComputeName、、DeviceId PT1M
资源 IBTransmitMegabytes

通过 InfiniBand 发送的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。
IBTransmitMegabytes 计数 平均值、最大值、最小值、总计 RunId、、InstanceIdComputeName、、DeviceId PT1M
配额 空闲核心

空闲核心数
Idle Cores 计数 平均值、最大值、最小值、总计 Scenario, ClusterName PT1M
配额 空闲节点

空闲节点数。 空闲节点是指未运行任何作业,但可以接受新作业(如果可用)的节点。
Idle Nodes 计数 平均值、最大值、最小值、总计 Scenario, ClusterName PT1M
配额 离开核心

正在退出的核心数
Leaving Cores 计数 平均值、最大值、最小值、总计 Scenario, ClusterName PT1M
配额 离开节点

正在退出的节点数。 正在退出的节点是指刚刚完成了作业处理,将进入空闲状态的节点。
Leaving Nodes 计数 平均值、最大值、最小值、总计 Scenario, ClusterName PT1M
模型 模型部署失败

此工作区中失败的模型部署数
Model Deploy Failed 计数 总计、平均值、最小值、最大值、计数 Scenario, StatusCode PT1M
模型 模型部署已启动

此工作区中已启动的模型部署数
Model Deploy Started 计数 总计、平均值、最小值、最大值、计数 Scenario PT1M
模型 模型部署成功

此工作区中成功的模型部署数
Model Deploy Succeeded 计数 总计、平均值、最小值、最大值、计数 Scenario PT1M
模型 模型注册失败

此工作区中失败的模型注册数
Model Register Failed 计数 总计、平均值、最小值、最大值、计数 Scenario, StatusCode PT1M
模型 模型注册成功

此工作区中成功的模型注册数
Model Register Succeeded 计数 总计、平均值、最小值、最大值、计数 Scenario PT1M
资源 NetworkInputMegabytes

接收的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。
NetworkInputMegabytes 计数 平均值、最大值、最小值、总计 RunId、、InstanceIdComputeName、、DeviceId PT1M
资源 NetworkOutputMegabytes

发送的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。
NetworkOutputMegabytes 计数 平均值、最大值、最小值、总计 RunId、、InstanceIdComputeName、、DeviceId PT1M
运行 未响应运行

此工作区无响应的运行数。 当运行进入无响应状态时,将更新计数。
Not Responding Runs 计数 总计、平均值、最小值、最大值、计数 Scenario、、RunTypePublishedPipelineIdComputeTypePipelineStepTypeExperimentName PT1M
运行 未启动的运行

此工作区处于“未启动”状态的运行数。 当收到创建运行的请求但尚未填充运行信息时,将更新计数。
Not Started Runs 计数 总计、平均值、最小值、最大值、计数 Scenario、、RunTypePublishedPipelineIdComputeTypePipelineStepTypeExperimentName PT1M
配额 抢占的核心

占用的核心数
Preempted Cores 计数 平均值、最大值、最小值、总计 Scenario, ClusterName PT1M
配额 抢占的节点

占用的节点数。 这些节点是已从可用节点池中取出的低优先级节点。
Preempted Nodes 计数 平均值、最大值、最小值、总计 Scenario, ClusterName PT1M
运行 准备运行

为此工作区准备的运行数。 准备运行环境时,当运行进入准备状态时,将更新计数。
Preparing Runs 计数 总计、平均值、最小值、最大值、计数 Scenario、、RunTypePublishedPipelineIdComputeTypePipelineStepTypeExperimentName PT1M
运行 预配运行

为此工作区预配的运行数。 当运行正在等待创建或预配计算目标时,将更新计数。
Provisioning Runs 计数 总计、平均值、最小值、最大值、计数 Scenario、、RunTypePublishedPipelineIdComputeTypePipelineStepTypeExperimentName PT1M
运行 排队运行

此工作区已排队的运行数。 当运行在计算目标中排队时,将更新计数。 等待所需计算节点准备就绪时,可能会发生。
Queued Runs 计数 总计、平均值、最小值、最大值、计数 Scenario、、RunTypePublishedPipelineIdComputeTypePipelineStepTypeExperimentName PT1M
配额 配额利用率百分比

已利用的配额百分比
Quota Utilization Percentage 计数 平均值、最大值、最小值、总计 Scenario、、ClusterNameVmFamilyName、、VmPriority PT1M
运行 已启动的运行

为此工作区运行的运行数。 运行在所需资源上开始运行时,将更新计数。
Started Runs 计数 总计、平均值、最小值、最大值、计数 Scenario、、RunTypePublishedPipelineIdComputeTypePipelineStepTypeExperimentName PT1M
运行 启动运行

为此工作区启动的运行数。 在请求创建运行和运行信息(如运行 ID)已填充后,将更新计数
Starting Runs 计数 总计、平均值、最小值、最大值、计数 Scenario、、RunTypePublishedPipelineIdComputeTypePipelineStepTypeExperimentName PT1M
资源 存储APIFailureCount

Azure Blob 存储 API 调用失败计数。
StorageAPIFailureCount 计数 平均值、最大值、最小值、总计 RunIdInstanceId、、 ComputeName PT1M
资源 存储APISuccessCount

Azure Blob 存储 API 调用成功计数。
StorageAPISuccessCount 计数 平均值、最大值、最小值、总计 RunIdInstanceId、、 ComputeName PT1M
配额 核心总数

核心总数
Total Cores 计数 平均值、最大值、最小值、总计 Scenario, ClusterName PT1M
配额 总节点数

节点总数。 此总数包括一些活动节点、空闲节点、不可用的节点、占用的节点和正在退出的节点
Total Nodes 计数 平均值、最大值、最小值、总计 Scenario, ClusterName PT1M
配额 不可用的核心

不可用的核心数
Unusable Cores 计数 平均值、最大值、最小值、总计 Scenario, ClusterName PT1M
配额 不可用的节点

不可用的节点数。 不可用的节点是由于存在某种不可解决的问题而无法正常运行的节点。 Azure 将回收这些节点。
Unusable Nodes 计数 平均值、最大值、最小值、总计 Scenario, ClusterName PT1M
运行 警告

此工作区中的运行警告数。 运行遇到警告时,将更新计数。
Warnings 计数 总计、平均值、最小值、最大值、计数 Scenario PT1M

Microsoft.MachineLearningServices/workspaces/onlineEndpoints 支持的指标

下表列出了可用于 Microsoft.MachineLearningServices/workspaces/onlineEndpoints 资源类型的指标。

  • 并非所有列都显示在每个表中。
  • 某些列可能超出了页面的查看区域。 选择“展开表”以查看所有可用列。

表标题

  • 类别 - 指标组或分类。
  • 指标 - 在 Azure 门户中显示的指标显示名称。
  • REST API 中的名称 - 在 REST API 中引用的指标名称
  • 单位 - 度量单位。
  • 聚合 - 默认的聚合类型。 有效值:平均值(平均)、最小值(最小值)、最大值(最大值)、总计(总和)、计数。
  • 维度 - 适用于指标的维度
  • 时间粒度 - 对指标采样的间隔 例如,PT1M 表示该指标每分钟采样一次,PT30M 表示每 30 分钟一次,PT1H 表示每小时一次,以此类推。
  • DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。 要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置
类别 指标 REST API 中的名称 Unit 聚合 维度 时间粒度 DS 导出
交通 连接活动

从客户端建立的有效并发 TCP 连接总数。
ConnectionsActive 计数 平均值 <无> PT1M
交通 每分钟数据收集错误

每分钟删除的数据收集事件数。
DataCollectionErrorsPerMinute 计数 最小值、最大值、平均值 deploymentreason、、 type PT1M
交通 每分钟数据收集事件数

每分钟处理的数据收集事件数。
DataCollectionEventsPerMinute 计数 最小值、最大值、平均值 deployment, type PT1M
交通 网络字节数

每秒为终结点处理的字节数。
NetworkBytes 每秒字节数 平均值 <无> PT1M
交通 每秒新连接数

每秒从客户端建立的新 TCP 连接平均数。
NewConnectionsPerSecond 每秒计数 平均值 <无> PT1M
交通 请求延迟

响应请求所花费的平均完整时间间隔(以毫秒为单位)
RequestLatency 毫秒 平均值 deployment PT1M
交通 请求延迟 P50

按所选时间段内收集的所有请求延迟值聚合的平均 P50 请求延迟
RequestLatency_P50 毫秒 平均值 deployment PT1M
交通 请求延迟 P90

按所选时间段内收集的所有请求延迟值聚合的平均 P90 请求延迟
RequestLatency_P90 毫秒 平均值 deployment PT1M
交通 请求延迟 P95

按所选时间段内收集的所有请求延迟值聚合的平均 P95 请求延迟
RequestLatency_P95 毫秒 平均值 deployment PT1M
交通 请求延迟 P99

按所选时间段内收集的所有请求延迟值聚合的平均 P99 请求延迟
RequestLatency_P99 毫秒 平均值 deployment PT1M
交通 每分钟请求数

在一分钟内发送到联机终结点的请求数
RequestsPerMinute 计数 平均值 deployment、、statusCodestatusCodeClass、、modelStatusCode PT1M

Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments 支持的指标

下表列出了可用于 Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments 资源类型的指标。

  • 并非所有列都显示在每个表中。
  • 某些列可能超出了页面的查看区域。 选择“展开表”以查看所有可用列。

表标题

  • 类别 - 指标组或分类。
  • 指标 - 在 Azure 门户中显示的指标显示名称。
  • REST API 中的名称 - 在 REST API 中引用的指标名称
  • 单位 - 度量单位。
  • 聚合 - 默认的聚合类型。 有效值:平均值(平均)、最小值(最小值)、最大值(最大值)、总计(总和)、计数。
  • 维度 - 适用于指标的维度
  • 时间粒度 - 对指标采样的间隔 例如,PT1M 表示该指标每分钟采样一次,PT30M 表示每 30 分钟一次,PT1H 表示每小时一次,以此类推。
  • DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。 要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置
类别 指标 REST API 中的名称 Unit 聚合 维度 时间粒度 DS 导出
资源 CPU 内存利用率百分比

实例上的内存利用率百分比。 利用率每分钟报告一次。
CpuMemoryUtilizationPercentage 百分比 最小值、最大值、平均值 instanceId PT1M
资源 CPU 使用率百分比

实例上的 CPU 利用率百分比。 利用率每分钟报告一次。
CpuUtilizationPercentage 百分比 最小值、最大值、平均值 instanceId PT1M
资源 每分钟数据收集错误

每分钟删除的数据收集事件数。
DataCollectionErrorsPerMinute 计数 最小值、最大值、平均值 instanceIdreason、、 type PT1M
资源 每分钟数据收集事件数

每分钟处理的数据收集事件数。
DataCollectionEventsPerMinute 计数 最小值、最大值、平均值 instanceId, type PT1M
资源 部署容量

部署中的实例数。
DeploymentCapacity 计数 最小值、最大值、平均值 instanceId, State PT1M
资源 磁盘利用率

实例上的磁盘利用率百分比。 利用率每分钟报告一次。
DiskUtilization 百分比 最小值、最大值、平均值 instanceId, disk PT1M
资源 Joules 中的 GPU 能量

GPU 节点上的间隔功耗(焦耳)。 功耗每分钟报告一次。
GpuEnergyJoules 计数 最小值、最大值、平均值 instanceId PT1M
资源 GPU 内存利用率百分比

实例上的 GPU 内存利用率百分比。 利用率每分钟报告一次。
GpuMemoryUtilizationPercentage 百分比 最小值、最大值、平均值 instanceId PT1M
资源 GPU 利用率百分比

实例上的 GPU 利用率百分比。 利用率每分钟报告一次。
GpuUtilizationPercentage 百分比 最小值、最大值、平均值 instanceId PT1M
交通 请求延迟 P50

按所选时间段内收集的所有请求延迟值聚合的平均 P50 请求延迟
RequestLatency_P50 毫秒 平均值 <无> PT1M
交通 请求延迟 P90

按所选时间段内收集的所有请求延迟值聚合的平均 P90 请求延迟
RequestLatency_P90 毫秒 平均值 <无> PT1M
交通 请求延迟 P95

按所选时间段内收集的所有请求延迟值聚合的平均 P95 请求延迟
RequestLatency_P95 毫秒 平均值 <无> PT1M
交通 请求延迟 P99

按所选时间段内收集的所有请求延迟值聚合的平均 P99 请求延迟
RequestLatency_P99 毫秒 平均值 <无> PT1M
交通 每分钟请求数

在一分钟内发送到联机部署的请求数
RequestsPerMinute 计数 平均值 envoy_response_code PT1M

指标维度

有关指标维度定义的信息,请参阅多维指标

此服务具有以下与其指标关联的维度。

维度 说明
群集名称 计算群集资源的名称。 可用于所有配额指标。
VM 系列名称 群集使用的 VM 系列的名称。 可用于配额使用率百分比。
VM 优先级 VM 的优先级。 可用于配额使用率百分比。
CreatedTime 仅适用于 CpuUtilization 和 GpuUtilization。
DeviceId 设备 (GPU) 的 ID。 仅适用于 GpuUtilization。
NodeId 作业运行时所在的已创建节点的 ID。 仅适用于 CpuUtilization 和 GpuUtilization。
RunId 运行/作业的 ID。 仅适用于 CpuUtilization 和 GpuUtilization。
ComputeType 运行时使用的计算类型。 仅适用于已完成的运行数、失败运行数和已启动的运行数。
PipelineStepType 运行时使用的 PipelineStep 类型。 仅适用于已完成的运行数、失败运行数和已启动的运行数。
PublishedPipelineId 运行时使用的已发布管道的 ID。 仅适用于已完成的运行数、失败运行数和已启动的运行数。
RunType 运行的类型。 仅适用于已完成的运行数、失败运行数和已启动的运行数。

RunType 维度的有效值为:

Value 说明
试验 非管道运行。
PipelineRun 管道运行,它是 StepRun 的父级。
StepRun 管道步骤的运行。
ReusedStepRun 重用上次运行的管道步骤的运行。

资源日志

本部分列出了可为此服务收集的资源日志类型。 本部分拉取自 Azure Monitor 支持的所有资源日志类别类型列表。

Microsoft.MachineLearningServices/registries 支持的资源日志

Category 类别显示名称 日志表 支持基本日志计划 支持引入时间转换 示例查询 导出成本
RegistryAssetReadEvent 注册表资产读取事件 No
RegistryAssetWriteEvent 注册表资产写入事件 No

Microsoft.MachineLearningServices/workspaces 支持的资源日志

Category 类别显示名称 日志表 支持基本日志计划 支持引入时间转换 示例查询 导出成本
AmlComputeClusterEvent AmlComputeClusterEvent AmlComputeClusterEvent

AmlCompute 群集事件

查询
AmlComputeClusterNodeEvent AmlComputeClusterNodeEvent
AmlComputeCpuGpuUtilization AmlComputeCpuGpuUtilization AmlComputeCpuGpuUtilization

Azure 机器学习服务 CPU 和 GPU 利用率日志。

查询
AmlComputeJobEvent AmlComputeJobEvent AmlComputeJobEvent

AmlCompute 作业事件

查询
AmlRunStatusChangedEvent AmlRunStatusChangedEvent AmlRunStatusChangedEvent

Azure 机器学习服务运行状态事件日志。

ComputeInstanceEvent ComputeInstanceEvent AmlComputeInstanceEvent

访问(读取/写入)ML 计算实例时生成的事件。

DataLabelChangeEvent DataLabelChangeEvent AmlDataLabelEvent

访问(读取、创建或删除)数据标签或其项目时生成的事件。

DataLabelReadEvent DataLabelReadEvent AmlDataLabelEvent

访问(读取、创建或删除)数据标签或其项目时生成的事件。

DataSetChangeEvent DataSetChangeEvent AmlDataSetEvent

访问已注册或未注册的 ML 数据存储时发生的事件(读取、创建或删除)。

查询
DataSetReadEvent DataSetReadEvent AmlDataSetEvent

访问已注册或未注册的 ML 数据存储时发生的事件(读取、创建或删除)。

查询
DataStoreChangeEvent DataStoreChangeEvent AmlDataStoreEvent

访问(读取、创建或删除)ML 数据存储时生成的事件。

DataStoreReadEvent DataStoreReadEvent AmlDataStoreEvent

访问(读取、创建或删除)ML 数据存储时生成的事件。

DeploymentEventACI DeploymentEventACI AmlDeploymentEvent

在 ACI 或 AKS 上进行模型部署时生成的事件。

DeploymentEventAKS DeploymentEventAKS AmlDeploymentEvent

在 ACI 或 AKS 上进行模型部署时生成的事件。

DeploymentReadEvent DeploymentReadEvent AmlDeploymentEvent

在 ACI 或 AKS 上进行模型部署时生成的事件。

EnvironmentChangeEvent EnvironmentChangeEvent AmlEnvironmentEvent

访问 ML 环境时的事件(读取、创建或删除)。

查询
EnvironmentReadEvent EnvironmentReadEvent AmlEnvironmentEvent

访问 ML 环境时的事件(读取、创建或删除)。

查询
InferencingOperationACI InferencingOperationACI AmlInferencingEvent

AKS 或 ACI 计算类型上的推理或相关操作事件。

InferencingOperationAKS InferencingOperationAKS AmlInferencingEvent

AKS 或 ACI 计算类型上的推理或相关操作事件。

ModelsActionEvent ModelsActionEvent AmlModelsEvent

访问(读取、创建或删除)ML 模型时生成的事件。 将模型和资产打包到现成的包中时,会引发事件。

查询
ModelsChangeEvent ModelsChangeEvent AmlModelsEvent

访问(读取、创建或删除)ML 模型时生成的事件。 将模型和资产打包到现成的包中时,会引发事件。

查询
ModelsReadEvent ModelsReadEvent AmlModelsEvent

访问(读取、创建或删除)ML 模型时生成的事件。 将模型和资产打包到现成的包中时,会引发事件。

查询
PipelineChangeEvent PipelineChangeEvent AmlPipelineEvent

访问 ML 管道草稿或终结点或模块时的事件(读取、创建或删除)。

PipelineReadEvent PipelineReadEvent AmlPipelineEvent

访问 ML 管道草稿或终结点或模块时的事件(读取、创建或删除)。

RunEvent RunEvent AmlRunEvent

访问(读取、创建或删除)ML 试验时生成的事件。

RunReadEvent RunReadEvent AmlRunEvent

访问(读取、创建或删除)ML 试验时生成的事件。

Microsoft.MachineLearningServices/workspaces/onlineEndpoints 支持的资源日志

Category 类别显示名称 日志表 支持基本日志计划 支持引入时间转换 示例查询 导出成本
AmlOnlineEndpointConsoleLog AmlOnlineEndpointConsoleLog AmlOnlineEndpointConsoleLog

Azure ML 联机终结点控制台日志。 它提供用户容器的控制台日志输出。

查询
AmlOnlineEndpointEventLog AmlOnlineEndpointEventLog AmlOnlineEndpointEventLog

Azure ML 联机终结点事件日志。 它提供有关推理服务器容器生命周期的事件日志。

查询
AmlOnlineEndpointTrafficLog AmlOnlineEndpointTrafficLog AmlOnlineEndpointTrafficLog

AzureML(机器学习)联机终结点的流量日志。 该表可用于检查请求到联机终结点的详细信息。 例如,可以使用它检查请求持续时间、请求失败原因等。

查询

Azure Monitor 日志表

本部分列出了与此服务相关的 Azure Monitor 日志表,这些表可供 Log Analytics 使用 Kusto 查询进行查询。 这些表包含资源日志数据,可能更多数据取决于收集的内容并将其路由到它们。

机器学习

Microsoft.MachineLearningServices/workspaces

Microsoft.MachineLearningServices/registries

活动日志

链接表列出了可在此服务的活动日志中记录的操作。 这些操作是活动日志中所有可能的资源提供程序操作的子集。

有关活动日志条目架构的详细信息,请参阅活动日志架构

下表列出了可能在活动日志中创建的与机器学习相关的部分操作。 有关 Microsoft.MachineLearningServices 操作的完整列表,请参阅 Microsoft.MachineLearningServices 资源提供程序操作

操作 说明
创建或更新机器学习工作区 已创建或更新工作区
检查计算名称可用性 检查计算名称是否已在使用中
创建或更新计算资源 已创建或更新计算资源
删除计算资源 已删除计算资源
列出机密 执行操作时列出的机器学习工作区的机密

日志架构

Azure 机器学习使用以下架构。

AmlComputeJobEvent 表

属性 说明
TimeGenerated 生成日志项目的时间
OperationName 与日志事件关联的操作的名称
Category 日志事件的名称
JobId 已提交作业的 ID
ExperimentId 试验的 ID
ExperimentName 试验的名称
CustomerSubscriptionId 已提交的试验和作业的 SubscriptionId
WorkspaceName 机器学习工作区的名称
ClusterName 群集的名称
ProvisioningState 作业提交的状态
ResourceGroupName 资源组的名称
JobName 作业的名称
ClusterId 群集的 ID
EventType 作业事件的类型。 例如 JobSubmitted、JobRunning、JobFailed、JobSucceeded。
ExecutionState 作业(运行)的状态。 例如已排队、正在运行、成功、失败
ErrorDetails 作业错误的详细信息
CreationApiVersion 用于创建作业的 Api 版本
ClusterResourceGroupName 群集的资源组名称
TFWorkerCount TF 辅助角色的计数
TFParameterServerCount TF 参数服务器的计数
ToolType 使用的工具类型
RunInContainer 描述作业是否应在容器中运行的标志
JobErrorMessage 作业错误的详细消息
NodeId 作业运行时所创建节点的 ID

AmlComputeClusterEvent 表

属性 说明
TimeGenerated 生成日志项目的时间
OperationName 与日志事件关联的操作的名称
Category 日志事件的名称
ProvisioningState 群集的预配状态
ClusterName 群集的名称
ClusterType 群集的类型
CreatedBy 创建群集的用户
CoreCount 群集中的核心计数
VmSize 群集的 VM 大小
VmPriority 在群集内所创建节点的优先级 Dedicated/LowPriority
ScalingType 群集缩放的类型手动/自动
InitialNodeCount 群集的初始节点计数
MinimumNodeCount 群集的最小节点计数
MaximumNodeCount 群集的最大节点计数
NodeDeallocationOption 解除分配节点的方法
发布者 群集类型的发布服务器
产品/服务 用于创建群集的产品/服务
SKU 群集内所创建节点/VM 的 Sku
版本 创建节点/VM 时使用的映像版本
SubnetId 群集的 SubnetId
AllocationState 群集分配状态
CurrentNodeCount 群集的当前节点计数
TargetNodeCount 群集纵向扩展/减少时的目标节点计数
EventType 群集创建期间的事件类型。
NodeIdleTimeSecondsBeforeScaleDown 群集纵向缩减之前的空闲时间(以秒为单位)
PreemptedNodeCount 群集的已占用节点计数
IsResizeGrow 指示群集正在纵向扩展的标志
VmFamilyName 可在群集内创建的节点的 VM 系列名称
LeavingNodeCount 群集的正在离开节点计数
UnusableNodeCount 群集的不可用节点计数
IdleNodeCount 群集的空闲节点计数
RunningNodeCount 群集的正在运行节点计数
PreparingNodeCount 群集的正在准备节点计数
QuotaAllocated 群集的已分配配额
QuotaUtilized 群集的已利用配额
AllocationStateTransitionTime 将时间从一种状态转换为另一种状态
ClusterErrorCodes 群集创建或缩放期间收到的错误代码
CreationApiVersion 创建群集时使用的 API 版本

AmlComputeInstanceEvent 表

属性 说明
类型 日志事件的名称,AmlComputeInstanceEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
CorrelationId 用于将一组相关事件组合在一起的 GUID(如果适用)。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlComputeInstanceName 与日志项关联的计算实例的名称。

AmlDataLabelEvent 表

属性 说明
类型 日志事件的名称,AmlDataLabelEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
CorrelationId 用于将一组相关事件组合在一起的 GUID(如果适用)。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlProjectId Azure 机器学习项目的唯一标识符。
AmlProjectName Azure 机器学习项目的名称。
AmlLabelNames 为项目创建的标签类名。
AmlDataStoreName 用于存储项目数据的数据存储的名称。

AmlDataSetEvent 表

属性 说明
类型 日志事件的名称,AmlDataSetEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
AmlWorkspaceId Azure 机器学习工作区的 GUID 和唯一 ID。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlDatasetId Azure 机器学习数据集的 ID。
AmlDatasetName Azure 机器学习数据集的名称。

AmlDataStoreEvent 表

属性 说明
类型 日志事件的名称,AmlDataStoreEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
AmlWorkspaceId Azure 机器学习工作区的 GUID 和唯一 ID。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlDatastoreName Azure 机器学习数据存储的名称。

AmlDeploymentEvent 表

属性 说明
类型 日志事件的名称,AmlDeploymentEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlServiceName Azure 机器学习服务的名称。

AmlInferencingEvent 表

属性 说明
类型 日志事件的名称,AmlInferencingEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlServiceName Azure 机器学习服务的名称。

AmlModelsEvent 表

属性 说明
类型 日志事件的名称,AmlModelsEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
ResultSignature 事件的 HTTP 状态代码。 典型值包括 200、201、202 等。
AmlModelName Azure 机器学习模型的名称。

AmlPipelineEvent 表

属性 说明
类型 日志事件的名称,AmlPipelineEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
AmlWorkspaceId Azure 机器学习工作区的 GUID 和唯一 ID。
AmlWorkspaceId Azure 机器学习工作区的名称。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlModuleId 模块的 GUID 和唯一 ID。
AmlModelName Azure 机器学习模型的名称。
AmlPipelineId Azure 机器学习管道的 ID。
AmlParentPipelineId 父 Azure 机器学习管道的 ID(克隆时)。
AmlPipelineDraftId Azure 机器学习管道草稿的 ID。
AmlPipelineDraftName Azure 机器学习管道草稿的名称。
AmlPipelineEndpointId Azure 机器学习管道终结点的 ID。
AmlPipelineEndpointName Azure 机器学习管道终结点的名称。

AmlRunEvent 表

属性 说明
类型 日志事件的名称,AmlRunEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
OperationName 与日志项关联的操作的名称
AmlWorkspaceId Azure 机器学习工作区的 GUID 和唯一 ID。
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
RunId 运行的唯一 ID。

AmlEnvironmentEvent 表

属性 说明
类型 日志事件的名称,AmlEnvironmentEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlEnvironmentName Azure 机器学习环境配置的名称。
AmlEnvironmentVersion Azure 机器学习环境配置版本的名称。

AMLOnlineEndpointTrafficLog 表(预览版)

属性 说明
方法 从客户端请求的方法。
路径 从客户端请求的路径。
SubscriptionId 联机终结点的机器学习订阅 ID。
AzureMLWorkspaceId 联机终结点的机器学习工作区 ID。
AzureMLWorkspaceName 联机终结点的机器学习工作区名称。
EndpointName 联机终结点的名称。
DeploymentName 联机部署的名称。
协议 请求的协议。
ResponseCode 返回到客户端的最终响应代码。
ResponseCodeReason 返回到客户端的最终响应代码原因。
ModelStatusCode 模型的响应状态代码。
ModelStatusReason 模型的响应状态原因。
RequestPayloadSize 从客户端接收的总字节数。
ResponsePayloadSize 发回客户端的总字节数。
UserAgent 请求的用户代理标头(包括注释,但被截断为最多 70 个字符)。
XRequestId Azure 机器学习为内部跟踪生成的请求 ID。
XMSClientRequestId 客户端生成的跟踪 ID。
TotalDurationMs 从请求开始到向客户端发回最后一个响应字节之间的持续时间(以毫秒为单位)。 如果客户端断开连接,则度量请求开始到客户端断开连接之间的时间。
RequestDurationMs 从请求开始到从客户端接收请求的最后一个字节之间的持续时间(以毫秒为单位)。
ResponseDurationMs 从请求开始到从模型读取第一个响应字节之间的持续时间(以毫秒为单位)。
RequestThrottlingDelayMs 因网络限制而导致的请求数据传输延迟(以毫秒为单位)。
ResponseThrottlingDelayMs 因网络限制而导致的响应数据传输延迟(以毫秒为单位)。

有关此日志的详细信息,请参阅监视联机终结点

AMLOnlineEndpointConsoleLog

属性 说明
TimeGenerated 生成日志的时间戳 (UTC)。
OperationName 与日志记录相关联的操作。
InstanceId 生成此日志记录的实例的 ID。
DeploymentName 与日志记录关联的部署的名称。
ContainerName 生成日志的容器的名称。
消息 日志内容。

有关此日志的详细信息,请参阅监视联机终结点

AMLOnlineEndpointEventLog(预览版)

属性 说明
TimeGenerated 生成日志的时间戳 (UTC)。
OperationName 与日志记录相关联的操作。
InstanceId 生成此日志记录的实例的 ID。
DeploymentName 与日志记录关联的部署的名称。
名称 事件的名称。
消息 事件内容。

有关此日志的详细信息,请参阅监视联机终结点