共用方式為


Azure 機器學習 監視數據參考

本文包含此服務的所有監視參考資訊。

如需您可以針對 Azure 機器學習 收集的數據及其使用方式的詳細資訊,請參閱監視 機器學習

計量

本節列出針對此服務的所有自動收集平台計量。 這些計量也是 Azure 監視器中支援的所有平台計量全域清單的一部分。

如需計量保留的相關資訊,請參閱 Azure 監視器計量概觀

這些計量的資源提供者Microsoft.MachineLearningServices/workspaces。

計量類別為 模型配額資源執行流量配額資訊僅適用於 機器學習 計算。 執行 提供工作區定型執行的相關信息。

Microsoft.MachineLearningServices/workspaces 的支持計量

下表列出 Microsoft.MachineLearningServices/workspaces 資源類型的可用計量。

  • 所有資料行可能不存在於每個資料表中。
  • 某些資料行可能超出頁面的檢視區域。 選取 [展開資料表] 以檢視所有可用的資料行。

資料表標題

  • 類別 - 計量群組或分類。
  • 計量 - Azure 入口網站中顯示的計量顯示名稱。
  • REST API 中的名稱 - REST API 中所指的計量名稱。
  • 單位 - 測量單位。
  • 彙總 - 預設彙總類型。 有效值:平均值 (Avg)、最小值 (Min)、最大值 (Max)、總計 (Sum)、計數。
  • 維度 - 計量可用的維度
  • 時間精細度 - 取樣計量的間隔。 例如,PT1M 表示計量會每分鐘取樣、每 30 分鐘PT30M、每小時 PT1H,以此類推。
  • DS 匯出 - 計量是否可透過診斷設定,匯出至 Azure 監視器記錄。 如需匯出計量的資訊,請參閱在 Azure 監視器中建立診斷設定

類別:代理程式

計量 REST API 中的名稱 單位 彙總 維度 時間精細度 DS 匯出
代理程式

此工作區中的 AI 代理程式事件數目
Agents 計數 平均值、最大值、最小值、總計 (總和) EventType PT1M
IndexedFiles

在此工作區中針對檔案搜尋編製索引的檔案數目
IndexedFiles 計數 平均值、最大值、最小值、總計 (總和) ErrorCode、 、 StatusVectorStoreId PT1M
訊息

此工作區中 AI 代理程式訊息的事件數目
Messages 計數 平均值、最大值、最小值、總計 (總和) EventTypeThreadId PT1M
執行

此工作區中的 AI 代理程式執行次數
Runs 計數 平均值、最大值、最小值、總計 (總和) AgentId、 、 RunStatusStatusCodeStreamType PT1M
討論串

此工作區中 AI 代理程式線程的事件數目
Threads 計數 平均值、最大值、最小值、總計 (總和) EventType PT1M
代幣

此工作區中 AI 代理程式的令牌計數
Tokens 計數 平均值、最大值、最小值、總計 (總和) AgentIdTokenType PT1M
ToolCalls

在此工作區中由 AI 代理程式進行的工具呼叫
ToolCalls 計數 平均值、最大值、最小值、總計 (總和) AgentIdToolName PT1M

類別:模型

計量 REST API 中的名稱 單位 彙總 維度 時間精細度 DS 匯出
模型部署失敗

此工作區中失敗的模型部署數目
Model Deploy Failed 計數 總計(Sum)、平均、最小值、最大值、計數 ScenarioStatusCode PT1M 是的
模型部署已啟動

在此工作區中啟動的模型部署數目
Model Deploy Started 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario PT1M 是的
模型部署成功

此工作區中成功的模型部署數目
Model Deploy Succeeded 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario PT1M 是的
模型註冊失敗

此工作區中失敗的模型註冊數目
Model Register Failed 計數 總計(Sum)、平均、最小值、最大值、計數 ScenarioStatusCode PT1M 是的
模型快取器成功

此工作區中成功的模型註冊數目
Model Register Succeeded 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario PT1M 是的

類別:配額

計量 REST API 中的名稱 單位 彙總 維度 時間精細度 DS 匯出
主動核心

使用中核心數目
Active Cores 計數 平均值、最大值、最小值、總計 (總和) ScenarioClusterName PT1M 是的
作用中節點

Acitve 節點數目。 這些是正在主動執行作業的節點。
Active Nodes 計數 平均值、最大值、最小值、總計 (總和) ScenarioClusterName PT1M 是的
閑置核心

閑置核心數目
Idle Cores 計數 平均值、最大值、最小值、總計 (總和) ScenarioClusterName PT1M 是的
閑置節點

閑置節點數目。 閑置節點是未執行任何作業,但可在可用時接受新作業的節點。
Idle Nodes 計數 平均值、最大值、最小值、總計 (總和) ScenarioClusterName PT1M 是的
離開核心

離開核心的數目
Leaving Cores 計數 平均值、最大值、最小值、總計 (總和) ScenarioClusterName PT1M 是的
離開節點

離開節點的數目。 離開節點是剛剛完成處理作業的節點,而且會進入 [閑置] 狀態。
Leaving Nodes 計數 平均值、最大值、最小值、總計 (總和) ScenarioClusterName PT1M 是的
先佔核心

先佔核心數目
Preempted Cores 計數 平均值、最大值、最小值、總計 (總和) ScenarioClusterName PT1M 是的
先佔的節點

先佔節點的數目。 這些節點是從可用節點集區中取走的低優先順序節點。
Preempted Nodes 計數 平均值、最大值、最小值、總計 (總和) ScenarioClusterName PT1M 是的
配額使用率百分比

使用配額的百分比
Quota Utilization Percentage 計數 平均值、最大值、最小值、總計 (總和) Scenario、 、 ClusterNameVmFamilyNameVmPriority PT1M 是的
總核心數

核心總數
Total Cores 計數 平均值、最大值、最小值、總計 (總和) ScenarioClusterName PT1M 是的
節點總數

節點總數。 此總計包含一些作用中節點、閑置節點、無法使用的節點、預先佔用的節點、離開節點
Total Nodes 計數 平均值、最大值、最小值、總計 (總和) ScenarioClusterName PT1M 是的
無法使用的核心

無法使用的核心數目
Unusable Cores 計數 平均值、最大值、最小值、總計 (總和) ScenarioClusterName PT1M 是的
無法使用的節點

無法使用的節點數目。 由於某些無法解決的問題,無法使用的節點無法運作。 Azure 會回收這些節點。
Unusable Nodes 計數 平均值、最大值、最小值、總計 (總和) ScenarioClusterName PT1M 是的

類別:資源

計量 REST API 中的名稱 單位 彙總 維度 時間精細度 DS 匯出
CPU容量毫核

millicores 中 CPU 節點的最大容量。 容量會以一分鐘間隔匯總。
CpuCapacityMillicores 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeName PT1M 是的
CpuMemoryCapacityMegabytes

CPU 節點的最大記憶體使用率,以 MB 為單位。 使用率會以一分鐘間隔匯總。
CpuMemoryCapacityMegabytes 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeName PT1M 是的
CpuMemoryUtilizationMegabytes

以 MB 為單位的 CPU 節點記憶體使用率。 使用率會以一分鐘間隔匯總。
CpuMemoryUtilizationMegabytes 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeName PT1M 是的
CpuMemoryUtilizationPercentage

CPU 節點的記憶體使用率百分比。 使用率會以一分鐘間隔匯總。
CpuMemoryUtilizationPercentage 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeName PT1M 是的
CPU使用率

CPU 節點上使用率的百分比。 使用量會以一分鐘為間隔提供報告。
CpuUtilization 計數 平均值、最大值、最小值、總計 (總和) Scenario、 、 runIdNodeIdClusterName PT1M 是的
CpuUtilizationMillicores

在 millicores 中使用率 CPU 節點。 使用率會以一分鐘間隔匯總。
CpuUtilizationMillicores 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeName PT1M 是的
CpuUtilizationPercentage

CPU 節點的使用率百分比。 使用率會以一分鐘間隔匯總。
CpuUtilizationPercentage 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeName PT1M 是的
DiskAvailMegabytes

可用磁碟空間以 MB 為單位。 計量會以一分鐘間隔匯總。
DiskAvailMegabytes 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeName PT1M 是的
DiskReadMegabytes

以 MB 為單位從磁碟讀取的數據。 計量會以一分鐘間隔匯總。
DiskReadMegabytes 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeName PT1M 是的
DiskUsedMegabytes

已使用 MB 的磁碟空間。 計量會以一分鐘間隔匯總。
DiskUsedMegabytes 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeName PT1M 是的
DiskWriteMegabytes

以 MB 為單位寫入磁碟的數據。 計量會以一分鐘間隔匯總。
DiskWriteMegabytes 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeName PT1M 是的
GpuCapacityMilli GPU

在 milli-GPU 中 GPU 裝置的最大容量。 容量會以一分鐘間隔匯總。
GpuCapacityMilliGPUs 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdDeviceIdComputeName PT1M 是的
GpuEnergyJoules

GPU 節點上的間隔能源 (焦耳)。 能源會以一分鐘的間隔提供報告。
GpuEnergyJoules 計數 平均值、最大值、最小值、總計 (總和) Scenario、、runIdrootRunIdInstanceId、、DeviceIdComputeName PT1M 是的
GpuMemoryCapacityMegabytes

GPU 裝置的最大記憶體容量,以 MB 為單位。 以一分鐘間隔匯總的容量。
GpuMemoryCapacityMegabytes 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdDeviceIdComputeName PT1M 是的
GpuMemoryUtilization

GPU 節點上的記憶體使用率百分比。 使用量會以一分鐘為間隔提供報告。
GpuMemoryUtilization 計數 平均值、最大值、最小值、總計 (總和) Scenario、、 runIdNodeIdDeviceIdClusterName PT1M 是的
GpuMemoryUtilizationMegabytes

以 MB 為單位的 GPU 裝置記憶體使用率。 以一分鐘間隔匯總的使用率。
GpuMemoryUtilizationMegabytes 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdDeviceIdComputeName PT1M 是的
GpuMemoryUtilizationPercentage

GPU 裝置的記憶體使用率百分比。 以一分鐘間隔匯總的使用率。
GpuMemoryUtilizationPercentage 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdDeviceIdComputeName PT1M 是的
GpuUtilization

GPU 節點上使用率的百分比。 使用量會以一分鐘為間隔提供報告。
GpuUtilization 計數 平均值、最大值、最小值、總計 (總和) Scenario、、 runIdNodeIdDeviceIdClusterName PT1M 是的
GpuUtilizationMilli GPU

在 milli-GPU 中使用 GPU 裝置。 使用率會以一分鐘間隔匯總。
GpuUtilizationMilliGPUs 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdDeviceIdComputeName PT1M 是的
GpuUtilizationPercentage

GPU 裝置的使用率百分比。 使用率會以一分鐘間隔匯總。
GpuUtilizationPercentage 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdDeviceIdComputeName PT1M 是的
IBReceiveMegabytes

透過 InfiniBand 接收的網路數據以 MB 為單位。 計量會以一分鐘間隔匯總。
IBReceiveMegabytes 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeNameDeviceId PT1M 是的
IBTransmitMegabytes

透過 InfiniBand 以 MB 為單位傳送的網路數據。 計量會以一分鐘間隔匯總。
IBTransmitMegabytes 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeNameDeviceId PT1M 是的
NetworkInputMegabytes

以 MB 為單位接收的網路數據。 計量會以一分鐘間隔匯總。
NetworkInputMegabytes 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeNameDeviceId PT1M 是的
網路輸出MB數

以 MB 為單位傳送的網路數據。 計量會以一分鐘間隔匯總。
NetworkOutputMegabytes 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeNameDeviceId PT1M 是的
StorageAPIFailureCount

Azure Blob 儲存體 API 呼叫失敗計數。
StorageAPIFailureCount 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeName PT1M 是的
StorageAPISuccessCount

Azure Blob 儲存體 API 呼叫成功計數。
StorageAPISuccessCount 計數 平均值、最大值、最小值、總計 (總和) RunId、 、 InstanceIdComputeName PT1M 是的

類別:執行

計量 REST API 中的名稱 單位 彙總 維度 時間精細度 DS 匯出
取消要求的執行

此工作區要求取消的執行次數。 已收到執行取消要求時,就會更新計數。
Cancel Requested Runs 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario、、RunTypePublishedPipelineIdComputeType、、PipelineStepTypeExperimentName PT1M 是的
已取消的執行

取消此工作區的執行次數。 成功取消執行時,會更新計數。
Cancelled Runs 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario、、RunTypePublishedPipelineIdComputeType、、PipelineStepTypeExperimentName PT1M 是的
已完成的執行

此工作區成功完成的執行次數。 執行完成並收集輸出時,就會更新計數。
Completed Runs 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario、、RunTypePublishedPipelineIdComputeType、、PipelineStepTypeExperimentName PT1M 是的
錯誤

此工作區中的執行錯誤數目。 每當執行發生錯誤時,就會更新計數。
Errors 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario PT1M 是的
失敗的執行

此工作區的執行失敗數目。 執行失敗時會更新計數。
Failed Runs 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario、、RunTypePublishedPipelineIdComputeType、、PipelineStepTypeExperimentName PT1M 是的
完成執行

此工作區進入完成狀態的執行次數。 執行完成但輸出集合仍在進行中時,計數會更新。
Finalizing Runs 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario、、RunTypePublishedPipelineIdComputeType、、PipelineStepTypeExperimentName PT1M 是的
未回應執行

未回應此工作區的執行次數。 執行進入「未響應」狀態時,就會更新計數。
Not Responding Runs 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario、、RunTypePublishedPipelineIdComputeType、、PipelineStepTypeExperimentName PT1M 是的
未啟動的執行

此工作區的 [未啟動] 狀態執行次數。 收到要求以建立執行,但尚未填入執行資訊時,就會更新計數。
Not Started Runs 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario、、RunTypePublishedPipelineIdComputeType、、PipelineStepTypeExperimentName PT1M 是的
準備執行

正在準備此工作區的執行數目。 當執行進入準備狀態時,執行進入準備狀態時,就會更新計數。
Preparing Runs 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario、、RunTypePublishedPipelineIdComputeType、、PipelineStepTypeExperimentName PT1M 是的
布建執行

為此工作區布建的執行次數。 執行等候計算目標建立或布建時,計數會更新。
Provisioning Runs 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario、、RunTypePublishedPipelineIdComputeType、、PipelineStepTypeExperimentName PT1M 是的
已排入佇列的執行

已為此工作區排入佇列的執行數目。 計算目標中排入佇列時,會更新計數。 等候必要的計算節點準備好時,可能會發生此情況。
Queued Runs 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario、、RunTypePublishedPipelineIdComputeType、、PipelineStepTypeExperimentName PT1M 是的
已啟動的執行

為此工作區執行的執行次數。 當執行開始在必要資源上執行時,就會更新計數。
Started Runs 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario、、RunTypePublishedPipelineIdComputeType、、PipelineStepTypeExperimentName PT1M 是的
啟動執行

為此工作區啟動的執行次數。 在建立執行和執行資訊的要求之後,計數會更新,例如執行標識碼已填入
Starting Runs 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario、、RunTypePublishedPipelineIdComputeType、、PipelineStepTypeExperimentName PT1M 是的
警告

此工作區中的執行警告數目。 每當執行遇到警告時,就會更新計數。
Warnings 計數 總計(Sum)、平均、最小值、最大值、計數 Scenario PT1M 是的

Microsoft.MachineLearningServices/workspaces/onlineEndpoints 的支持計量

下表列出 Microsoft.MachineLearningServices/workspaces/onlineEndpoints 資源類型的可用計量。

  • 所有資料行可能不存在於每個資料表中。
  • 某些資料行可能超出頁面的檢視區域。 選取 [展開資料表] 以檢視所有可用的資料行。

資料表標題

  • 類別 - 計量群組或分類。
  • 計量 - Azure 入口網站中顯示的計量顯示名稱。
  • REST API 中的名稱 - REST API 中所指的計量名稱。
  • 單位 - 測量單位。
  • 彙總 - 預設彙總類型。 有效值:平均值 (Avg)、最小值 (Min)、最大值 (Max)、總計 (Sum)、計數。
  • 維度 - 計量可用的維度
  • 時間精細度 - 取樣計量的間隔。 例如,PT1M 表示計量會每分鐘取樣、每 30 分鐘PT30M、每小時 PT1H,以此類推。
  • DS 匯出 - 計量是否可透過診斷設定,匯出至 Azure 監視器記錄。 如需匯出計量的資訊,請參閱在 Azure 監視器中建立診斷設定

類別:流量

計量 REST API 中的名稱 單位 彙總 維度 時間精細度 DS 匯出
連線作用中

來自用戶端的作用中並行 TCP 連線總數。
ConnectionsActive 計數 平均 <無> PT1M
每分鐘資料收集錯誤

每分鐘捨棄的資料收集事件數目。
DataCollectionErrorsPerMinute 計數 下限、上限、平均 deployment、 、 reasontype PT1M
每分鐘資料收集活動

每分鐘處理的資料收集事件數目。
DataCollectionEventsPerMinute 計數 下限、上限、平均 deploymenttype PT1M
網路位元組

每秒為此端點服務的位元組數。
NetworkBytes 每秒字節數 平均 <無> PT1M
每秒的新連線數

從用戶端建立的每秒 TCP 新連線的平均數目。
NewConnectionsPerSecond 每秒計數 平均 <無> PT1M
要求延遲

以毫秒表示回應要求所花費的平均完整時間間隔
RequestLatency 毫秒 平均 deployment PT1M 是的
要求延遲 P50

由在所選時間期間收集之所有要求延遲值彙總的平均 P50 要求延遲
RequestLatency_P50 毫秒 平均 deployment PT1M 是的
要求延遲 P90

由在所選時間期間收集之所有要求延遲值彙總的平均 P90 要求延遲
RequestLatency_P90 毫秒 平均 deployment PT1M 是的
要求延遲 P95

由在所選時間期間收集之所有要求延遲值彙總的平均 P95 要求延遲
RequestLatency_P95 毫秒 平均 deployment PT1M 是的
要求延遲 P99

由在所選時間期間收集之所有要求延遲值彙總的平均 P99 要求延遲
RequestLatency_P99 毫秒 平均 deployment PT1M 是的
每分鐘要求

在一分鐘內傳送至線上端點的要求數目
RequestsPerMinute 計數 平均 deployment、 、 statusCodestatusCodeClassmodelStatusCode PT1M

Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments 的支持計量

下表列出 Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments 資源類型的可用計量。

  • 所有資料行可能不存在於每個資料表中。
  • 某些資料行可能超出頁面的檢視區域。 選取 [展開資料表] 以檢視所有可用的資料行。

資料表標題

  • 類別 - 計量群組或分類。
  • 計量 - Azure 入口網站中顯示的計量顯示名稱。
  • REST API 中的名稱 - REST API 中所指的計量名稱。
  • 單位 - 測量單位。
  • 彙總 - 預設彙總類型。 有效值:平均值 (Avg)、最小值 (Min)、最大值 (Max)、總計 (Sum)、計數。
  • 維度 - 計量可用的維度
  • 時間精細度 - 取樣計量的間隔。 例如,PT1M 表示計量會每分鐘取樣、每 30 分鐘PT30M、每小時 PT1H,以此類推。
  • DS 匯出 - 計量是否可透過診斷設定,匯出至 Azure 監視器記錄。 如需匯出計量的資訊,請參閱在 Azure 監視器中建立診斷設定

類別:資源

計量 REST API 中的名稱 單位 彙總 維度 時間精細度 DS 匯出
CPU 記憶體使用率百分比

執行個體上的記憶體使用率百分比。 使用量會以一分鐘為間隔提供報告。
CpuMemoryUtilizationPercentage 百分比 下限、上限、平均 instanceId PT1M 是的
CPU 使用率百分比

執行個體上的 CPU 使用率百分比。 使用量會以一分鐘為間隔提供報告。
CpuUtilizationPercentage 百分比 下限、上限、平均 instanceId PT1M 是的
每分鐘資料收集錯誤

每分鐘捨棄的資料收集事件數目。
DataCollectionErrorsPerMinute 計數 下限、上限、平均 instanceId、 、 reasontype PT1M
每分鐘資料收集活動

每分鐘處理的資料收集事件數目。
DataCollectionEventsPerMinute 計數 下限、上限、平均 instanceIdtype PT1M
部署容量

部署中的執行個體數目。
DeploymentCapacity 計數 下限、上限、平均 instanceIdState PT1M
磁碟使用率

執行個體上的磁碟使用率百分比。 使用量會以一分鐘為間隔提供報告。
DiskUtilization 百分比 下限、上限、平均 instanceIddisk PT1M 是的
以焦耳表示 GPU 能源

GPU 節點上的間隔能源 (焦耳)。 能源會以一分鐘的間隔提供報告。
GpuEnergyJoules 計數 下限、上限、平均 instanceId PT1M
GPU 記憶體使用率百分比

執行個體上的 GPU 記憶體使用率百分比。 使用量會以一分鐘為間隔提供報告。
GpuMemoryUtilizationPercentage 百分比 下限、上限、平均 instanceId PT1M 是的
GPU 使用率百分比

執行個體上的 GPU 使用率百分比。 使用量會以一分鐘為間隔提供報告。
GpuUtilizationPercentage 百分比 下限、上限、平均 instanceId PT1M 是的

類別:流量

計量 REST API 中的名稱 單位 彙總 維度 時間精細度 DS 匯出
要求延遲 P50

由在所選時間期間收集之所有要求延遲值彙總的平均 P50 要求延遲
RequestLatency_P50 毫秒 平均 <無> PT1M 是的
要求延遲 P90

由在所選時間期間收集之所有要求延遲值彙總的平均 P90 要求延遲
RequestLatency_P90 毫秒 平均 <無> PT1M 是的
要求延遲 P95

由在所選時間期間收集之所有要求延遲值彙總的平均 P95 要求延遲
RequestLatency_P95 毫秒 平均 <無> PT1M 是的
要求延遲 P99

由在所選時間期間收集之所有要求延遲值彙總的平均 P99 要求延遲
RequestLatency_P99 毫秒 平均 <無> PT1M 是的
每分鐘要求

在一分鐘內傳送至線上部署的要求數目
RequestsPerMinute 計數 平均 envoy_response_code PT1M

載入計量維度

如需計量維度是什麼的資訊,請參閱多維度計量

此服務具有下列與其計量相關聯的維度。

維度 描述
叢集名稱 計算叢集資源的名稱。 適用於所有配額計量。
Vm 系列名稱 叢集所使用的 VM 系列名稱。 可用於配額使用率百分比。
Vm 優先順序 VM 的優先順序。 可用於配額使用率百分比。
CreatedTime 僅適用於 CpuUtilization 和 GpuUtilization。
DeviceId 裝置的標識碼(GPU)。 僅適用於 GpuUtilization。
節點識別碼 執行作業之節點的識別碼。 僅適用於 CpuUtilization 和 GpuUtilization。
RunId(運行識別碼) 執行/作業的標識碼。 僅適用於 CpuUtilization 和 GpuUtilization。
ComputeType 執行所使用的計算類型。 僅適用於已完成的執行、失敗的執行和已啟動的執行。
PipelineStepType 執行中使用的 PipelineStep 類型。 僅適用於已完成的執行、失敗的執行和已啟動的執行。
PublishedPipelineId 執行中使用的已發佈管線標識碼。 僅適用於已完成的執行、失敗的執行和已啟動的執行。
執行類型 執行的類型。 僅適用於已完成的執行、失敗的執行和已啟動的執行。

RunType 維度的有效值為:

描述
實驗 非管線執行。
PipelineRun 管線執行,這是 StepRun 的父代。
StepRun 管線步驟的執行。
ReusedStepRun 針對重複使用先前執行的管線步驟執行。

資源記錄

本節列出您可以針對此服務收集的資源記錄類型。 該區段會從 Azure 監視器中支援的所有資源記錄類別類型清單提取。

Microsoft.MachineLearningServices/registries 的支持資源記錄

類別 類別顯示名稱 記錄資料表 支援基本記錄計劃 支援擷取時間轉換 範例查詢 匯出的成本
RegistryAssetReadEvent 登錄資產讀取事件 AmlRegistryReadEventsLog

Azure ML 登錄讀取事件記錄檔。 它會記錄具有登錄數據存取的讀取作業記錄(數據平面),包括每個存取事件的使用者身分識別、資產名稱和版本。

是的 是的
RegistryAssetWriteEvent 登錄資產寫入事件 AmlRegistry寫入事件日誌

Azure ML 登錄寫入事件記錄檔。 它會使用登錄數據存取(數據平面)保留寫入作業的記錄,包括每個存取事件的使用者身分識別、資產名稱和版本。

是的 查詢 是的

Microsoft.MachineLearningServices/workspaces 的支持資源記錄

類別 類別顯示名稱 記錄資料表 支援基本記錄計劃 支援擷取時間轉換 範例查詢 匯出的成本
AmlComputeClusterEvent 阿姆尔計算叢集事件 AmlComputeClusterEvent

AmlCompute 叢集事件

是的 查詢
AmlComputeClusterNodeEvent AmlComputeClusterNodeEvent 是的
AmlComputeCpuGpuUtilization AmlComputeCpuGpuUtilization Aml計算CpuGpu利用率

Azure 機器學習 服務 CPU 和 GPU 使用率記錄。

是的 查詢
AmlComputeJobEvent AmlComputeJobEvent AmlComputeJobEvent

AmlCompute 作業事件

是的 查詢
AmlRunStatusChangedEvent Aml運行狀態變更事件 Aml運行狀態更改事件

Azure 機器學習 服務執行狀態事件記錄。

是的
ComputeInstanceEvent ComputeInstanceEvent AmlComputeInstanceEvent

存取 ML Compute 實例時的事件 (讀取/寫入)。

是的 是的
DataLabelChangeEvent 資料標籤變更事件 AML數據標籤事件

存取資料標籤或所屬專案時的事件 (讀取、建立或刪除)。

是的 是的
DataLabelReadEvent DataLabelReadEvent AML數據標籤事件

存取資料標籤或所屬專案時的事件 (讀取、建立或刪除)。

是的 是的
DataSetChangeEvent DataSetChangeEvent AmlDataSetEvent

存取已註冊或未註冊 ML 資料存放區時的事件(讀取、建立或刪除)。

是的 查詢 是的
DataSetReadEvent DataSetReadEvent AmlDataSetEvent

存取已註冊或未註冊 ML 資料存放區時的事件(讀取、建立或刪除)。

是的 查詢 是的
DataStoreChangeEvent 資料存儲變更事件 AmlDataStoreEvent

存取 ML 資料存放區時的事件 (讀取、建立或刪除)。

是的 是的
DataStoreReadEvent DataStoreReadEvent AmlDataStoreEvent

存取 ML 資料存放區時的事件 (讀取、建立或刪除)。

是的 是的
DeploymentEventACI DeploymentEventACI AmlDeploymentEvent

模型部署在 ACI 或 AKS 上發生時的事件。

是的 是的
DeploymentEventAKS DeploymentEventAKS AmlDeploymentEvent

模型部署在 ACI 或 AKS 上發生時的事件。

是的 是的
DeploymentReadEvent DeploymentReadEvent AmlDeploymentEvent

模型部署在 ACI 或 AKS 上發生時的事件。

是的 是的
EnvironmentChangeEvent EnvironmentChangeEvent AmlEnvironmentEvent (部分內容可能是機器或 AI 翻譯)

存取 ML 環境時的事件(讀取、建立或刪除)。

是的 查詢 是的
EnvironmentReadEvent EnvironmentReadEvent AmlEnvironmentEvent (部分內容可能是機器或 AI 翻譯)

存取 ML 環境時的事件(讀取、建立或刪除)。

是的 查詢 是的
InferencingOperationACI InferencingOperationACI AmlInferencingEvent

AKS 或 ACI 計算類型上推斷或相關作業的事件。

是的 是的
InferencingOperationAKS InferencingOperationAKS AmlInferencingEvent

AKS 或 ACI 計算類型上推斷或相關作業的事件。

是的 是的
ModelsActionEvent ModelsActionEvent AmlModelsEvent

存取 ML 模型時的事件 (讀取、建立或刪除)。 將模型和資產封裝成現成建置套件時,就會產生事件。

是的 查詢 是的
ModelsChangeEvent ModelsChangeEvent AmlModelsEvent

存取 ML 模型時的事件 (讀取、建立或刪除)。 將模型和資產封裝成現成建置套件時,就會產生事件。

是的 查詢 是的
ModelsReadEvent ModelsReadEvent AmlModelsEvent

存取 ML 模型時的事件 (讀取、建立或刪除)。 將模型和資產封裝成現成建置套件時,就會產生事件。

是的 查詢 是的
PipelineChangeEvent 管道變更事件 AmlPipelineEvent

存取 ML 管線草稿或端點或模組時的事件(讀取、建立或刪除)。

是的 是的
PipelineReadEvent PipelineReadEvent AmlPipelineEvent

存取 ML 管線草稿或端點或模組時的事件(讀取、建立或刪除)。

是的 是的
RunEvent RunEvent AmlRunEvent

存取 ML 實驗時的事件 (讀取、建立或刪除)。

是的 是的
RunReadEvent RunReadEvent AmlRunEvent

存取 ML 實驗時的事件 (讀取、建立或刪除)。

是的 是的

Microsoft.MachineLearningServices/workspaces/onlineEndpoints 的支持資源記錄

類別 類別顯示名稱 記錄資料表 支援基本記錄計劃 支援擷取時間轉換 範例查詢 匯出的成本
AmlOnlineEndpointConsoleLog AmlOnlineEndpointConsoleLog AmlOnlineEndpointConsoleLog

Azure ML 在線端點控制台記錄。 它提供使用者容器的主控台記錄輸出。

是的 查詢 是的
AmlOnlineEndpointEventLog AML線上端點事件日誌 AmlOnlineEndpointEventLog

Azure ML 在線端點事件記錄檔。 它提供推斷伺服器容器生命週期的相關事件記錄。

是的 查詢 是的
AmlOnlineEndpointTrafficLog AmlOnlineEndpointTrafficLog(AML線上端點流量日誌) AmlOnlineEndpointTrafficLog

AzureML(機器學習)在線端點的流量記錄。 數據表可用來檢查要求到在線端點的詳細資訊。 例如,您可以使用它來檢查要求持續時間、要求失敗原因等等。

是的 查詢 是的

Azure 監視器記錄資料表

本節列出與此服務相關的 Azure 監視器記錄資料表,並且該資料表可供 Log Analytics 使用 Kusto 查詢進行查詢。 資料表包含資源記錄資料,而且可能包含更多資料,具體取決於所收集及路由傳送至此的內容。

Machine Learning

Microsoft.MachineLearningServices/workspaces

Microsoft.MachineLearningServices/registries

活動記錄檔

連結的資料表會列出此服務活動記錄檔中可記錄的操作。 這些操作是活動記錄中的所有可能資源提供者操作的子集。

如需活動記錄項目結構描述的詳細資訊,請參閱活動記錄結構描述

下表列出一些與活動記錄中可能建立之 機器學習 相關的作業。 如需Microsoft.MachineLearningServices 作業的完整清單,請參閱 Microsoft.MachineLearningServices 資源提供者作業

作業 描述
建立或更新 機器學習 工作區 已建立或更新工作區
CheckComputeNameAvailability 檢查計算名稱是否已在使用中
建立或更新計算資源 已建立或更新計算資源
刪除計算資源 已刪除計算資源
列出密碼 在作業上列出 機器學習 工作區的秘密

記錄結構描述

Azure 機器學習 使用下列架構。

AmlComputeJobEvent 數據表

屬性 描述
TimeGenerated 產生記錄項目的時間
作業名稱 與記錄事件相關聯的作業名稱
類別 記錄事件的名稱
JobId 提交的作業標識碼
ExperimentId 實驗的標識碼
ExperimentName 實驗的名稱
CustomerSubscriptionId 提交實驗和作業的 SubscriptionId
工作空間名稱 機器學習工作區的名稱
集群名稱 叢集的名稱
ProvisioningState 作業提交的狀態
resourceGroupName 資源群組的名稱
工作名稱 作業的名稱
叢集識別碼 叢集的標識碼
事件類型 Job 事件的類型。 例如,JobSubmitted、JobRunning、JobFailed、JobSucceeded。
執行狀態 作業的狀態(執行)。 例如,已排入佇列、執行中、成功、失敗
錯誤詳情 作業錯誤的詳細數據
CreationApiVersion 用來建立作業的 Api 版本
Cluster資源群組名稱 叢集的資源組名
TFWorkerCount TF 背景工作角色計數
TFParameterServerCount TF 參數伺服器的計數
工具類型 使用的工具類型
RunInContainer 旗標,描述作業是否應在容器內執行
作業錯誤訊息 作業錯誤的詳細訊息
節點識別碼 建立作業執行所在之節點的標識碼

AmlComputeClusterEvent 數據表

屬性 描述
TimeGenerated 產生記錄項目的時間
作業名稱 與記錄事件相關聯的作業名稱
類別 記錄事件的名稱
ProvisioningState 叢集的布建狀態
集群名稱 叢集的名稱
集群類型 叢集的類型
建立者 建立叢集的使用者
CoreCount 叢集中的核心計數
VmSize 叢集的 VM 大小
VmPriority 叢集專用/LowPriority 內建立之節點的優先順序
ScalingType 手動/自動調整叢集的類型
初始節點數量 叢集的初始節點計數
MinimumNodeCount 叢集的節點計數下限
MaximumNodeCount 叢集的節點計數上限
NodeDeallocationOption 應如何解除分配節點
發行者 叢集類型的發行者
供應項目 建立叢集的供應專案
Sku 叢集內建立之節點/VM 的SKU
版本 建立節點/VM 時所使用的映像版本
SubnetId 叢集的 SubnetId
AllocationState 叢集配置狀態
CurrentNodeCount 叢集目前的節點計數
目標節點數量 相應增加/減少時,叢集的目標節點計數
事件類型 叢集建立期間的事件類型。
NodeIdleTimeSecondsBeforeScaleDown 在相應減少叢集前幾秒的空閒時間
PreemptedNodeCount 叢集的先佔節點計數
IsResizeGrow 指出叢集正在相應增加的旗標
VmFamilyName 可在叢集內建立之節點的 VM 系列名稱
LeavingNodeCount 離開叢集的節點計數
不可用節點數量 叢集無法使用的節點計數
閒置節點數量 叢集的閑置節點計數
RunningNodeCount 執行叢集的節點計數
PreparingNodeCount 準備叢集的節點計數
QuotaAllocated 配置配額給叢集
已用配額 叢集的已使用配額
AllocationStateTransitionTime 將時間從某個狀態轉換到另一個狀態
叢集錯誤代碼 叢集建立或調整期間收到的錯誤碼
CreationApiVersion 建立叢集時所使用的 API 版本

AmlComputeInstanceEvent 數據表

屬性 描述
類型 記錄事件的名稱 AmlComputeInstanceEvent
TimeGenerated 產生記錄項目的時間 (UTC)
層級 事件的嚴重性層級。 必須是其中一個資訊、警告、錯誤或重大。
結果類型 事件的狀態。 一般值包括 Started、In Progress、Succeeded、Failed、Active 和 Resolved。
CorrelationId GUID,用來在適用時將一組相關事件分組在一起。
作業名稱 與記錄專案相關聯的作業名稱
身分識別 執行作業的使用者或應用程式身分識別。
AadTenantId 已提交作業的Microsoft Entra 租用戶標識符。
AmlComputeInstanceName 「與記錄專案相關聯的計算實例名稱。

AmlDataLabelEvent 數據表

屬性 描述
類型 記錄事件的名稱 AmlDataLabelEvent
TimeGenerated 產生記錄項目的時間 (UTC)
層級 事件的嚴重性層級。 必須是其中一個資訊、警告、錯誤或重大。
結果類型 事件的狀態。 一般值包括 Started、In Progress、Succeeded、Failed、Active 和 Resolved。
CorrelationId GUID,用來在適用時將一組相關事件分組在一起。
作業名稱 與記錄專案相關聯的作業名稱
身分識別 執行作業的使用者或應用程式身分識別。
AadTenantId 已提交作業的Microsoft Entra 租用戶標識符。
AmlProjectId Azure 機器學習 專案的唯一標識符。
AmlProjectName Azure 機器學習 項目的名稱。
AmlLabelNames 為專案建立的標籤類別名稱。
Aml資料存儲名稱 儲存項目數據的數據存放區名稱。

AmlDataSetEvent 數據表

屬性 描述
類型 記錄事件的名稱,AmlDataSetEvent
TimeGenerated 產生記錄項目的時間 (UTC)
層級 事件的嚴重性層級。 必須是其中一個資訊、警告、錯誤或重大。
結果類型 事件的狀態。 一般值包括 Started、In Progress、Succeeded、Failed、Active 和 Resolved。
AmlWorkspaceId Azure 機器學習 工作區的 GUID 和唯一標識碼。
作業名稱 與記錄專案相關聯的作業名稱
身分識別 執行作業的使用者或應用程式身分識別。
AadTenantId 已提交作業的Microsoft Entra 租用戶標識符。
AmlDatasetId Azure 機器學習 數據集的標識碼。
AmlDatasetName Azure 機器學習 數據集的名稱。

AmlDataStoreEvent 數據表

屬性 描述
類型 記錄事件的名稱 AmlDataStoreEvent
TimeGenerated 產生記錄項目的時間 (UTC)
層級 事件的嚴重性層級。 必須是其中一個資訊、警告、錯誤或重大。
結果類型 事件的狀態。 一般值包括 Started、In Progress、Succeeded、Failed、Active 和 Resolved。
AmlWorkspaceId Azure 機器學習 工作區的 GUID 和唯一標識碼。
作業名稱 與記錄專案相關聯的作業名稱
身分識別 執行作業的使用者或應用程式身分識別。
AadTenantId 已提交作業的Microsoft Entra 租用戶標識符。
AmlDatastoreName Azure 機器學習 資料存放區的名稱。

AmlDeploymentEvent 數據表

屬性 描述
類型 記錄事件的名稱,AmlDeploymentEvent
TimeGenerated 產生記錄項目的時間 (UTC)
層級 事件的嚴重性層級。 必須是其中一個資訊、警告、錯誤或重大。
結果類型 事件的狀態。 一般值包括 Started、In Progress、Succeeded、Failed、Active 和 Resolved。
作業名稱 與記錄專案相關聯的作業名稱
身分識別 執行作業的使用者或應用程式身分識別。
AadTenantId 已提交作業的Microsoft Entra 租用戶標識符。
AmlServiceName Azure 機器學習 服務的名稱。

AmlInferencingEvent 數據表

屬性 描述
類型 記錄事件的名稱 AmlInferencingEvent
TimeGenerated 產生記錄項目的時間 (UTC)
層級 事件的嚴重性層級。 必須是其中一個資訊、警告、錯誤或重大。
結果類型 事件的狀態。 一般值包括 Started、In Progress、Succeeded、Failed、Active 和 Resolved。
作業名稱 與記錄專案相關聯的作業名稱
身分識別 執行作業的使用者或應用程式身分識別。
AadTenantId 已提交作業的Microsoft Entra 租用戶標識符。
AmlServiceName Azure 機器學習 服務的名稱。

AmlModelsEvent 數據表

屬性 描述
類型 記錄事件的名稱,AmlModelsEvent
TimeGenerated 產生記錄項目的時間 (UTC)
層級 事件的嚴重性層級。 必須是其中一個資訊、警告、錯誤或重大。
結果類型 事件的狀態。 一般值包括 Started、In Progress、Succeeded、Failed、Active 和 Resolved。
作業名稱 與記錄專案相關聯的作業名稱
身分識別 執行作業的使用者或應用程式身分識別。
AadTenantId 已提交作業的Microsoft Entra 租用戶標識符。
ResultSignature 事件的 HTTP 狀態代碼。 一般值包括 200、201、202 等。
AmlModelName Azure 機器學習 模型的名稱。

AmlPipelineEvent 數據表

屬性 描述
類型 記錄事件的名稱,AmlPipelineEvent
TimeGenerated 產生記錄項目的時間 (UTC)
層級 事件的嚴重性層級。 必須是其中一個資訊、警告、錯誤或重大。
結果類型 事件的狀態。 一般值包括 Started、In Progress、Succeeded、Failed、Active 和 Resolved。
AmlWorkspaceId Azure 機器學習 工作區的 GUID 和唯一標識碼。
AmlWorkspaceId Azure 機器學習 工作區的名稱。
作業名稱 與記錄專案相關聯的作業名稱
身分識別 執行作業的使用者或應用程式身分識別。
AadTenantId 已提交作業的Microsoft Entra 租用戶標識符。
AmlModuleId 模組的 GUID 和唯一識別碼。
AmlModelName Azure 機器學習 模型的名稱。
AmlPipelineId Azure 機器學習 管線的標識碼。
AmlParentPipelineId 父 Azure 機器學習 管線的標識碼(在複製的情況下)。
AmlPipelineDraftId Azure 機器學習 管線草稿的標識碼。
AmlPipelineDraftName Azure 機器學習 管線草稿的名稱。
AmlPipelineEndpointId Azure 機器學習 管線端點的標識碼。
Aml管道端點名稱 Azure 機器學習 管線端點的名稱。

AmlRunEvent 數據表

屬性 描述
類型 記錄事件的名稱,AmlRunEvent
TimeGenerated 產生記錄項目的時間 (UTC)
層級 事件的嚴重性層級。 必須是其中一個資訊、警告、錯誤或重大。
結果類型 事件的狀態。 一般值包括 Started、In Progress、Succeeded、Failed、Active 和 Resolved。
作業名稱 與記錄專案相關聯的作業名稱
AmlWorkspaceId Azure 機器學習 工作區的 GUID 和唯一標識碼。
身分識別 執行作業的使用者或應用程式身分識別。
AadTenantId 已提交作業的Microsoft Entra 租用戶標識符。
RunId(運行識別碼) 執行的唯一標識碼。

AmlEnvironmentEvent 數據表

屬性 描述
類型 記錄事件的名稱,AmlEnvironmentEvent
TimeGenerated 產生記錄項目的時間 (UTC)
層級 事件的嚴重性層級。 必須是其中一個資訊、警告、錯誤或重大。
作業名稱 與記錄專案相關聯的作業名稱
身分識別 執行作業的使用者或應用程式身分識別。
AadTenantId 已提交作業的Microsoft Entra 租用戶標識符。
AmlEnvironmentName Azure 機器學習 環境組態的名稱。
AmlEnvironmentVersion Azure 機器學習 環境組態版本的名稱。

AMLOnlineEndpointTrafficLog 數據表 (預覽)

屬性 描述
方法 用戶端要求的方法。
路徑 用戶端要求的路徑。
SubscriptionId (訂閱識別碼) 線上端點的機器學習訂用帳戶識別碼。
AzureMLWorkspaceId 線上端點的機器學習工作區識別碼。
AzureMLWorkspaceName 線上端點的機器學習工作區名稱。
端點名稱 線上端點的名稱。
部署名稱 線上部署的名稱。
通訊協定 要求的通訊協定。
回應代碼 (ResponseCode) 傳回給客戶端的最終回應碼。
ResponseCodeReason 傳回給客戶端的最終回應碼原因。
模型狀態代碼 (ModelStatusCode) 來自模型的響應狀態代碼。
ModelStatusReason 來自模型的響應狀態原因。
RequestPayloadSize 從用戶端收到的位元組總數。
回應負載大小 傳回給用戶端的總位元組數。
用戶代理 (UserAgent) 要求的使用者代理程式標頭,包括批註,但截斷為最多 70 個字元。
請求識別碼X Azure 機器學習 針對內部追蹤所產生的要求標識碼。
XMSClientRequestId 用戶端產生的追蹤標識碼。
總持續時間(毫秒) 從要求開始時間到最後一個回應位元組傳送回客戶端的時間,以毫秒為單位的持續時間。 如果用戶端中斷連線,持續時間會從開始時間到用戶端中斷連線時間。
RequestDurationMs 從要求開始時間到從用戶端接收要求最後一個字節的時間,以毫秒為單位的持續時間。
回應時間毫秒 從要求開始時間到從模型讀取第一個回應位元組的時間,以毫秒為單位的持續時間。
RequestThrottlingDelayMs 要求數據傳輸的延遲以毫秒為單位,因為網路節流。
ResponseThrottlingDelayMs(回應節流延遲毫秒) 由於網路節流,回應數據傳輸的延遲以毫秒為單位。

如需此記錄的詳細資訊,請參閱 監視在線端點

AMLOnlineEndpointConsoleLog

屬性 描述
TimeGenerated 產生記錄檔之時間的UTC時間戳
作業名稱 與記錄檔記錄相關聯的作業
實例識別碼 產生記錄檔記錄之實例的標識碼
部署名稱 與記錄檔記錄相關聯的部署名稱
容器名稱 產生記錄檔的容器名稱
訊息 記錄的內容

如需此記錄的詳細資訊,請參閱 監視在線端點

AMLOnlineEndpointEventLog (預覽)

屬性 描述
TimeGenerated 產生記錄檔之時間的UTC時間戳
作業名稱 與記錄檔記錄相關聯的作業
實例識別碼 產生記錄檔記錄之實例的標識碼
部署名稱 與記錄檔記錄相關聯的部署名稱
名稱 事件的名稱
訊息 事件的內容

如需此記錄的詳細資訊,請參閱 監視在線端點