監視 Azure Machine Learning 資料參考

了解 Azure 監視器從 Azure Machine Learning 工作區收集的資料和資源。 如需收集和分析監視資料的詳細資料,請參閱監視 Azure Machine Learning

計量

此區段會列出針對 Azure Machine Learning 收集的所有自動收集平台計量。 這些計量的資源提供者是 Microsoft.MachineLearningServices/workspaces

型號

計量 單位 描述
成功的模型註冊 計數 此工作區中成功的模型註冊數目
失敗的模型註冊 計數 此工作區中失敗的模型註冊數目
已啟動的模型部署 計數 此工作區中已開始的模型部署數目
成功的模型部署 計數 此工作區中成功的模型部署數目
失敗的模型部署 計數 此工作區中失敗的模型部署數目

配額

配額資訊僅適用於 Azure Machine Learning Compute。

計量 單位 描述
節點總計 計數 節點總數。 此總計包含一些作用中節點、閒置節點、無法使用節點、先佔節點、離開中節點
作用中節點 計數 作用中節點數目。 主動執行作業的節點。
閒置節點 計數 閒置節點的數目。 閒置節點是未執行任何作業但可以接受新作業 (如果有的話) 的節點。
無法使用的節點 計數 無法使用的節點數目。 無法使用的節點因為某些無法解決的問題而無法運作。 Azure 會回收這些節點。
先佔節點 計數 先佔節點的數目。 這些節點是從可用節點集區中移除的低優先順序節點。
正在離開的節點 計數 離開的節點數目。 離開中節點是剛剛完成處理作業的節點,並將會進入閒置狀態。
總核心數 計數 核心總數
作用中核心 計數 作用中核心數目
閒置核心 計數 閒置核心數目
無法使用的核心 計數 無法使用的節點數目
先佔節點 計數 先佔節點的數目
正在離開的核心 計數 離開的核心數
配額使用率百分比 計數 使用的配額百分比

資源

計量 單位 描述
CpuUtilization 計數 CPU 節點上的使用率百分比。 使用量會以一分鐘的間隔回報。
GpuUtilization 計數 GPU 節點上的使用率百分比。 使用量會以一分鐘的間隔回報。
GpuMemoryUtilization 計數 GPU 節點上的記憶體使用率百分比。 使用量會以一分鐘的間隔回報。
GpuEnergyJoules 計數 GPU 節點上的間隔能源 (焦耳)。 能源會以一分鐘的間隔回報。

執行

工作區定型執行的相關資訊。

計量 單位 描述
取消的執行 計數 此工作區已取消的執行數目。 計數會在成功取消執行時更新。
取消要求的執行 計數 此工作區已要求取消的執行數目。 計數會在收到執行的取消要求時更新。
已完成的執行 計數 此工作區成功完成的執行數目。 計數會在執行完成且已收集輸出時更新。
失敗的執行 計數 此工作區失敗的執行數目。 計數會在執行失敗時更新。
完成中執行 計數 此工作區進入完成中狀態的執行數目。 計數會在執行完成但輸出收集仍在進行時更新。
沒有回應的執行 計數 此工作區未回應的執行數目。 計數會在執行進入沒有回應狀態時更新。
未啟動的執行 計數 此工作區處於未啟動狀態的執行數目。 計數會在收到要求以建立執行但尚未填入執行資訊時更新。
準備中的執行 計數 此工作區準備中的執行數目。 計數會在準備執行環境時,於執行進入準備中狀態時更新。
佈建中的執行 計數 此工作區佈建中的執行數目。 計數會在執行正在等候計算目標建立或佈建時更新。
已排入佇列的執行 計數 此工作區已排入佇列的執行數目。 計數會在執行在計算目標中排入佇列時更新。 等候所需的計算節點就緒時,可能會發生此問題。
已啟動的執行 計數 此工作區執行中的執行數目。 計數會在執行開始於必要的資源上執行時更新。
開始中的執行 計數 此工作區已啟動的執行數目。 計數會在建立執行和執行資訊 (例如執行識別碼) 的要求之後更新
錯誤 計數 此工作區中錯誤的執行數目。 計數會在每當執行發生錯誤時更新。
警告 計數 此工作區中警告的執行數目。 計數會在每當執行發生警告時更新。

載入計量維度

如需計量維度是什麼的詳細資訊,請參閱多維度計量

Azure Machine Learning 有與其計量相關聯的下列維度。

尺寸 描述
叢集名稱 計算叢集資源的名稱。 適用於所有配額計量。
VM 系列名稱 叢集所使用的 VM 系列的名稱。 適用於配額使用率百分比。
VM 優先順序 VM 的優先順序。 適用於配額使用率百分比。
CreatedTime 僅適用於 CpuUtilization 和 GpuUtilization。
DeviceId 裝置 (GPU) 的識別碼。 僅適用於 GpuUtilization。
NodeId 作業執行時所建立節點的識別碼。 僅適用於 CpuUtilization 和 GpuUtilization。
RunId 執行/作業的識別碼。 僅適用於 CpuUtilization 和 GpuUtilization。
ComputeType 執行所使用的計算類型。 僅適用於已完成的執行、失敗的執行,以及已開始的執行。
PipelineStepType 執行中所使用的 PipelineStep 類型。 僅適用於已完成的執行、失敗的執行,以及已開始的執行。
PublishedPipelineId 執行中所使用已發佈管線的識別碼。 僅適用於已完成的執行、失敗的執行,以及已開始的執行。
RunType 執行的類型。 僅適用於已完成的執行、失敗的執行,以及已開始的執行。

RunType 維度的有效值為:

描述
實驗 無管道執行。
PipelineRun 管線執行,也就是 StepRun 的父代。
StepRun 管線步驟的執行。
ReusedStepRun 針對重複使用先前執行的管線步驟執行。

活動記錄

下表列出可能在活動記錄中建立的 Azure Machine Learning 的相關作業。

作業 描述
建立或更新 Machine Learning 工作區 已建立或更新工作區
CheckComputeNameAvailability 檢查計算名稱是否已在使用中
建立或更新計算資源 已建立或更新計算資源
刪除計算資源 已刪除計算資源
列出密碼 作業列出 Machine Learning 工作區的密碼時

資源記錄

此區段會列出您可以針對 Azure Machine Learning 工作區收集的資源記錄類型。

資源提供者和類型:Microsoft.MachineLearningServices/workspace

類別 顯示名稱
AmlComputeClusterEvent AmlComputeClusterEvent
AmlComputeClusterNodeEvent (已取代) AmlComputeClusterNodeEvent
AmlComputeCpuGpuUtilization AmlComputeCpuGpuUtilization
AmlComputeJobEvent AmlComputeJobEvent
AmlRunStatusChangedEvent AmlRunStatusChangedEvent
ModelsChangeEvent ModelsChangeEvent
ModelsReadEvent ModelsReadEvent
ModelsActionEvent ModelsActionEvent
DeploymentReadEvent DeploymentReadEvent
DeploymentEventACI DeploymentEventACI
DeploymentEventAKS DeploymentEventAKS
InferencingOperationAKS InferencingOperationAKS
InferencingOperationACI InferencingOperationACI
EnvironmentChangeEvent EnvironmentChangeEvent
EnvironmentReadEvent EnvironmentReadEvent
DataLabelChangeEvent DataLabelChangeEvent
DataLabelReadEvent DataLabelReadEvent
ComputeInstanceEvent ComputeInstanceEvent
DataStoreChangeEvent DataStoreChangeEvent
DataStoreReadEvent DataStoreReadEvent
DataSetChangeEvent DataSetChangeEvent
DataSetReadEvent DataSetReadEvent
PipelineChangeEvent PipelineChangeEvent
PipelineReadEvent PipelineReadEvent
RunEvent RunEvent
RunReadEvent RunReadEvent

結構描述

Azure Machine Learning 正在使用下列架構

AmlComputeJobEvent 資料表

屬性 描述
TimeGenerated 產生記錄項目時的時間
OperationName 要與記錄事件產生關聯的作業名稱
類別 記錄事件的名稱
JobId 提交的作業識別碼
ExperimentId 實驗的識別碼
ExperimentName 實驗的名稱
CustomerSubscriptionId 將實驗和作業提交至其中的 SubscriptionId
WorkspaceName 機器學習工作區的名稱
ClusterName 叢集的名稱
ProvisioningState 作業提交的狀態
resourceGroupName 資源群組的名稱
JobName 作業的名稱
ClusterId 叢集的名稱
EventType 作業事件的類型。 例如,JobSubmitted、JobRunning、JobFailed、JobSucceeded。
ExecutionState 作業 (執行) 的狀態。 例如,已排入佇列、執行中、成功、失敗
ErrorDetails 作業錯誤的詳細資料
CreationApiVersion 用來建立作業的 API 版本
ClusterResourceGroupName 叢集資源群組的名稱
TFWorkerCount TF 背景工作角色的計數
TFParameterServerCount TF 參數伺服器的計數
ToolType 使用的工具類型
RunInContainer 描述是否應在容器內執行作業的旗標
JobErrorMessage 作業錯誤的詳細訊息
NodeId 作業執行時所建立節點的識別碼

AmlComputeClusterEvent 資料表

屬性 描述
TimeGenerated 產生記錄項目時的時間
OperationName 要與記錄事件產生關聯的作業名稱
類別 記錄事件的名稱
ProvisioningState 叢集的佈建狀態
ClusterName 叢集的名稱
ClusterType 叢集的類型
CreatedBy 建立叢集的使用者
CoreCount 叢集中的核心計數
VmSize 叢集的 VM 大小
VmPriority 在叢集 Dedicated/LowPriority 內建立的節點的優先順序
ScalingType 手動/自動調整的叢集類型
InitialNodeCount 叢集的初始節點計數
MinimumNodeCount 叢集的最小節點計數
MaximumNodeCount 叢集的最大節點計數
NodeDeallocationOption 節點應如何解除配置
Publisher 叢集類型的發佈者
供應項目 用來建立叢集的供應項目
SKU 在叢集內建立的節點/VM 的 SKU
版本 建立節點/VM 時使用的映像版本
SubnetId 叢集的 SubnetId
AllocationState 叢集配置狀態
CurrentNodeCount 叢集目前的節點計數
TargetNodeCount 擴充/縮減時叢集的目標節點計數
EventType 叢集建立期間的事件類型。
NodeIdleTimeSecondsBeforeScaleDown 叢集縮減之前的閒置時間 (秒)
PreemptedNodeCount 叢集的先佔節點計數
IsResizeGrow 指出叢集正在擴充的旗標
VmFamilyName 可在叢集內建立的節點的 VM 系列名稱
LeavingNodeCount 叢集的離開中節點計數
UnusableNodeCount 叢集的無法使用節點計數
IdleNodeCount 叢集的閒置節點計數
RunningNodeCount 叢集的執行中節點計數
PreparingNodeCount 叢集的準備中節點計數
QuotaAllocated 配置給叢集的配額
QuotaUtilized 叢集已使用的配額
AllocationStateTransitionTime 從某個狀態到另一個狀態的轉換時間
ClusterErrorCodes 叢集建立或調整期間收到的錯誤碼
CreationApiVersion 建立叢集時使用的 API 版本

AmlComputeClusterNodeEvent 資料表

屬性 描述
TimeGenerated 產生記錄項目時的時間
OperationName 要與記錄事件產生關聯的作業名稱
類別 記錄事件的名稱
ClusterName 叢集的名稱
NodeId 建立的叢集節點識別碼
VmSize 節點的 VM 大小
VmFamilyName 節點所屬的 VM 系列
VmPriority 所建立節點的優先順序 Dedicated/LowPriority
Publisher VM 映像的發佈者。 例如,microsoft-dsvm
供應項目 與 VM 建立相關聯的供應項目
SKU 已建立的節點/VM 的 SKU
版本 建立節點/VM 時使用的映像版本
ClusterCreationTime 建立叢集的時間
ResizeStartTime 叢集擴大/縮減的開始時間
ResizeEndTime 叢集擴大/縮減的結束時間
NodeAllocationTime 節點的配置時間
NodeBootTime 節點的啟動時間
StartTaskStartTime 指派給節點的工作啟動的時間
StartTaskEndTime 指派給節點的工作結束的時間
TotalE2ETimeInSeconds 節點為作用中狀態的總時間

注意

自 2022 年 2 月起,AmlComputeClusterNodeEvent 資料表將被取代。 建議您改為使用 AmlComputeClusterEvent 資料表。

AmlComputeInstanceEvent 資料表

屬性 描述
類型 記錄事件的名稱,AmlComputeInstanceEvent
TimeGenerated 產生記錄項目時的時間 (UTC)
層級 事件的嚴重性層級。 必須是「資訊」、「警告」、「錯誤」或「嚴重」中的其中一個。
ResultType 事件的狀態。 一般值包括︰「已啟動」、「進行中」、「成功」、「失敗」、「作用中」和「已解決」。
CorrelationId 用來將一組相關事件群組在一起的 GUID (如適用)。
OperationName 要與記錄項目產生關聯的作業名稱
身分識別 執行作業的使用者或應用程式的身分識別。
AadTenantId 提交作業的 AAD 租用戶識別碼。
AmlComputeInstanceName 與記錄項目相關聯的計算執行個體的名稱。

AmlDataLabelEvent 資料表

屬性 描述
類型 記錄事件的名稱,AmlDataLabelEvent
TimeGenerated 產生記錄項目時的時間 (UTC)
層級 事件的嚴重性層級。 必須是「資訊」、「警告」、「錯誤」或「嚴重」中的其中一個。
ResultType 事件的狀態。 一般值包括︰「已啟動」、「進行中」、「成功」、「失敗」、「作用中」和「已解決」。
CorrelationId 用來將一組相關事件群組在一起的 GUID (如適用)。
OperationName 要與記錄項目產生關聯的作業名稱
身分識別 執行作業的使用者或應用程式的身分識別。
AadTenantId 提交作業的 AAD 租用戶識別碼。
AmlProjectId AzureML 專案的唯一識別碼。
AmlProjectName AzureML 專案名稱。
AmlLabelNames 為專案建立的標籤類別名稱。
AmlDataStoreName 儲存專案資料的資料存放區的名稱。

AmlDataSetEvent 資料表

屬性 描述
類型 記錄事件的名稱,AmlDataSetEvent
TimeGenerated 產生記錄項目時的時間 (UTC)
層級 事件的嚴重性層級。 必須是「資訊」、「警告」、「錯誤」或「嚴重」中的其中一個。
ResultType 事件的狀態。 一般值包括︰「已啟動」、「進行中」、「成功」、「失敗」、「作用中」和「已解決」。
AmlWorkspaceId AzureML 工作區的 GUID 和唯一識別碼。
OperationName 要與記錄項目產生關聯的作業名稱
身分識別 執行作業的使用者或應用程式的身分識別。
AadTenantId 提交作業的 AAD 租用戶識別碼。
AmlDatasetId AzureML 資料集的識別碼。
AmlDatasetName AzureML 資料集名稱。

AmlDataStoreEvent 資料表

屬性 描述
類型 記錄事件的名稱,AmlDataStoreEvent
TimeGenerated 產生記錄項目時的時間 (UTC)
層級 事件的嚴重性層級。 必須是「資訊」、「警告」、「錯誤」或「嚴重」中的其中一個。
ResultType 事件的狀態。 一般值包括︰「已啟動」、「進行中」、「成功」、「失敗」、「作用中」和「已解決」。
AmlWorkspaceId AzureML 工作區的 GUID 和唯一識別碼。
OperationName 要與記錄項目產生關聯的作業名稱
身分識別 執行作業的使用者或應用程式的身分識別。
AadTenantId 提交作業的 AAD 租用戶識別碼。
AmlDatastoreName AzureML 資料集名稱。

AmlDeploymentEvent 資料表

屬性 描述
類型 記錄事件的名稱,AmlDeploymentEvent
TimeGenerated 產生記錄項目時的時間 (UTC)
層級 事件的嚴重性層級。 必須是「資訊」、「警告」、「錯誤」或「嚴重」中的其中一個。
ResultType 事件的狀態。 一般值包括︰「已啟動」、「進行中」、「成功」、「失敗」、「作用中」和「已解決」。
OperationName 要與記錄項目產生關聯的作業名稱
身分識別 執行作業的使用者或應用程式的身分識別。
AadTenantId 提交作業的 AAD 租用戶識別碼。
AmlServiceName AzureML 服務名稱。

AmlInferencingEvent 資料表

屬性 描述
類型 記錄事件的名稱,AmlInferencingEvent
TimeGenerated 產生記錄項目時的時間 (UTC)
層級 事件的嚴重性層級。 必須是「資訊」、「警告」、「錯誤」或「嚴重」中的其中一個。
ResultType 事件的狀態。 一般值包括︰「已啟動」、「進行中」、「成功」、「失敗」、「作用中」和「已解決」。
OperationName 要與記錄項目產生關聯的作業名稱
身分識別 執行作業的使用者或應用程式的身分識別。
AadTenantId 提交作業的 AAD 租用戶識別碼。
AmlServiceName AzureML 服務名稱。

AmlModelsEvent 資料表

屬性 描述
類型 記錄事件的名稱,AmlModelsEvent
TimeGenerated 產生記錄項目時的時間 (UTC)
層級 事件的嚴重性層級。 必須是「資訊」、「警告」、「錯誤」或「嚴重」中的其中一個。
ResultType 事件的狀態。 一般值包括︰「已啟動」、「進行中」、「成功」、「失敗」、「作用中」和「已解決」。
OperationName 要與記錄項目產生關聯的作業名稱
身分識別 執行作業的使用者或應用程式的身分識別。
AadTenantId 提交作業的 AAD 租用戶識別碼。
ResultSignature 事件的 HTTP 狀態碼。 一般值包括 200、201、202 等等。
AmlModelName AzureML 模型名稱。

AmlPipelineEvent 資料表

屬性 描述
類型 記錄事件的名稱,AmlPipelineEvent
TimeGenerated 產生記錄項目時的時間 (UTC)
層級 事件的嚴重性層級。 必須是「資訊」、「警告」、「錯誤」或「嚴重」中的其中一個。
ResultType 事件的狀態。 一般值包括︰「已啟動」、「進行中」、「成功」、「失敗」、「作用中」和「已解決」。
AmlWorkspaceId AzureML 工作區的 GUID 和唯一識別碼。
AmlWorkspaceId AzureML 工作區名稱。
OperationName 要與記錄項目產生關聯的作業名稱
身分識別 執行作業的使用者或應用程式的身分識別。
AadTenantId 提交作業的 AAD 租用戶識別碼。
AmlModuleId 模組的 GUID 和唯一識別碼。
AmlModelName AzureML 模型名稱。
AmlPipelineId AzureML 管線名稱。
AmlParentPipelineId 父代 AzureML 管線的識別碼 (複製的情況下)。
AmlPipelineDraftId AzureML 管線草稿的識別碼。
AmlPipelineDraftName AzureML 管線草稿的名稱。
AmlPipelineEndpointId AzureML 管線端點的識別碼。
AmlPipelineEndpointName AzureML 管線端點的名稱。

AmlRunEvent 資料表

屬性 描述
類型 記錄事件的名稱,AmlRunEvent
TimeGenerated 產生記錄項目時的時間 (UTC)
層級 事件的嚴重性層級。 必須是「資訊」、「警告」、「錯誤」或「嚴重」中的其中一個。
ResultType 事件的狀態。 一般值包括︰「已啟動」、「進行中」、「成功」、「失敗」、「作用中」和「已解決」。
OperationName 要與記錄項目產生關聯的作業名稱
AmlWorkspaceId AzureML 工作區的 GUID 和唯一識別碼。
身分識別 執行作業的使用者或應用程式的身分識別。
AadTenantId 提交作業的 AAD 租用戶識別碼。
RunId 執行的唯一識別碼。

AmlEnvironmentEvent 資料表

屬性 描述
類型 記錄事件的名稱,AmlEnvironmentEvent
TimeGenerated 產生記錄項目時的時間 (UTC)
層級 事件的嚴重性層級。 必須是「資訊」、「警告」、「錯誤」或「嚴重」中的其中一個。
OperationName 要與記錄項目產生關聯的作業名稱
身分識別 執行作業的使用者或應用程式的身分識別。
AadTenantId 提交作業的 AAD 租用戶識別碼。
AmlEnvironmentName AzureML 環境設定的名稱。
AmlEnvironmentVersion AzureML 環境設定版本的名稱。

另請參閱