Monitorando a referência de dados do Azure Machine Learning

Saiba mais sobre os dados e recursos coletados pelo Azure Monitor do seu espaço de trabalho do Azure Machine Learning. Confira Monitoramento do Azure Machine Learning para obter detalhes sobre como coletar e analisar dados de monitoramento.

Métricas

Esta seção lista todas as métricas da plataforma coletadas automaticamente do Azure Machine Learning. O provedor de recursos para essas métricas é Microsoft.MachineLearningServices/Workspaces.

Modelo

Métrica Unidade Descrição
Registro de Modelo Bem-sucedido Contagem Número de registros de modelo bem-sucedidos neste workspace
Registro de Modelo com Falha Contagem Número de registros de modelo que falharam neste workspace
Implantação de Modelo Iniciada Contagem Número de implantações de modelo iniciadas neste workspace
Implantação de Modelo Bem-sucedida Contagem Número de implantações de modelo bem-sucedidas neste workspace
Implantação de Modelo com Falha Contagem Número de implantações de modelo que falharam neste workspace

Cota

As informações de cota são apenas para computação do Azure Machine Learning.

Métrica Unidade Descrição
Total de Nós Contagem Número total de nós. Esse total inclui alguns Nós Ativos, Nós Ociosos, Nós Inutilizáveis, Nós com Preempção, Nós em Saída
Nós Ativos Contagem O número de nós ativos. Os nós que estão executando ativamente um trabalho.
Nós Ociosos Contagem Número de nós ociosos. Os nós ociosos são os nós que não estão executando trabalhos, mas podem aceitar novos trabalhos, se disponíveis.
Nós Inutilizáveis Contagem Número de nós inutilizáveis. Os nós inutilizáveis não são funcionais devido a algum problema não resolvido. O Azure reciclará esses nós.
Nós com Preempção Contagem Número de nós com preempção. Esses são os nós de baixa prioridade que são retirados do pool de nós disponíveis.
Nós em Saída Contagem Número de nós em saída. Os nós em saída são os nós que acabaram de processar um trabalho e entrarão no estado ocioso.
Total de Núcleos Contagem Número total de núcleos
Núcleos Ativos Contagem Número de núcleos ativos
Núcleos Ociosos Contagem Número de núcleos ociosos
Núcleos Inutilizáveis Contagem Número de núcleos inutilizáveis
Núcleos com Preempção Contagem Número de núcleos com preempção
Núcleos em Saída Contagem Número de núcleos em saída
Percentual de Utilização de Cota Contagem Porcentagem de cota utilizada

Recurso

Métrica Unidade Descrição
CpuUtilization Contagem Percentual de utilização em um nó de CPU. A utilização é relatada em intervalos de um minuto.
GpuUtilization Contagem Percentual de utilização em um nó de GPU. A utilização é relatada em intervalos de um minuto.
GpuMemoryUtilization Contagem Percentual de utilização de memória em um nó de GPU. A utilização é relatada em intervalos de um minuto.
GpuEnergyJoules Contagem Energia de intervalo em joules em um nó de GPU. A energia é relatada em intervalos de um minuto.

Executar

Informações sobre execuções de treinamento para o workspace.

Métrica Unidade Descrição
Execuções canceladas Contagem Número de execuções canceladas para este workspace. A contagem é atualizada quando uma execução é cancelada com êxito.
Cancelar execuções solicitadas Contagem Número de execuções em que o cancelamento foi solicitado para este workspace. A contagem é atualizada quando a solicitação de cancelamento é recebida para uma execução.
Execuções Concluídas Contagem Número de execuções concluídas com êxito para este workspace. A contagem é atualizada quando uma execução é concluída e a saída coletada.
Execuções com falha Contagem Número de execuções com falha para este workspace. A contagem é atualizada quando uma execução falha.
Finalização das execuções Contagem Número de execuções inseridas no estado de finalização para este workspace. A contagem é atualizada quando uma execução é concluída, mas a coleta de saída ainda está em andamento.
Execuções Sem Resposta Contagem Número de execuções sem resposta para este workspace. A contagem é atualizada quando uma execução entra no estado Sem Resposta.
Execuções Não Iniciadas Contagem Número de execuções no estado Não Iniciadas para este workspace. A contagem é atualizada quando uma solicitação é recebida para criar uma execução, mas as informações de execução ainda não foram preenchidas.
Preparação de Execuções Contagem Número de execuções que estão se preparando para este workspace. A contagem é atualizada quando uma execução entra no estado de Preparação, enquanto o ambiente de execução está sendo preparado.
Provisionamento de Execuções Contagem Número de execuções que estão sendo provisionadas para este workspace. A contagem é atualizada quando uma execução está aguardando a criação ou o provisionamento de destino de computação.
Execuções na fila Contagem Número de execuções que estão na fila para este workspace. A contagem é atualizada quando uma execução é colocada na fila no destino de computação. Pode ocorrer ao aguardar que os nós de computação necessários fiquem prontos.
Execuções Iniciadas Contagem Número de execuções em execução para este workspace. A contagem é atualizada quando a execução começa a ser executada nos recursos necessários.
Execuções Iniciando Contagem Número de execuções iniciadas para este workspace. A contagem é atualizada depois que a solicitação para criação da execução e as informações de execução, como a ID de execução, foram preenchidas
Errors Contagem Número de erros de execução neste workspace. A contagem é atualizada sempre que a execução encontra um erro.
Warnings Contagem Número de avisos de execução neste workspace. A contagem é atualizada sempre que uma execução encontra um aviso.

Dimensões de métrica

Para obter mais informações sobre o que são dimensões de métrica, confira Métricas multidimensionais.

O Azure Machine Learning tem as seguintes dimensões associadas a suas métricas.

Dimensão Descrição
Nome do cluster O nome do recurso de cluster de computação. Disponível para todas as métricas de cota.
Nome da Família de VMs O nome da família de VMs usada pelo cluster. Disponível para porcentagem de utilização de cota.
Prioridade da VM A prioridade do VM. Disponível para porcentagem de utilização de cota.
CreatedTime Disponível somente para CpuUtilization e GpuUtilization.
DeviceId ID do dispositivo (GPU). Disponível somente para GpuUtilization.
NodeId ID do nó criado onde o trabalho está em execução. Disponível somente para CpuUtilization e GpuUtilization.
RunId ID da execução/trabalho. Disponível somente para CpuUtilization e GpuUtilization.
ComputeType O tipo de computação usado pela execução. Somente disponível para Execuções concluídas, Execuções com falha e Execuções iniciadas.
PipelineStepType O tipo de PipelineStep usado na execução. Somente disponível para Execuções concluídas, Execuções com falha e Execuções iniciadas.
PublishedPipelineId A ID do pipeline publicado usado na execução. Somente disponível para Execuções concluídas, Execuções com falha e Execuções iniciadas.
RunType O tipo de execução. Somente disponível para Execuções concluídas, Execuções com falha e Execuções iniciadas.

Os valores válidos para a dimensão RunType são:

Valor Descrição
Experimento Execuções sem pipeline.
PipelineRun Uma execução de pipeline, que é o pai de um StepRun.
StepRun Uma execução para uma etapa de pipeline.
ReusedStepRun Uma execução para uma etapa de pipeline que reutiliza uma execução anterior.

Log de atividades

A tabela a seguir lista as operações relacionadas ao Azure Machine Learning que podem ser criadas no Log de atividades.

Operação Descrição
Cria ou atualiza espaços de trabalho do Machine Learning Um espaço de trabalho foi criado ou atualizado
CheckComputeNameAvailability Verificar se um nome de computação já está em uso
Criar ou atualizar os recursos de computação Um recurso de computação foi criado ou atualizado
Exclui os recursos de computação Um recurso de computação foi excluído
Listar segredos Em segredos listados da operação para um espaço de trabalho Machine Learning

Logs de recursos

Esta seção lista os tipos de logs de recursos que você pode coletar para o espaço de trabalho do Azure Machine Learning.

Tipo e provedor de recursos: Microsoft.MachineLearningServices/workspace.

Categoria Nome de exibição
AmlComputeClusterEvent AmlComputeClusterEvent
AmlComputeClusterNodeEvent (preterido) AmlComputeClusterNodeEvent
AmlComputeCpuGpuUtilization AmlComputeCpuGpuUtilization
AmlComputeJobEvent AmlComputeJobEvent
AmlRunStatusChangedEvent AmlRunStatusChangedEvent
ModelsChangeEvent ModelsChangeEvent
ModelsReadEvent ModelsReadEvent
ModelsActionEvent ModelsActionEvent
DeploymentReadEvent DeploymentReadEvent
DeploymentEventACI DeploymentEventACI
DeploymentEventAKS DeploymentEventAKS
InferencingOperationAKS InferencingOperationAKS
InferencingOperationACI InferencingOperationACI
EnvironmentChangeEvent EnvironmentChangeEvent
EnvironmentReadEvent EnvironmentReadEvent
DataLabelChangeEvent DataLabelChangeEvent
DataLabelReadEvent DataLabelReadEvent
ComputeInstanceEvent ComputeInstanceEvent
DataStoreChangeEvent DataStoreChangeEvent
DataStoreReadEvent DataStoreReadEvent
DataSetChangeEvent DataSetChangeEvent
DataSetReadEvent DataSetReadEvent
PipelineChangeEvent PipelineChangeEvent
PipelineReadEvent PipelineReadEvent
RunEvent RunEvent
RunReadEvent RunReadEvent

Esquemas

Os esquemas a seguir estão em uso pelo Azure Machine Learning

AmlComputeJobEvent table

Propriedade Descrição
TimeGenerated Hora em que a entrada de log foi gerada
OperationName Nome da operação associada ao evento de log
Categoria Nome do evento de log
JobId ID do Trabalho enviado
ExperimentId ID do experimento
ExperimentName Nome do experimento
CustomerSubscriptionId SubscriptionId em que o Teste e o Trabalho são enviados
WorkspaceName Nome do espaço de trabalho do Machine Learning
ClusterName Nome do Cluster
ProvisioningState Estado dos envios de trabalho
ResourceGroupName Nome do grupo de recursos
JobName Nome do Trabalho
ClusterId ID do cluster
EventType Tipo de evento de Trabalho. Por exemplo, JobSubmitted, JobRunning, JobFailed, JobSucceeded.
ExecutionState Estado do trabalho (a execução). Por exemplo, em fila, em execução, com êxito, com falha
ErrorDetails Detalhes do erro de trabalho
CreationApiVersion Versão da API usada para criar o trabalho
ClusterResourceGroupName Nome do grupo de recursos do cluster
TFWorkerCount Contagem de trabalhos de TF
TFParameterServerCount Contagem do servidor de parâmetros TF
ToolType Tipo de ferramenta utilizada
RunInContainer Sinalizador que descreve se o trabalho deve ser executado dentro de um contêiner
JobErrorMessage mensagem detalhada de erro de Trabalho
NodeId ID do nó criado onde o trabalho está em execução

AmlComputeClusterEvent table

Propriedade Descrição
TimeGenerated Hora em que a entrada de log foi gerada
OperationName Nome da operação associada ao evento de log
Categoria Nome do evento de log
ProvisioningState Estado de provisionamento do cluster
ClusterName Nome do cluster
ClusterType Tipo do cluster
CreatedBy Usuário que criou o cluster
CoreCount Contagem dos núcleos no cluster
VmSize Tamanho da VM do cluster
VmPriority Prioridade dos nós criados dentro de um cluster Dedicado/LowPriority
ScalingType Tipo de dimensionamento manual/automático do cluster
InitialNodeCount Contagem de nós inicial do cluster
MinimumNodeCount Contagem mínima de nós do cluster
MaximumNodeCount Contagem máxima de nós do cluster
NodeDeallocationOption Como o nó deve ser desalocado
Publisher Editor do tipo de cluster
Oferta Oferta com a qual o cluster é criado
Sku SKU do nó/VM criado dentro do cluster
Versão Versão da imagem usada enquanto o nó/VM é criado
SubnetId SubnetId do cluster
AllocationState Estado de alocação do cluster
CurrentNodeCount Contagem de nós atual do cluster
TargetNodeCount Contagem de nós de destino do cluster ao aumentar/reduzir verticalmente
EventType Tipo de evento durante a criação do cluster.
NodeIdleTimeSecondsBeforeScaleDown Tempo ocioso em segundos antes que o cluster seja reduzido verticalmente
PreemptedNodeCount Contagem de nós admitidos do cluster
IsResizeGrow Sinalizador que indica que o cluster está aumentando verticalmente
VmFamilyName Nome da família de VMs dos nós que podem ser criados dentro do cluster
LeavingNodeCount Saindo da contagem de nós do cluster
UnusableNodeCount Contagem de nós inutilizáveis do cluster
IdleNodeCount Contagem de nós ociosos do cluster
RunningNodeCount Contagem de nós em execução do cluster
PreparingNodeCount Preparando a contagem de nós do cluster
QuotaAllocated Cota alocada para o cluster
QuotaUtilized Cota utilizada do cluster
AllocationStateTransitionTime Tempo de transição de um estado para outro
ClusterErrorCodes Código de erro recebido durante a criação ou o dimensionamento do cluster
CreationApiVersion Versão da API usada ao criar o cluster

AmlComputeClusterNodeEvent table

Propriedade Descrição
TimeGenerated Hora em que a entrada de log foi gerada
OperationName Nome da operação associada ao evento de log
Categoria Nome do evento de log
ClusterName Nome do cluster
NodeId ID do nó de cluster criado
VmSize Tamanho da VM do nó
VmFamilyName Família de VMs à qual o nó pertence
VmPriority Prioridade do nó criado Dedicado/LowPriority
Publisher Editor da imagem da VM. Por exemplo, microsoft-dsvm
Oferta Oferta associada à criação da VM
Sku SKU do nó/VM criado
Versão Versão da imagem usada enquanto o nó/VM é criado
ClusterCreationTime Hora em que o cluster foi criado
ResizeStartTime Hora em que o aumento/redução do cluster iniciou
ResizeEndTime Hora em que o aumento/redução do cluster foi concluído
NodeAllocationTime Hora em que o nó foi alocado
NodeBootTime Hora em que o nó foi inicializado
StartTaskStartTime Hora em que a tarefa foi atribuída a um nó e iniciada
StartTaskEndTime Hora em que a tarefa atribuída a um nó terminou
TotalE2ETimeInSeconds Tempo total em que o nó estava ativo

Observação

Em vigor em fevereiro de 2022, a tabela AmlComputeClusterNodeEvent será preterida. Em vez disso, recomendamos que você use a tabela AmlComputeClusterEvent.

AmlComputeInstanceEvent table

Propriedade Descrição
Type Nome do evento de log, AmlComputeInstanceEvent
TimeGenerated Hora (UTC) em que a entrada de log foi gerada
Nível O nível de severidade do evento. Precisa ser Informativo, Aviso, Erro ou Crítico.
ResultType O status do evento. Os valores típicos incluem Iniciado, Em Andamento, Com Êxito, Com Falha, Ativo e Resolvido.
CorrelationId Um GUID usado para agrupar um conjunto de eventos relacionados, quando aplicável.
OperationName O nome da operação associada à entrada de log
Identidade A identidade do usuário ou do aplicativo que realizou a operação.
AadTenantId A ID do locatário do AAD para a qual a operação foi enviada.
AmlComputeInstanceName "O nome da instância de computação associada à entrada de log.

AmlDataLabelEvent table

Propriedade Descrição
Type Nome do evento de log, AmlDataLabelEvent
TimeGenerated Hora (UTC) em que a entrada de log foi gerada
Nível O nível de severidade do evento. Precisa ser Informativo, Aviso, Erro ou Crítico.
ResultType O status do evento. Os valores típicos incluem Iniciado, Em Andamento, Com Êxito, Com Falha, Ativo e Resolvido.
CorrelationId Um GUID usado para agrupar um conjunto de eventos relacionados, quando aplicável.
OperationName O nome da operação associada à entrada de log
Identidade A identidade do usuário ou do aplicativo que realizou a operação.
AadTenantId A ID do locatário do AAD para a qual a operação foi enviada.
AmlProjectId Identificador exclusivo do projeto do AzureML.
AmlProjectName Nome do projeto do AzureML.
AmlLabelNames Os nomes de classe de rótulo que são criados para o projeto.
AmlDataStoreName O nome do armazenamento de dados em que os dados do projeto são armazenados.

AmlDataSetEvent table

Propriedade Descrição
Type Nome do evento de log, AmlDataSetEvent
TimeGenerated Hora (UTC) em que a entrada de log foi gerada
Nível O nível de severidade do evento. Precisa ser Informativo, Aviso, Erro ou Crítico.
ResultType O status do evento. Os valores típicos incluem Iniciado, Em Andamento, Com Êxito, Com Falha, Ativo e Resolvido.
AmlWorkspaceId GUID e ID exclusiva do workspace do AzureML.
OperationName O nome da operação associada à entrada de log
Identidade A identidade do usuário ou do aplicativo que realizou a operação.
AadTenantId A ID do locatário do AAD para a qual a operação foi enviada.
AmlDatasetId ID do Conjunto de Dados do AzureML.
AmlDatasetName Nome do Conjunto de Dados do AzureML.

AmlDataStoreEvent table

Propriedade Descrição
Type Nome do evento de log, AmlDataStoreEvent
TimeGenerated Hora (UTC) em que a entrada de log foi gerada
Nível O nível de severidade do evento. Precisa ser Informativo, Aviso, Erro ou Crítico.
ResultType O status do evento. Os valores típicos incluem Iniciado, Em Andamento, Com Êxito, Com Falha, Ativo e Resolvido.
AmlWorkspaceId GUID e ID exclusiva do workspace do AzureML.
OperationName O nome da operação associada à entrada de log
Identidade A identidade do usuário ou do aplicativo que realizou a operação.
AadTenantId A ID do locatário do AAD para a qual a operação foi enviada.
AmlDatastoreName Nome do Data Store do AzureML.

AmlDeploymentEvent table

Propriedade Descrição
Type Nome do evento de log, AmlDeploymentEvent
TimeGenerated Hora (UTC) em que a entrada de log foi gerada
Nível O nível de severidade do evento. Precisa ser Informativo, Aviso, Erro ou Crítico.
ResultType O status do evento. Os valores típicos incluem Iniciado, Em Andamento, Com Êxito, Com Falha, Ativo e Resolvido.
OperationName O nome da operação associada à entrada de log
Identidade A identidade do usuário ou do aplicativo que realizou a operação.
AadTenantId A ID do locatário do AAD para a qual a operação foi enviada.
AmlServiceName Nome do Serviço do AzureML.

AmlInferencingEvent table

Propriedade Descrição
Type Nome do evento de log, AmlInferencingEvent
TimeGenerated Hora (UTC) em que a entrada de log foi gerada
Nível O nível de severidade do evento. Precisa ser Informativo, Aviso, Erro ou Crítico.
ResultType O status do evento. Os valores típicos incluem Iniciado, Em Andamento, Com Êxito, Com Falha, Ativo e Resolvido.
OperationName O nome da operação associada à entrada de log
Identidade A identidade do usuário ou do aplicativo que realizou a operação.
AadTenantId A ID do locatário do AAD para a qual a operação foi enviada.
AmlServiceName Nome do Serviço do AzureML.

AmlModelsEvent table

Propriedade Descrição
Type Nome do evento de log, AmlModelsEvent
TimeGenerated Hora (UTC) em que a entrada de log foi gerada
Nível O nível de severidade do evento. Precisa ser Informativo, Aviso, Erro ou Crítico.
ResultType O status do evento. Os valores típicos incluem Iniciado, Em Andamento, Com Êxito, Com Falha, Ativo e Resolvido.
OperationName O nome da operação associada à entrada de log
Identidade A identidade do usuário ou do aplicativo que realizou a operação.
AadTenantId A ID do locatário do AAD para a qual a operação foi enviada.
ResultSignature O código de status HTTP do evento. Os valores comuns incluem 200, 201, 202 etc.
AmlModelName Nome do modelo do AzureML.

AmlPipelineEvent table

Propriedade Descrição
Type Nome do evento de log, AmlPipelineEvent
TimeGenerated Hora (UTC) em que a entrada de log foi gerada
Nível O nível de severidade do evento. Precisa ser Informativo, Aviso, Erro ou Crítico.
ResultType O status do evento. Os valores típicos incluem Iniciado, Em Andamento, Com Êxito, Com Falha, Ativo e Resolvido.
AmlWorkspaceId GUID e ID exclusiva do workspace do AzureML.
AmlWorkspaceId Nome do workspace do AzureML.
OperationName O nome da operação associada à entrada de log
Identidade A identidade do usuário ou do aplicativo que realizou a operação.
AadTenantId A ID do locatário do AAD para a qual a operação foi enviada.
AmlModuleId Um GUID e uma ID exclusiva do módulo.
AmlModelName Nome do modelo do AzureML.
AmlPipelineId ID do pipeline do AzureML.
AmlParentPipelineId ID do pipeline pai do AzureML (em caso de clonagem).
AmlPipelineDraftId ID do rascunho de pipeline do AzureML.
AmlPipelineDraftName Nome do rascunho de pipeline do AzureML.
AmlPipelineEndpointId ID do ponto de extremidade do pipeline do AzureML.
AmlPipelineEndpointName Nome do ponto de extremidade do pipeline do AzureML.

AmlRunEvent table

Propriedade Descrição
Type Nome do evento de log, AmlRunEvent
TimeGenerated Hora (UTC) em que a entrada de log foi gerada
Nível O nível de severidade do evento. Precisa ser Informativo, Aviso, Erro ou Crítico.
ResultType O status do evento. Os valores típicos incluem Iniciado, Em Andamento, Com Êxito, Com Falha, Ativo e Resolvido.
OperationName O nome da operação associada à entrada de log
AmlWorkspaceId GUID e ID exclusiva do workspace do AzureML.
Identidade A identidade do usuário ou do aplicativo que realizou a operação.
AadTenantId A ID do locatário do AAD para a qual a operação foi enviada.
RunId A ID exclusiva da execução.

Tabela AmlEnvironmentEvent

Propriedade Descrição
Type Nome do evento de log, AmlEnvironmentEvent
TimeGenerated Hora (UTC) em que a entrada de log foi gerada
Nível O nível de severidade do evento. Precisa ser Informativo, Aviso, Erro ou Crítico.
OperationName O nome da operação associada à entrada de log
Identidade A identidade do usuário ou do aplicativo que realizou a operação.
AadTenantId A ID do locatário do AAD para a qual a operação foi enviada.
AmlEnvironmentName Nome da configuração do ambiente do AzureML.
AmlEnvironmentVersion Nome da versão de configuração do ambiente do AzureML.

Confira também