Monitorizar o Azure Machine Learning
Este artigo descreve:
- Os tipos de dados de monitoramento que você pode coletar para este serviço.
- Formas de analisar esses dados.
Nota
Se já estiver familiarizado com este serviço e/ou Azure Monitor e quiser apenas saber como analisar dados de monitorização, consulte a secção Analisar perto do final deste artigo.
Quando você tem aplicativos críticos e processos de negócios que dependem de recursos do Azure, você precisa monitorar e receber alertas para seu sistema. O serviço Azure Monitor coleta e agrega métricas e logs de cada componente do seu sistema. O Azure Monitor fornece uma exibição de disponibilidade, desempenho e resiliência e notifica você sobre problemas. Você pode usar o portal do Azure, PowerShell, CLI do Azure, API REST ou bibliotecas de cliente para configurar e exibir dados de monitoramento.
- Para obter mais informações sobre o Azure Monitor, consulte a visão geral do Azure Monitor.
- Para obter mais informações sobre como monitorar os recursos do Azure em geral, consulte Monitorar recursos do Azure com o Azure Monitor.
Nota
As informações neste documento destinam-se principalmente a administradores, uma vez que descrevem a monitorização do serviço Azure Machine Learning e dos serviços associados do Azure. Se você for um cientista de dados ou desenvolvedor e quiser monitorar informações específicas para suas execuções de treinamento de modelo, consulte os seguintes documentos:
- Iniciar, monitorizar e cancelar execuções de preparação
- Métricas de log para execuções de treinamento
- Rastreie experimentos com MLflow
Se você quiser monitorar as informações geradas por modelos implantados em pontos de extremidade online, consulte Monitorar pontos de extremidade online.
Informações
Alguns serviços no Azure têm um painel de monitoramento interno no portal do Azure que fornece um ponto de partida para monitorar seu serviço. Esses painéis são chamados de insights, e você pode encontrá-los no Hub de Insights do Azure Monitor no portal do Azure.
O Machine Learning pode usar o Application Insights para rastrear métricas e logs. Você pode enviar métricas e logs internos para o Application Insights e usar os recursos do Application Insights, como métricas em tempo real, pesquisa de transações, falhas e desempenho para análise adicional. Para obter mais informações, consulte Monitorar pontos de extremidade online.
Tipos de recursos
O Azure usa o conceito de tipos de recursos e IDs para identificar tudo em uma assinatura. Os tipos de recursos também fazem parte das IDs de recursos para cada recurso em execução no Azure. Por exemplo, um tipo de recurso para uma máquina virtual é Microsoft.Compute/virtualMachines
. Para obter uma lista de serviços e seus tipos de recursos associados, consulte Provedores de recursos.
O Azure Monitor organiza de forma semelhante os principais dados de monitoramento em métricas e logs com base em tipos de recursos, também chamados de namespaces. Diferentes métricas e logs estão disponíveis para diferentes tipos de recursos. Seu serviço pode estar associado a mais de um tipo de recurso.
Para obter mais informações sobre os tipos de recursos para o Machine Learning, consulte Referência de dados de monitoramento do Machine Learning.
Armazenamento de dados
Para o Azure Monitor:
- Os dados de métricas são armazenados no banco de dados de métricas do Azure Monitor.
- Os dados de log são armazenados no repositório de logs do Azure Monitor. O Log Analytics é uma ferramenta no portal do Azure que pode consultar este armazenamento.
- O log de atividades do Azure é um repositório separado com sua própria interface no portal do Azure.
Opcionalmente, você pode rotear dados de métricas e logs de atividades para o repositório de logs do Azure Monitor. Em seguida, você pode usar o Log Analytics para consultar os dados e correlacioná-los com outros dados de log.
Muitos serviços podem usar configurações de diagnóstico para enviar dados de métrica e log para outros locais de armazenamento fora do Azure Monitor. Os exemplos incluem o Armazenamento do Azure, sistemas de parceiros hospedados e sistemas de parceiros que não são do Azure, usando Hubs de Eventos.
Para obter informações detalhadas sobre como o Azure Monitor armazena dados, consulte Plataforma de dados do Azure Monitor.
Métricas da plataforma Azure Monitor
O Azure Monitor fornece métricas de plataforma para a maioria dos serviços. Essas métricas são:
- Definido individualmente para cada namespace.
- Armazenado no banco de dados de métricas de séries cronológicas do Azure Monitor.
- Leve e capaz de suportar alertas quase em tempo real.
- Usado para acompanhar o desempenho de um recurso ao longo do tempo.
Coleção: o Azure Monitor coleta métricas da plataforma automaticamente. Não é necessária qualquer configuração.
Roteamento: você também pode rotear algumas métricas da plataforma para o Azure Monitor Logs / Log Analytics para poder consultá-las com outros dados de log. Verifique a configuração de exportação DS para cada métrica para ver se você pode usar uma configuração de diagnóstico para rotear a métrica para Azure Monitor Logs / Log Analytics.
- Para obter mais informações, consulte a configuração de diagnóstico de métricas.
- Para definir configurações de diagnóstico para um serviço, consulte Criar configurações de diagnóstico no Azure Monitor.
Para obter uma lista de todas as métricas que é possível reunir para todos os recursos no Azure Monitor, consulte Métricas suportadas no Azure Monitor.
Para obter uma lista de métricas disponíveis para o Machine Learning, consulte Referência de dados de monitoramento do Machine Learning.
Todas as métricas do Azure Machine Learning estão no espaço de trabalho do Serviço de Aprendizado de Máquina do namespace.
Logs de recursos do Azure Monitor
Os logs de recursos fornecem informações sobre operações que foram feitas por um recurso do Azure. Os logs são gerados automaticamente, mas você deve roteá-los para os logs do Azure Monitor para salvá-los ou consultá-los. Os logs são organizados em categorias. Um determinado namespace pode ter várias categorias de log de recursos.
Coleção: os logs de recursos não são coletados e armazenados até que você crie uma configuração de diagnóstico e roteie os logs para um ou mais locais. Ao criar uma definição de diagnóstico, especifica as categorias de registos que devem ser recolhidas. Há várias maneiras de criar e manter configurações de diagnóstico, incluindo o portal do Azure, programaticamente e por meio da Política do Azure.
Roteamento: o padrão sugerido é rotear logs de recursos para Logs do Azure Monitor para que você possa consultá-los com outros dados de log. Outros locais, como o Armazenamento do Azure, Hubs de Eventos do Azure e determinados parceiros de monitoramento da Microsoft também estão disponíveis. Para obter mais informações, consulte Logs de recursos do Azure e Destinos de log de recursos.
Para obter informações detalhadas sobre como coletar, armazenar e rotear logs de recursos, consulte Configurações de diagnóstico no Azure Monitor.
Para obter uma lista de todas as categorias de log de recursos disponíveis no Azure Monitor, consulte Logs de recursos com suporte no Azure Monitor.
Todos os logs de recursos no Azure Monitor têm os mesmos campos de cabeçalho, seguidos por campos específicos do serviço. O esquema comum é descrito no esquema de log de recursos do Azure Monitor.
Para obter as categorias de log de recursos disponíveis, suas tabelas associadas do Log Analytics e os esquemas de logs para Machine Learning, consulte Referência de dados de monitoramento do Machine Learning.
Registo de atividades do Azure
O log de atividades contém eventos no nível de assinatura que rastreiam as operações para cada recurso do Azure visto de fora desse recurso; por exemplo, criar um novo recurso ou iniciar uma máquina virtual.
Coleção: os eventos do log de atividades são gerados e coletados automaticamente em um repositório separado para exibição no portal do Azure.
Roteamento: você pode enviar dados de log de atividades para os Logs do Azure Monitor para analisá-los junto com outros dados de log. Outros locais, como o Armazenamento do Azure, Hubs de Eventos do Azure e determinados parceiros de monitoramento da Microsoft também estão disponíveis. Para obter mais informações sobre como rotear o log de atividades, consulte Visão geral do log de atividades do Azure.
Analise os dados de monitoramento
Existem muitas ferramentas para analisar dados de monitoramento.
Ferramentas do Azure Monitor
O Azure Monitor dá suporte às seguintes ferramentas básicas:
Explorador de métricas, uma ferramenta no portal do Azure que permite exibir e analisar métricas para recursos do Azure. Para obter mais informações, consulte Analisar métricas com o explorador de métricas do Azure Monitor.
Log Analytics, uma ferramenta no portal do Azure que permite consultar e analisar dados de log usando a linguagem de consulta Kusto (KQL). Para obter mais informações, consulte Introdução às consultas de log no Azure Monitor.
O log de atividades, que tem uma interface de usuário no portal do Azure para exibição e pesquisas básicas. Para fazer uma análise mais aprofundada, você precisa rotear os dados para os logs do Azure Monitor e executar consultas mais complexas no Log Analytics.
As ferramentas que permitem uma visualização mais complexa incluem:
- Painéis que permitem combinar diferentes tipos de dados em um único painel no portal do Azure.
- Pastas de trabalho, relatórios personalizáveis que você pode criar no portal do Azure. As pastas de trabalho podem incluir texto, métricas e consultas de log.
- Grafana, uma ferramenta de plataforma aberta que se destaca em dashboards operacionais. Você pode usar o Grafana para criar painéis que incluem dados de várias fontes diferentes do Azure Monitor.
- Power BI, um serviço de análise de negócios que fornece visualizações interativas em várias fontes de dados. Você pode configurar o Power BI para importar automaticamente dados de log do Azure Monitor para aproveitar essas visualizações.
Ferramentas de exportação do Azure Monitor
Você pode obter dados do Azure Monitor para outras ferramentas usando os seguintes métodos:
Métricas: use a API REST para métricas para extrair dados de métricas do banco de dados de métricas do Azure Monitor. A API suporta expressões de filtro para refinar os dados recuperados. Para obter mais informações, consulte Referência da API REST do Azure Monitor.
Logs: use a API REST ou as bibliotecas de cliente associadas.
Outra opção é a exportação de dados do espaço de trabalho.
Para começar a usar a API REST para o Azure Monitor, consulte Passo a passo da API REST de monitoramento do Azure.
Consultas do Kusto
Você pode analisar dados de monitoramento no repositório Azure Monitor Logs / Log Analytics usando a linguagem de consulta Kusto (KQL).
Importante
Quando você seleciona Logs no menu do serviço no portal, o Log Analytics é aberto com o escopo da consulta definido para o serviço atual. Esse escopo significa que as consultas de log incluirão apenas dados desse tipo de recurso. Se quiser executar uma consulta que inclua dados de outros serviços do Azure, selecione Logs no menu Azure Monitor . Consulte Escopo e intervalo de tempo da consulta de log no Azure Monitor Log Analytics para obter detalhes.
Para obter uma lista de consultas comuns para qualquer serviço, consulte a interface de consultas do Log Analytics.
Você pode usar as seguintes consultas para ajudá-lo a monitorar seus recursos de Machine Learning:
Obter trabalhos falhados nos últimos cinco dias:
AmlComputeJobEvent | where TimeGenerated > ago(5d) and EventType == "JobFailed" | project TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
Obter registros para um nome de trabalho específico:
AmlComputeJobEvent | where JobName == "automl_a9940991-dedb-4262-9763-2fd08b79d8fb_setup" | project TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
Obtenha eventos de cluster nos últimos cinco dias para clusters em que o tamanho da VM é Standard_D1_V2:
AmlComputeClusterEvent | where TimeGenerated > ago(4d) and VmSize == "STANDARD_D1_V2" | project ClusterName , InitialNodeCount , MaximumNodeCount , QuotaAllocated , QuotaUtilized
Obtenha as alocações de nó de cluster nos últimos oito dias::
AmlComputeClusterEvent | where TimeGenerated > ago(8d) and TargetNodeCount > CurrentNodeCount | project TimeGenerated, ClusterName, CurrentNodeCount, TargetNodeCount
Ao conectar vários espaços de trabalho do Machine Learning ao mesmo espaço de trabalho do Log Analytics, você pode consultar todos os recursos.
Obtenha o número de nós em execução em espaços de trabalho e clusters no último dia:
AmlComputeClusterEvent | where TimeGenerated > ago(1d) | summarize avgRunningNodes=avg(TargetNodeCount), maxRunningNodes=max(TargetNodeCount) by Workspace=tostring(split(_ResourceId, "/")[8]), ClusterName, ClusterType, VmSize, VmPriority
Alertas
Os alertas do Azure Monitor notificam proativamente quando condições específicas são encontradas em seus dados de monitoramento. Os alertas permitem-lhe identificar e resolver problemas no seu sistema antes que os seus clientes os percebam. Para obter mais informações, consulte Alertas do Azure Monitor.
Há muitas fontes de alertas comuns para recursos do Azure. Para obter exemplos de alertas comuns para recursos do Azure, consulte Consultas de alerta de log de exemplo. O site Azure Monitor Baseline Alerts (AMBA) fornece um método semiautomatizado de implementação de alertas métricos de plataforma, painéis e diretrizes importantes. O site aplica-se a um subconjunto em contínua expansão dos serviços do Azure, incluindo todos os serviços que fazem parte da Zona de Aterragem do Azure (ALZ).
O esquema de alerta comum padroniza o consumo de notificações de alerta do Azure Monitor. Para obter mais informações, consulte Esquema de alerta comum.
Tipos de alertas
Você pode alertar sobre qualquer fonte de dados de métrica ou log na plataforma de dados do Azure Monitor. Há muitos tipos diferentes de alertas, dependendo dos serviços que você está monitorando e dos dados de monitoramento que você está coletando. Diferentes tipos de alertas têm vários benefícios e desvantagens. Para obter mais informações, consulte Escolher o tipo de alerta de monitoramento correto.
A lista a seguir descreve os tipos de alertas do Azure Monitor que você pode criar:
- Os alertas métricos avaliam as métricas de recursos em intervalos regulares. As métricas podem ser métricas de plataforma, métricas personalizadas, logs do Azure Monitor convertidos em métricas ou métricas do Application Insights. Os alertas métricos também podem aplicar várias condições e limites dinâmicos.
- Os alertas de log permitem que os usuários usem uma consulta do Log Analytics para avaliar logs de recursos em uma frequência predefinida.
- Os alertas do log de atividades são acionados quando ocorre um novo evento do log de atividades que corresponde às condições definidas. Os alertas de Integridade do Recurso e os alertas de Integridade do Serviço são alertas de log de atividades que relatam a integridade do serviço e do recurso.
Alguns serviços do Azure também suportam alertas de deteção inteligente, alertas Prometheus ou regras de alerta recomendadas.
Para alguns serviços, você pode monitorar em escala aplicando a mesma regra de alerta de métrica a vários recursos do mesmo tipo que existem na mesma região do Azure. Notificações individuais são enviadas para cada recurso monitorado. Para serviços e nuvens do Azure com suporte, consulte Monitorar vários recursos com uma regra de alerta.
Nota
Se você estiver criando ou executando um aplicativo executado em seu serviço, o Azure Monitor Application Insights pode oferecer mais tipos de alertas.
Regras de alerta do Machine Learning
A tabela a seguir lista regras de alerta comuns e recomendadas para o Machine Learning.
Tipo de alerta | Condição | Description |
---|---|---|
Falha na implantação do modelo | Tipo de agregação: Total, Operador: Maior que, Valor limite: 0 | Quando uma ou mais implantações de modelo falharam |
Percentagem de Utilização de Quotas | Tipo de agregação: Média, Operador: Maior que, Valor limite: 90 | Quando a percentagem de utilização da quota for superior a 90% |
Nós inutilizáveis | Tipo de agregação: Total, Operador: Maior que, Valor limite: 0 | Quando há um ou mais nós inutilizáveis |
Recomendações do assistente
Para alguns serviços, se ocorrerem condições críticas ou alterações iminentes durante as operações de recursos, será exibido um alerta na página Visão geral do serviço no portal. Você pode encontrar mais informações e correções recomendadas para o alerta em Recomendações do Advisor em Monitoramento no menu à esquerda. Durante as operações normais, nenhuma recomendação do consultor é exibida.
Para obter mais informações sobre o Azure Advisor, consulte Visão geral do Azure Advisor.
Conteúdos relacionados
- Consulte Referência de dados de monitoramento do Machine Learning para obter uma referência das métricas, logs e outros valores importantes criados para o Machine Learning.
- Consulte Monitorando recursos do Azure com o Azure Monitor para obter detalhes gerais sobre o monitoramento de recursos do Azure.
- Consulte Gerenciar e solicitar cotas para recursos do Azure para obter informações sobre como trabalhar com cotas relacionadas ao Machine Learning.