Share via


Monitorar Lote do Azure

Este artigo descreve:

  • Os tipos de dados de monitoramento que você pode coletar para esse serviço.
  • Maneiras de analisar esses dados.

Observação

Se já estiver familiarizado com esse serviço e/ou com o Azure Monitor e apenas quiser saber como analisar os dados de monitoramento, confira a seção Analisar ao final deste artigo.

Quando seus aplicativos e processos de negócios críticos dependem de recursos do Azure, você precisa monitorar e receber alertas para o seu sistema. O serviço do Azure Monitor coleta e agrega métricas e logs de cada componente do seu sistema. O Azure Monitor lhe fornece uma exibição da disponibilidade, desempenho e resiliência e notifica você em caso de problemas. Você pode usar o portal do Azure, o PowerShell, a CLI do Azure, a API REST ou as bibliotecas de cliente para configurar e exibir dados de monitoramento.

Tipos de recurso

O Azure usa o conceito de tipos de recursos e IDs para identificar tudo em uma assinatura. O Azure Monitor organiza os principais dados de monitoramento de maneira similar em métricas e logs com base em tipos de recursos, também chamados de namespaces. Métricas e logs diferentes estão disponíveis para diferentes tipos de recursos. Seu serviço pode estar associado a mais de um tipo de recurso.

Os tipos de recurso também fazem parte das IDs de recursos para cada recurso em execução no Azure. Por exemplo, um tipo de recurso para uma máquina virtual é Microsoft.Compute/virtualMachines. Para obter uma lista de serviços e os tipos de recursos associados a eles, confira Provedores de recursos.

Para obter mais informações sobre os tipos de recursos para Batch, consulte Referência de dados de monitoramento de lote.

Armazenamento de dados

Para o Azure Monitor:

  • Os dados de métricas são armazenados no banco de dados de métricas do Azure Monitor.
  • Os dados de log são armazenados no repositório de logs do Azure Monitor. O Log Analytics é uma ferramenta no portal do Azure que pode consultar esse repositório.
  • O log de atividades do Azure é um repositório separado com uma interface própria no portal do Azure.

Opcionalmente, você pode rotear dados de log de métricas e atividades para o armazenamento de logs do Azure Monitor. Em seguida, você pode usar o Log Analytics para consultar os dados e correlacioná-los com outros dados de log.

Muitos serviços podem usar configurações de diagnóstico para enviar dados de métricas e logs para outros locais de armazenamento fora do Azure Monitor. Os exemplos incluem o Armazenamento do Azure, sistemas de parceiros hospedados e sistemas de parceiros não Azure, usando Hubs de Eventos.

Para obter informações detalhadas sobre como o Azure Monitor armazena dados, confira Plataforma de dados do Azure Monitor.

Acessar logs de diagnóstico no armazenamento

Ao arquivar logs de diagnóstico do Lote em uma conta de armazenamento, um contêiner de armazenamento é criado na conta de armazenamento assim que um evento relacionado ocorre. Os blobs são criados de acordo com o padrão de nomenclatura a seguir:

insights-{log category name}/resourceId=/SUBSCRIPTIONS/{subscription ID}/
RESOURCEGROUPS/{resource group name}/PROVIDERS/MICROSOFT.BATCH/
BATCHACCOUNTS/{Batch account name}/y={four-digit numeric year}/
m={two-digit numeric month}/d={two-digit numeric day}/
h={two-digit 24-hour clock hour}/m=00/PT1H.json

Por exemplo:

insights-metrics-pt1m/resourceId=/SUBSCRIPTIONS/XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX/
RESOURCEGROUPS/MYRESOURCEGROUP/PROVIDERS/MICROSOFT.BATCH/
BATCHACCOUNTS/MYBATCHACCOUNT/y=2018/m=03/d=05/h=22/m=00/PT1H.json

Cada arquivo de blob PT1H.json contém eventos formatados em JSON que ocorreram dentro da hora especificada na URL do blob (por exemplo, h=12). Durante a hora atual, os eventos são anexados ao arquivo PT1H.json à medida que ocorrem. O valor de minuto (m=00) é sempre 00, como eventos de logs de diagnóstico são divididos em blobs individuais por hora. Todas as horas estão no padrão UTC.

O exemplo a seguir mostra uma entrada PoolResizeCompleteEvent em um arquivo de log PT1H.json. A entrada inclui informações sobre o número atual e de destino de nós dedicados e de baixa prioridade e a hora de início e término da operação.

{ "Tenant": "65298bc2729a4c93b11c00ad7e660501", "time": "2019-08-22T20:59:13.5698778Z", "resourceId": "/SUBSCRIPTIONS/XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX/RESOURCEGROUPS/MYRESOURCEGROUP/PROVIDERS/MICROSOFT.BATCH/BATCHACCOUNTS/MYBATCHACCOUNT/", "category": "ServiceLog", "operationName": "PoolResizeCompleteEvent", "operationVersion": "2017-06-01", "properties": {"id":"MYPOOLID","nodeDeallocationOption":"Requeue","currentDedicatedNodes":10,"targetDedicatedNodes":100,"currentLowPriorityNodes":0,"targetLowPriorityNodes":0,"enableAutoScale":false,"isAutoPool":false,"startTime":"2019-08-22 20:50:59.522","endTime":"2019-08-22 20:59:12.489","resultCode":"Success","resultMessage":"The operation succeeded"}}

Para acessar programaticamente os logs na sua conta de armazenamento, utilize as APIs de armazenamento.

Métricas de plataforma do Azure Monitor

O Azure Monitor fornece métricas de plataforma para a maioria dos serviços. Essas métricas são:

  • Definidas individualmente para cada namespace.
  • Armazenadas no banco de dados de métricas da série temporal do Azure Monitor.
  • Leves e capazes de dar suporte a alertas quase em tempo real.
  • Usadas para acompanhar o desempenho de um recurso ao longo do tempo.

Coleta: O Azure Monitor coleta as métricas da plataforma automaticamente. Nenhuma configuração é necessária.

Roteamento: Você também pode rotear métricas de plataforma para o Azure Monitor Logs/Log Analytics para que possa consultá-las com outros dados de log. Para obter mais informações, confira a Configuração de diagnóstico de métricas. Para saber como definir as configurações de diagnóstico para um serviço, confira Criar configurações de diagnóstico no Azure Monitor.

Para obter uma lista de todas as métricas que é possível coletar para todos os recursos no Azure Monitor, confira Métricas com suporte no Azure Monitor.

Os exemplos de métricas em uma conta do Lote incluem: eventos de criação de pool, contagem de nós de baixa prioridade e eventos de conclusão de tarefas. Essas métricas podem ajudar a identificar tendências e podem ser usadas para análises de dados.

Observação

As métricas emitidas nos últimos 3 minutos ainda podem estar se agregando, portanto, os valores podem estar subnotificados durante esse período. A entrega de métricas não é garantida e pode ser afetada por entrega fora de ordem, perda de dados ou duplicação.

Para obter uma lista completa das métricas disponíveis para o Batch, consulte Referência de dados de monitoramento de lote.

Logs de recursos do Azure Monitor

Os logs de recursos fornecem insights sobre as operações que foram executadas por um recurso do Azure. Os logs são gerados automaticamente, mas você precisa encaminhá-los para os logs do Azure Monitor para serem salvos ou consultados. Os logs são organizados em categorias. Um determinado namespace pode ter várias categorias de logs de recursos.

Coleta: Os logs de recursos não serão coletados nem armazenados enquanto você não criar uma configuração de diagnóstico e encaminhar os logs para um ou mais locais. Ao criar uma configuração de diagnóstico, você especifica quais categorias de logs coletar. Há várias maneiras de criar e manter configurações de diagnóstico, incluindo o portal do Azure, programaticamente e por meio do Azure Policy.

Encaminhamento: O padrão sugerido é encaminhar os logs de recursos para os logs do Azure Monitor para que você possa consultá-los com outros dados de logs. Também estão disponíveis outros locais, como o Armazenamento do Microsoft Azure, os Hubs de Eventos do Azure e determinados parceiros de monitoramento da Microsoft. Para obter mais informações, confira Logs de recursos do Azure e Destinos de logs de recursos.

Para obter informações detalhadas sobre como coletar, armazenar e encaminhar logs de recursos, confira Configurações de diagnóstico no Azure Monitor.

Para obter uma lista de todas as categorias de logs de recursos disponíveis no Azure Monitor, confira Logs de recursos com suporte no Azure Monitor.

Todos os logs de recursos no Azure Monitor têm os mesmos campos de cabeçalho, seguidos de campos específicos do serviço. O esquema comum está descrito em Esquema do log de recursos do Azure Monitor.

Para obter as categorias de log de recursos disponíveis, suas tabelas associadas do Log Analytics e os esquemas de logs para Batch, consulte Referência de dados de monitoramento de lote.

Habilite explicitamente as configurações de diagnóstico para cada conta do Lote a ser monitorada.

Para o serviço em lote, você pode coletar os seguintes logs:

A captura de tela a seguir mostra um exemplo de configuração de diagnóstico que envia allLogs e AllMetrics para um espaço de trabalho do Log Analytics.

Captura de tela da página de configurações de diagnóstico mostrando um exemplo.

Ao criar um pool de Lotes do Azure, você pode instalar qualquer uma das seguintes extensões relacionadas ao monitoramento nos nós de computação para coletar e analisar dados:

Para obter uma comparação das diferentes extensões e agentes e os dados que eles coletam, consulte Comparar agentes.

Log de atividades do Azure

O log de atividades contém eventos de nível de assinatura que acompanham as operações de cada recurso do Azure, conforme visto fora desse recurso, por exemplo, criar um recurso ou iniciar uma máquina virtual.

Coleta: Os eventos do log de Atividades são gerados e coletados automaticamente em um repositório separado para serem vistos no portal do Azure.

Roteamento: você pode enviar dados de log de atividades para os logs do Azure Monitor para analisá-los junto com outros dados de log. Também estão disponíveis outros locais, como o Armazenamento do Microsoft Azure, os Hubs de Eventos do Azure e determinados parceiros de monitoramento da Microsoft. Para obter mais informações sobre como encaminhar o log de atividades, confira Visão geral do log de atividades do Azure.

Para as contas do Lote e especificamente, o log de atividades coleta eventos relacionados à criação e exclusão de contas e ao gerenciamento de chaves.

Analisar dados de monitoramento

Existem várias ferramentas para analisar os dados de monitoramento.

Ferramentas do Azure Monitor

O Azure Monitor dá suporte às seguintes ferramentas básicas:

As ferramentas que permitem uma visualização mais complexa incluem:

  • Painéis, que permitem que você combine diferentes tipos de dados em um único painel no portal do Azure.
  • Pastas de Trabalho, relatórios personalizáveis que você pode criar no portal do Azure. As pastas de trabalho podem incluir texto, métricas e consultas de log.
  • Grafana, uma ferramenta de plataforma aberta que oferece excelência em termos de painéis operacionais. Você pode usar o Grafana para criar painéis que incluem dados de várias fontes além do Azure Monitor.
  • Power BI, um serviço de análises corporativas que fornece visualizações interativas nas diversas fontes de dados. Você pode configurar o Power BI para importar dados de log automaticamente do Azure Monitor a fim de aproveitar essas visualizações.

Ao analisar métricas de lote baseadas em contagem, como Contagem de Núcleo Dedicado ou Contagem de Nó de Baixa Prioridade, use a agregação Média de transferência. Para métricas baseadas em eventos, como Eventos Completos de Redimensionamento de Pool, use a agregação Contagem dados. Evite usar a agregação Soma, que soma os valores de todos os pontos de dados recebidos no período do gráfico.

Ferramentas de exportação do Azure Monitor

Você pode obter dados do Azure Monitor em outras ferramentas usando os seguintes métodos:

Para começar a usar a API REST do Azure Monitor, confira o Passo a passo da API REST de monitoramento do Azure.

Consultas do Kusto

Analise os dados de monitoramento nos logs do Azure Monitor/no repositório do Log Analytics usando o KQL (Linguagem de Consulta Kusto).

Importante

Quando você seleciona Logs no menu do serviço no portal, o Log Analytics é aberto com o escopo da consulta definido para o serviço atual. Esse escopo significa que as consultas de log incluirão apenas dados desse tipo de recurso. Se você quiser executar uma consulta que inclua dados de outros serviços do Azure, selecione Logs no menu do Azure Monitor. Confira Escopo da consulta de log e intervalo de tempo no Log Analytics do Azure Monitor para obter detalhes.

Para obter uma lista de consultas comuns para qualquer serviço, confira a Interface de consultas do Log Analytics.

Consultas de exemplo

Aqui estão alguns exemplos de consultas de log para o lote:

Redimensionamentos de pool: lista os tempos de redimensionamento por pool e código de resultado (êxito ou falha):

AzureDiagnostics
| where OperationName=="PoolResizeCompleteEvent"
| summarize operationTimes=make_list(startTime_s) by poolName=id_s, resultCode=resultCode_s

Durações de tarefas: fornece o tempo decorrido das tarefas em segundos, desde o início até a conclusão da tarefa.

AzureDiagnostics
| where OperationName=="TaskCompleteEvent"
| extend taskId=id_s, ElapsedTime=datetime_diff('second', executionInfo_endTime_t, executionInfo_startTime_t) // For longer running tasks, consider changing 'second' to 'minute' or 'hour'
| summarize taskList=make_list(taskId) by ElapsedTime

Tarefas com falha por trabalho: lista as tarefas com falha por trabalho pai.

AzureDiagnostics
| where OperationName=="TaskFailEvent"
| summarize failedTaskList=make_list(id_s) by jobId=jobId_s, ResourceId

Alertas

Os alertas do Azure Monitor o notificam proativamente quando condições específicas são encontradas em seus dados de monitoramento. Os alertas permitem que você identifique e resolva problemas no seu sistema antes que os clientes os percebam. Para saber mais, confira Alertas do Azure Monitor.

Existem muitas fontes de alertas comuns para os recursos do Azure. Para obter exemplos de alertas comuns para recursos do Azure, confira Amostra de consultas de alerta de logs. O site Alertas de Linha de Base do Azure Monitor (AMBA) fornece um método semiautomatizado de implementação de alertas, painéis e diretrizes importantes de métrica de plataforma. O site se aplica a um subconjunto de serviços do Azure em contínua expansão, incluindo todos os serviços que fazem parte da Zona de Destino do Azure (ALZ).

O esquema de alerta comum padroniza a consumo do Azure Monitor para notificações de alerta no Azure. Para obter mais informações, confira Esquema de alertas comuns.

Tipos de alertas

Você pode receber alertas sobre qualquer fonte de dados de log ou métrica na plataforma de dados do Azure Monitor. Existem muitos tipos diferentes de alertas dependendo dos serviços que você está monitorando e dos dados de monitoramento que você está coletando. Diferentes tipos de alertas têm diversos benefícios e desvantagens. Para obter mais informações, confira Escolha o tipo de alerta de monitoramento correto para você.

A lista a seguir descreve os tipos de alertas do Azure Monitor que você pode criar:

  • Os Alertas de métricas avaliam as métricas de recursos a intervalos regulares. As métricas podem ser métricas de plataforma, métricas personalizadas, logs do Azure Monitor convertidos em métricas ou métricas do Application Insights. Os alertas de métrica também podem aplicar várias condições e limites dinâmicos.
  • Os Alertas de logs permitem que os usuários usem uma consulta do Log Analytics para avaliar os logs de recursos com uma frequência predefinida.
  • Os Alertas do log de atividades são disparados quando ocorre um novo evento de log de atividades que corresponda às condições definidas. Os alertas do Resource Health e da Integridade do Serviço são alertas do log de atividades que relatam a integridade do serviço e do recurso.

Alguns serviços do Azure também dão suporte a alertas de detecção inteligentes, alertas do Prometheus ou regras de alerta recomendadas.

No caso de alguns serviços, você pode monitorar em larga escala aplicando a mesma regra de alerta de métricas a vários recursos do mesmo tipo que existem na mesma região do Azure. Notificações individuais são enviadas para cada recurso monitorado. Para ver os serviços e as nuvens do Azure com suporte, confira Monitorar vários recursos com uma regra de alerta.

Observação

Se você estiver criando ou executando um aplicativo que é executado no seu serviço, o Azure Monitor Application Insights poderá oferecer mais tipos de alertas.

Regras de alerta de lote

Como a entrega de métricas pode estar sujeita a inconsistências, como entrega fora de ordem, perda de dados ou duplicação, você deve evitar os alertas que disparam em um único ponto de dados. Em vez disso, use limites para contabilizar essas inconsistências durante um período de tempo.

Por exemplo, talvez você queira configurar um alerta métrico quando sua contagem de núcleos de baixa prioridade cair para um determinado nível. Você pode usar esse alerta para ajustar a composição dos seus pools. Para obter melhores resultados, defina um período de 10 ou mais minutos em que o alerta será acionado se a contagem principal média de baixa prioridade cair abaixo do valor limite para todo o período. Esse período permite que as métricas sejam agregadas para que você obtenha resultados mais precisos.

A tabela a seguir lista alguns gatilhos de regra de alerta para o lote. Essas regras de alerta são apenas exemplos. Você pode definir alertas para qualquer métrica, entrada de log ou entrada de log de atividades listada na Referência de dados de monitoramento de lote.

Tipo de alerta Condição Descrição
Indicador Contagem de nós inutilizáveis Sempre que a contagem de nós inutilizáveis for maior que 0
Indicador Eventos de falha de tarefa Sempre que o total de Eventos de Falha de Tarefa for maior que o limite dinâmico

Recomendações do Assistente

Para alguns serviços, se ocorrerem condições críticas ou alterações iminentes durante operações de recurso, um alerta será exibido na página de Visão geral do serviço no portal. Você pode encontrar mais informações e correções recomendadas para o alerta nas Recomendações do assistente em Monitoramento no menu à esquerda. Durante as operações normais, nenhuma recomendação do assistente será exibida.

Para obter mais informações sobre o Assistente do Azure, confira Visão geral do Assistente do Azure.

Outras opções de monitoramento de lote

O Batch Explorer é uma ferramenta cliente autônoma, rica e exclusiva para ajudar a criar, depurar e monitorar aplicativos em lote do Azure. Você pode usar os Insights do Lote do Azure com o Batch Explorer para obter estatísticas do sistema para seus nós de lote, como contadores de desempenho de máquina virtual (VM).

Em seus aplicativos em lote, você pode usar a biblioteca Lote .NET para monitorar ou consultar o status de seus recursos, incluindo trabalhos, tarefas, nós e pools. Por exemplo:

Você pode usar as APIs de lote para criar consultas de lista para trabalhos em lote, tarefas, nós de computação e outros recursos. Para obter mais informações sobre como filtrar consultas de lista, consulte Criar consultas para listar recursos em lote de forma eficiente.

Ou, em vez de consultas de lista potencialmente demoradas que retornam informações detalhadas sobre grandes coleções de tarefas ou nós, você pode usar as operações Obter contagens de tarefas e Contagens de nós do pool de listas para obter contagens para tarefas em lote e nós de computação. Para obter mais informações, consulte Monitorar soluções em lote contando tarefas e nós por estado.

Você pode integrar o Application Insights com seus aplicativos em Lote do Azure para instrumentar seu código com métricas e rastreamento personalizados. Para obter um passo a passo detalhado de como adicionar o Application Insights a uma solução .NET em lote, código de aplicativo de instrumento, monitorar o aplicativo no portal do Azure e criar painéis personalizados, consulte Monitorar e depurar um aplicativo .NET em Lote do Azure com o Application Insights e exemplo de código.