Compartilhar via


Pacote de coletores de monitoramento de VM

Os coletores de inspeção da VM são projetados para coletarem dados de integridade da VM em vários recursos, como disco e rede, executando verificações de integridade na VM. Esse conjunto de coletores ajuda a identificar problemas, monitorar tendências de desempenho e otimizar recursos para aprimorar a experiência geral do usuário.

Este artigo fornece um resumo de todos os coletores disponíveis no relógio da VM, juntamente com as verificações, métricas, logs e configurações de parâmetro correspondentes. Para obter descrições detalhadas de cada verificação, métrica e log, consulte a página de visão geral do relógio da VM .

Pré-requisitos

Este artigo pressupõe que você esteja familiarizado com:

Observação

Nome Descrição
Coletor Agrupamento lógico de testes semelhantes em que você pode coletar verificações, métricas e logs para determinar a integridade de um recurso específico
Sinais O que é emitido para refletir o status de integridade das VMs. Os três tipos de sinais emitidos são verificações, métricas e logs
Grupo Indica se os coletores fazem parte do grupo principal ou opcional. Os coletores de grupos principais são habilitados por padrão, enquanto os coletores de grupo opcionais podem ser habilitados ou desabilitados com base em seus requisitos
Tags Usado para categorizar e filtrar verificações, métricas e logs
Qualificação Determina se um coletor está qualificado para ser executado com base nos atributos de ambiente especificados
Comportamento padrão Configuração padrão e ação que seriam seguidas se nenhuma configuração personalizada fosse fornecida.
Parâmetros superescritos Parâmetros associados que podem ser personalizados para substituir a configuração padrão

Grupos, etiquetas e verificações correspondentes, métricas e logs de eventos

Nome do coletor Grupo Etiquetas Verificações Métricas Logs de eventos
outbound_connectivity Núcleo Rede
  • outbound_connectivity
DNS Núcleo Rede
  • DNS
tcp_stats Núcleo Rede
  • SegmentsRetransmitted
  • TCPSynRetransmits (somente Linux)
  • NormalizedSegmentsRetransmitted
  • ConnectionResets
  • NormalizedConnectionResets
  • Tentativas de Conexão Falhadas
  • NormalizedFailedConnectionAttempts
  • ActiveConnectionOpenings
  • PassiveConnectionOpenings
  • Conexões Atuais
  • SegmentsReceived
  • SegmentsSent
clock_skew Núcleo Relógio
  • clockskew
disk_io Núcleo Disco
  • disk_io
  • UsedSpaceInBytes
  • FreeSpaceInBytes
  • CapacidadeEmBytes
  • PorcentagemUsada
disk_iops Núcleo Disco
  • WriteOps
  • ReadOps
imds Núcleo IMDS
  • imds
processo Núcleo Processo
  • processo
process_memory Núcleo Processo
  • ProcessRSSPercent
  • ProcessPageFaults
  • MachineMemoryTotalInBytes
  • PercentualDeMemóriaUsadaDaMáquina
  • Total de Falhas de Página
process_cpu Núcleo Processo
  • ProcessCPUCoreUsage
  • ProcessCPUMachineUsage
  • UsoTotalDaCpuDaMáquina
process_monitor Opcional Processo
  • process_monitor
  • UpTime
erro do sistema Núcleo Sistema operacional
  • SystemErrors
az_storage_blob Opcional AzBlob
  • az_storage_blob
hardware_health_monitor Opcional Equipamento
  • hardware_health_monitor
hardware_health_nvidia_smi Opcional Equipamento
  • hardware_health_nvidia_smi

Elegibilidade, comportamento padrão e parâmetros substituíveis

Nome do coletor Elegibilidade Comportamento padrão Parâmetros superescritos
outbound_connectivity Elegível se EnvironmentAttribute "OutboundConnectivityDisabled" não estiver configurado ou definido como "falso" Esse coletor é executado a cada 60s. Em cada execução, ele envia uma solicitação http GET http://www.msftconnecttest.com/connecttest.txt com um tempo limite de 5s. Se a solicitação falhar, ela tentará no máximo mais duas vezes com e intervalo de 10s. A verificação será marcada como "Falha" se todas as tentativas falharem.
  • OUTBOUND_CONNECTIVITY_INTERVAL: o intervalo de execução do Coletor. Padrão: 60s
  • OUTBOUND_CONNECTIVITY_URLS: as URLs para as quais esse Coletor envia solicitações HTTP GET. As URLs são fornecidas como uma cadeia de caracteres usando , como separador. Padrão: http://www.msftconnecttest.com/connecttest.txt
  • OUTBOUND_CONNECTIVITY_TIMEOUT_IN_MILLISECONDS: o tempo limite da solicitação http GET em milissegundos. Padrão: 5000
  • OUTBOUND_CONNECTIVITY_TOTAL_ATTEMPTS: o número total de tentativas de enviar uma solicitação http se a anterior falhar. Padrão: 3
  • OUTBOUND_CONNECTIVITY_RETRY_INTERVAL_IN_SECONDS: o intervalo de tentativa em segundos caso a solicitação HTTP anterior falhe. Padrão: 10
DNS Elegível se EnvironmentAttribute "OutboundConnectivityDisabled" não estiver configurado ou definido como "falso" Esse Coletor é executado a cada 180s. Em cada execução, ele tenta resolver o nome www.msftconnecttest.com DNS. A verificação será marcada como "Falha" se o nome DNS não puder ser resolvido.
  • DNS_INTERVAL: o intervalo de execução do Coletor. Padrão: 180 segundos
  • DNS_NAMES: os nomes de domínio a serem resolvidos separados por ,. Padrão: www.msftconnecttest.com
tcp_stats Sempre elegível Esse coletor é executado a cada 180s. Em cada execução, ele coleta as estatísticas TCP dos últimos 180 segundos.
  • TCP_STATS_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
  •   
clock_skew Elegível se EnvironmentAttribute "OutboundConnectivityDisabled" não estiver configurado ou definido como "falso" Esse coletor é executado a cada 180s. Em cada execução, ele recupera o deslocamento do relógio entre o servidor time.windows.com NTP remoto e a VM. A verificação será marcada como "Falha" se a distorção do relógio for maior que 5,0 segundos. Na VM do Windows, se a conexão ao servidor NTP remoto falhar, ele fará fallbacks para verificar o Serviço de Horário do Windows com o comando w32tm. A verificação será marcada como "Falha" se o comando w32tm retornar "Indicador de Salto: 3(não sincronizado)".
  • CLOCK_SKEW_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
  • CLOCK_SKEW_NTP_SERVER: o servidor NTP remoto usado para calcular a distorção do relógio. Padrão: time.windows.com
  • CLOCK_SKEW_TIME_SKEW_THRESHOLD_IN_SECONDS: o limite em segundos de deslocamento do relógio para marcar a verificação como "Falha". Padrão: 5.0
disk_io Sempre elegível se os pontos de montagem não forem especificados. Se os pontos de montagem forem especificados explicitamente, somente é aplicável quando os discos de dados são anexados à VM Esse coletor é executado a cada 180s. Em cada execução, ele verifica a disponibilidade de E/S do disco em cada ponto de montagem disponível criando uma pasta, criando um arquivo, gravando bytes nele, excluindo-o e excluindo a pasta. Em seguida, coleta as informações de uso do disco, incluindo espaço usado, espaço livre, capacidade total e porcentagem usada de cada ponto de montagem.
  • DISK_IO_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
  • DISK_IO_MOUNT_POINTS: os pontos de montagem separados por ,. Nenhum valor padrão
  • DISK_IO_IGNORE_FS_LIST: a lista do sistema de arquivos que deve ser ignorada separada por ,. Padrão: tmpfs, devtmpfs, devfs, iso9660,overlay, aufs, squashfs, autofs
  • DISK_IO_FILENAME: o nome do arquivo usado para verificar a leitura/gravação do arquivo. Padrão: vmwatch-{timestamp}.txt
disk_iops Sempre elegível Esse coletor é executado a cada 180s. Em cada execução, ele coleta as operações de leitura e gravação de disco por segundo de cada dispositivo de disco disponível.
  • DISK_IOPS_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
  • DISK_IOPS_DEVICES: os nomes dos dispositivos separados por ,. Nenhum valor padrão
  • DISK_IOPS_IGNORE_DEVICE_REGEX: o regex do nome do dispositivo que deve ser ignorado. Padrão: loop
imds Sempre elegível Esse coletor é executado a cada 180s. Em cada execução, ele consulta o ponto de extremidade http://169.254.169.254/metadata/instance/compute do IMDS e verifica se o corpo da resposta contém as informações (SubscriptionId, ResourceGroup, VMId, ResourceId) da VM. O tempo limite da consulta é 10s. Se a consulta falhar, ela tentará mais três vezes com um intervalo de 15, 30 e 45s.
  • IMDS_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
  • IMDS_ENDPOINT: a URL do ponto de extremidade do IMDS. Padrão:http://169.254.169.254/metadata/instance/compute
  • IMDS_TIMEOUT_IN_SECONDS: o tempo limite em segundos de cada consulta. Padrão: 10
  • IMDS_QUERY_TOTAL_ATTEMPTS: o número total de tentativas de enviar solicitação http se a anterior falhar. Padrão: 4
  • IMDS_RETRY_INTERVAL_IN_SEONDS: o intervalo de repetição em segundos se a solicitação http anterior falhar. Padrão: 15, 30, 45
processo Sempre qualificado Esse coletor é executado a cada 180s. Em cada execução, ele cria e executa o comando ${SYTEM_DIR}\system32\cmd.exe /c echo hello no computador Windows e /bin/sh -c echo hello no computador Linux. O tempo limite de execução do processo é 10s.
  • PROCESS_INTERVAL: o intervalo de execução do Coletor. Padrão: 180 segundos
  • PROCESS_TIMEOUT: o tempo limite da execução do processo. Padrão: 10s
memória de processo Sempre elegível Esse coletor é executado a cada 180s. Em cada execução, ele seleciona os três primeiros processos com mais uso de memória e relata o ProcessRSSPercent, ProcessPageFaults, MachineMemoryTotalInBytes, MachineMemoryUsedPercent e TotalPageFaults.
  • PROCESS_MEMORY_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
  •   
process_cpu Sempre qualificado Esse coletor é executado a cada 180s. Em cada execução, ele seleciona os três primeiros processos com mais uso de CPU e relata o ProcessCoreUsage, ProcessMachineUsage e MachineTotalCpuUsage.
  • PROCESS_CPU_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
  •   
process_monitor Sempre elegível Não executado. Se estiver explicitamente habilitado pelo usuário, esse coletor verificará se o processo selecionado está em execução e coletará seu tempo de execução em segundos.
  • PROCESS_MONITOR_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
  • PROCESS_MONITOR_PROCESS_NAMES: a Expressão Regular de nomes de processo a ser monitorada separada por ,. Nenhum valor padrão
erro_de_sistema Elegível em máquina Windows O Coletor é executado a cada três minutos. Em cada execução, ele assina o canal "Sistema" do Windows EventLog e consulta eventos com o nível definido no SystemData <=2 (incluindo LOG_ALWAYS, Crítico, Erro). O measurementTarget é definido como Source_EventId do EventLog usando a localidade padrão do Windows. Um limite de no máximo 10 alvos de medição diferentes é aplicado em cada coleção.
  • SYSTEM_ERROR_MEASUREMENT_TARGET_CAP: o limite do total de measurementTargets diferentes em cada coleção. Padrão: 10
az_storage_blob Elegível se o atributo de ambiente "OutboundConnectivityDisabled" não estiver definido ou estiver definido como "false". Não executado. Se estiver explicitamente habilitado pelo usuário, esse coletor verificará se a VM pode ter acesso ao Blob de Armazenamento do Azure selecionado usando a Identidade Gerenciada ou o token SAS.
  • AZ_STORAGE_BLOB_INTERVAL: o intervalo de execução do Coletor. Padrão: 180 segundos
  • AZ_STORAGE_ACCOUNT_NAME: o nome da conta de Armazenamento do Azure. Nenhum valor padrão
  • AZ_STORAGE_CONTAINER_NAME: o nome do Contêiner de Armazenamento do Azure. Nenhum valor padrão
  • AZ_STORAGE_BLOB_NAME: o nome do Blob de Armazenamento do Azure. Nenhum valor padrão
  • AZ_STORAGE_BLOB_DOMAIN_NAME: o nome de domínio do Armazenamento do Azure. Nenhum valor padrão
  • AZ_STORAGE_SAS_TOKEN_BASE64: o token SAS de Armazenamento do Azure codificado em Base64. Nenhum valor padrão
  • AZ_STORAGE_USE_MANAGED_IDENTITY: se a identidade gerenciada for usada para autenticação. Padrão: false
  • AZ_STORAGE_MANAGED_IDENTITY_CLIENT_ID: a ID do cliente de identidade gerenciada para autenticação. Nenhum valor padrão
hardware_health_monitor Qualificado no computador Windows Não executado. Se explicitamente habilitado pelo usuário, esse coletor coleta informações de integridade de hardware do log de eventos do Windows, atualmente apenas eventos críticos relacionados ao disco são coletados, incluindo eventos com ID 7, 500, 504, 505, 512 e 549.
  • HARDWARE_HEALTH_MONITOR_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
  •   
hardware_health_nvidia_smi Elegível em máquina Linux Ubuntu Não executado. Se explicitamente habilitado pelo usuário, esse coletor coleta informações de integridade de hardware do log de eventos do Windows, atualmente apenas eventos críticos relacionados ao disco são coletados, incluindo eventos com ID 7, 500, 504, 505, 512 e 549.
  • HARDWARE_HEALTH_NVIDIA_SMI_INTERVAL: o intervalo de execução do Coletor. Padrão: 60s
  • HARDWARE_HEALTH_NVIDIA_SMI_INTERVAL: o tempo limite de execução do comando /usr/bin/nvidia-smi. Padrão: 10s
  •  

Próximas etapas