Pacote de coletores de monitoramento de VM

2025-05-08

Os coletores de inspeção da VM são projetados para coletarem dados de integridade da VM em vários recursos, como disco e rede, executando verificações de integridade na VM. Esse conjunto de coletores ajuda a identificar problemas, monitorar tendências de desempenho e otimizar recursos para aprimorar a experiência geral do usuário.

Este artigo fornece um resumo de todos os coletores disponíveis no relógio da VM, juntamente com as verificações, métricas, logs e configurações de parâmetro correspondentes. Para obter descrições detalhadas de cada verificação, métrica e log, consulte a página de visão geral do relógio da VM .

Pré-requisitos

Este artigo pressupõe que você esteja familiarizado com:

Observação

Nome	Descrição
Coletor	Agrupamento lógico de testes semelhantes em que você pode coletar verificações, métricas e logs para determinar a integridade de um recurso específico
Sinais	O que é emitido para refletir o status de integridade das VMs. Os três tipos de sinais emitidos são verificações, métricas e logs
Grupo	Indica se os coletores fazem parte do grupo principal ou opcional. Os coletores de grupos principais são habilitados por padrão, enquanto os coletores de grupo opcionais podem ser habilitados ou desabilitados com base em seus requisitos
Tags	Usado para categorizar e filtrar verificações, métricas e logs
Qualificação	Determina se um coletor está qualificado para ser executado com base nos atributos de ambiente especificados
Comportamento padrão	Configuração padrão e ação que seriam seguidas se nenhuma configuração personalizada fosse fornecida.
Parâmetros superescritos	Parâmetros associados que podem ser personalizados para substituir a configuração padrão

Grupos, etiquetas e verificações correspondentes, métricas e logs de eventos

Nome do coletor	Grupo	Etiquetas	Verificações	Métricas	Logs de eventos
outbound_connectivity	Núcleo	Rede	outbound_connectivity
DNS	Núcleo	Rede	DNS
tcp_stats	Núcleo	Rede		SegmentsRetransmitted TCPSynRetransmits (somente Linux) NormalizedSegmentsRetransmitted ConnectionResets NormalizedConnectionResets Tentativas de Conexão Falhadas NormalizedFailedConnectionAttempts ActiveConnectionOpenings PassiveConnectionOpenings Conexões Atuais SegmentsReceived SegmentsSent
clock_skew	Núcleo	Relógio	clockskew
disk_io	Núcleo	Disco	disk_io	UsedSpaceInBytes FreeSpaceInBytes CapacidadeEmBytes PorcentagemUsada
disk_iops	Núcleo	Disco		WriteOps ReadOps
imds	Núcleo	IMDS	imds
processo	Núcleo	Processo	processo
process_memory	Núcleo	Processo		ProcessRSSPercent ProcessPageFaults MachineMemoryTotalInBytes PercentualDeMemóriaUsadaDaMáquina Total de Falhas de Página
process_cpu	Núcleo	Processo		ProcessCPUCoreUsage ProcessCPUMachineUsage UsoTotalDaCpuDaMáquina
process_monitor	Opcional	Processo	process_monitor	UpTime
erro do sistema	Núcleo	Sistema operacional		SystemErrors
az_storage_blob	Opcional	AzBlob	az_storage_blob
hardware_health_monitor	Opcional	Equipamento			hardware_health_monitor
hardware_health_nvidia_smi	Opcional	Equipamento			hardware_health_nvidia_smi

Elegibilidade, comportamento padrão e parâmetros substituíveis

Nome do coletor	Elegibilidade	Comportamento padrão	Parâmetros superescritos
outbound_connectivity	Elegível se EnvironmentAttribute "OutboundConnectivityDisabled" não estiver configurado ou definido como "falso"	Esse coletor é executado a cada 60s. Em cada execução, ele envia uma solicitação http GET `http://www.msftconnecttest.com/connecttest.txt` com um tempo limite de 5s. Se a solicitação falhar, ela tentará no máximo mais duas vezes com e intervalo de 10s. A verificação será marcada como "Falha" se todas as tentativas falharem.	OUTBOUND_CONNECTIVITY_INTERVAL: o intervalo de execução do Coletor. Padrão: 60s OUTBOUND_CONNECTIVITY_URLS: as URLs para as quais esse Coletor envia solicitações HTTP GET. As URLs são fornecidas como uma cadeia de caracteres usando `,` como separador. Padrão: `http://www.msftconnecttest.com/connecttest.txt` OUTBOUND_CONNECTIVITY_TIMEOUT_IN_MILLISECONDS: o tempo limite da solicitação http GET em milissegundos. Padrão: 5000 OUTBOUND_CONNECTIVITY_TOTAL_ATTEMPTS: o número total de tentativas de enviar uma solicitação http se a anterior falhar. Padrão: 3 OUTBOUND_CONNECTIVITY_RETRY_INTERVAL_IN_SECONDS: o intervalo de tentativa em segundos caso a solicitação HTTP anterior falhe. Padrão: 10
DNS	Elegível se EnvironmentAttribute "OutboundConnectivityDisabled" não estiver configurado ou definido como "falso"	Esse Coletor é executado a cada 180s. Em cada execução, ele tenta resolver o nome `www.msftconnecttest.com` DNS. A verificação será marcada como "Falha" se o nome DNS não puder ser resolvido.	DNS_INTERVAL: o intervalo de execução do Coletor. Padrão: 180 segundos DNS_NAMES: os nomes de domínio a serem resolvidos separados por `,`. Padrão: `www.msftconnecttest.com`
tcp_stats	Sempre elegível	Esse coletor é executado a cada 180s. Em cada execução, ele coleta as estatísticas TCP dos últimos 180 segundos.	TCP_STATS_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
clock_skew	Elegível se EnvironmentAttribute "OutboundConnectivityDisabled" não estiver configurado ou definido como "falso"	Esse coletor é executado a cada 180s. Em cada execução, ele recupera o deslocamento do relógio entre o servidor `time.windows.com` NTP remoto e a VM. A verificação será marcada como "Falha" se a distorção do relógio for maior que 5,0 segundos. Na VM do Windows, se a conexão ao servidor NTP remoto falhar, ele fará fallbacks para verificar o Serviço de Horário do Windows com o comando w32tm. A verificação será marcada como "Falha" se o comando w32tm retornar "Indicador de Salto: 3(não sincronizado)".	CLOCK_SKEW_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s CLOCK_SKEW_NTP_SERVER: o servidor NTP remoto usado para calcular a distorção do relógio. Padrão: time.windows.com CLOCK_SKEW_TIME_SKEW_THRESHOLD_IN_SECONDS: o limite em segundos de deslocamento do relógio para marcar a verificação como "Falha". Padrão: 5.0
disk_io	Sempre elegível se os pontos de montagem não forem especificados. Se os pontos de montagem forem especificados explicitamente, somente é aplicável quando os discos de dados são anexados à VM	Esse coletor é executado a cada 180s. Em cada execução, ele verifica a disponibilidade de E/S do disco em cada ponto de montagem disponível criando uma pasta, criando um arquivo, gravando bytes nele, excluindo-o e excluindo a pasta. Em seguida, coleta as informações de uso do disco, incluindo espaço usado, espaço livre, capacidade total e porcentagem usada de cada ponto de montagem.	DISK_IO_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s DISK_IO_MOUNT_POINTS: os pontos de montagem separados por `,`. Nenhum valor padrão DISK_IO_IGNORE_FS_LIST: a lista do sistema de arquivos que deve ser ignorada separada por `,`. Padrão: tmpfs, devtmpfs, devfs, iso9660,overlay, aufs, squashfs, autofs DISK_IO_FILENAME: o nome do arquivo usado para verificar a leitura/gravação do arquivo. Padrão: vmwatch-{timestamp}.txt
disk_iops	Sempre elegível	Esse coletor é executado a cada 180s. Em cada execução, ele coleta as operações de leitura e gravação de disco por segundo de cada dispositivo de disco disponível.	DISK_IOPS_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s DISK_IOPS_DEVICES: os nomes dos dispositivos separados por `,`. Nenhum valor padrão DISK_IOPS_IGNORE_DEVICE_REGEX: o regex do nome do dispositivo que deve ser ignorado. Padrão: loop
imds	Sempre elegível	Esse coletor é executado a cada 180s. Em cada execução, ele consulta o ponto de extremidade `http://169.254.169.254/metadata/instance/compute` do IMDS e verifica se o corpo da resposta contém as informações (SubscriptionId, ResourceGroup, VMId, ResourceId) da VM. O tempo limite da consulta é 10s. Se a consulta falhar, ela tentará mais três vezes com um intervalo de 15, 30 e 45s.	IMDS_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s IMDS_ENDPOINT: a URL do ponto de extremidade do IMDS. Padrão:`http://169.254.169.254/metadata/instance/compute` IMDS_TIMEOUT_IN_SECONDS: o tempo limite em segundos de cada consulta. Padrão: 10 IMDS_QUERY_TOTAL_ATTEMPTS: o número total de tentativas de enviar solicitação http se a anterior falhar. Padrão: 4 IMDS_RETRY_INTERVAL_IN_SEONDS: o intervalo de repetição em segundos se a solicitação http anterior falhar. Padrão: 15, 30, 45
processo	Sempre qualificado	Esse coletor é executado a cada 180s. Em cada execução, ele cria e executa o comando `${SYTEM_DIR}\system32\cmd.exe /c echo hello` no computador Windows e `/bin/sh -c echo hello` no computador Linux. O tempo limite de execução do processo é 10s.	PROCESS_INTERVAL: o intervalo de execução do Coletor. Padrão: 180 segundos PROCESS_TIMEOUT: o tempo limite da execução do processo. Padrão: 10s
memória de processo	Sempre elegível	Esse coletor é executado a cada 180s. Em cada execução, ele seleciona os três primeiros processos com mais uso de memória e relata o ProcessRSSPercent, ProcessPageFaults, MachineMemoryTotalInBytes, MachineMemoryUsedPercent e TotalPageFaults.	PROCESS_MEMORY_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
process_cpu	Sempre qualificado	Esse coletor é executado a cada 180s. Em cada execução, ele seleciona os três primeiros processos com mais uso de CPU e relata o ProcessCoreUsage, ProcessMachineUsage e MachineTotalCpuUsage.	PROCESS_CPU_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
process_monitor	Sempre elegível	Não executado. Se estiver explicitamente habilitado pelo usuário, esse coletor verificará se o processo selecionado está em execução e coletará seu tempo de execução em segundos.	PROCESS_MONITOR_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s PROCESS_MONITOR_PROCESS_NAMES: a Expressão Regular de nomes de processo a ser monitorada separada por `,`. Nenhum valor padrão
erro_de_sistema	Elegível em máquina Windows	O Coletor é executado a cada três minutos. Em cada execução, ele assina o canal "Sistema" do Windows EventLog e consulta eventos com o nível definido no SystemData <=2 (incluindo LOG_ALWAYS, Crítico, Erro). O measurementTarget é definido como Source_EventId do EventLog usando a localidade padrão do Windows. Um limite de no máximo 10 alvos de medição diferentes é aplicado em cada coleção.	SYSTEM_ERROR_MEASUREMENT_TARGET_CAP: o limite do total de measurementTargets diferentes em cada coleção. Padrão: 10
az_storage_blob	Elegível se o atributo de ambiente "OutboundConnectivityDisabled" não estiver definido ou estiver definido como "false".	Não executado. Se estiver explicitamente habilitado pelo usuário, esse coletor verificará se a VM pode ter acesso ao Blob de Armazenamento do Azure selecionado usando a Identidade Gerenciada ou o token SAS.	AZ_STORAGE_BLOB_INTERVAL: o intervalo de execução do Coletor. Padrão: 180 segundos AZ_STORAGE_ACCOUNT_NAME: o nome da conta de Armazenamento do Azure. Nenhum valor padrão AZ_STORAGE_CONTAINER_NAME: o nome do Contêiner de Armazenamento do Azure. Nenhum valor padrão AZ_STORAGE_BLOB_NAME: o nome do Blob de Armazenamento do Azure. Nenhum valor padrão AZ_STORAGE_BLOB_DOMAIN_NAME: o nome de domínio do Armazenamento do Azure. Nenhum valor padrão AZ_STORAGE_SAS_TOKEN_BASE64: o token SAS de Armazenamento do Azure codificado em Base64. Nenhum valor padrão AZ_STORAGE_USE_MANAGED_IDENTITY: se a identidade gerenciada for usada para autenticação. Padrão: false AZ_STORAGE_MANAGED_IDENTITY_CLIENT_ID: a ID do cliente de identidade gerenciada para autenticação. Nenhum valor padrão
hardware_health_monitor	Qualificado no computador Windows	Não executado. Se explicitamente habilitado pelo usuário, esse coletor coleta informações de integridade de hardware do log de eventos do Windows, atualmente apenas eventos críticos relacionados ao disco são coletados, incluindo eventos com ID 7, 500, 504, 505, 512 e 549.	HARDWARE_HEALTH_MONITOR_INTERVAL: o intervalo de execução do Coletor. Padrão: 180s
hardware_health_nvidia_smi	Elegível em máquina Linux Ubuntu	Não executado. Se explicitamente habilitado pelo usuário, esse coletor coleta informações de integridade de hardware do log de eventos do Windows, atualmente apenas eventos críticos relacionados ao disco são coletados, incluindo eventos com ID 7, 500, 504, 505, 512 e 549.	HARDWARE_HEALTH_NVIDIA_SMI_INTERVAL: o intervalo de execução do Coletor. Padrão: 60s HARDWARE_HEALTH_NVIDIA_SMI_INTERVAL: o tempo limite de execução do comando /usr/bin/nvidia-smi. Padrão: 10s

Compartilhar via

Pacote de coletores de monitoramento de VM

Pré-requisitos

Grupos, etiquetas e verificações correspondentes, métricas e logs de eventos

Elegibilidade, comportamento padrão e parâmetros substituíveis

Próximas etapas

Comentários

Recursos adicionais