Configurar o monitoramento de GPU com os insights de contêiner

A partir da versão do agente ciprod03022019, o agente integrado dos insights de contêiner agora é compatível com monitoramento de uso de GPU (unidades de processamento gráfico) em nós de cluster de Kubernetes com reconhecimento de GPU e monitora pods ou contêineres que solicitam e usam recursos de GPU.

Observação

De acordo com o comunicado sobre upstream do Kubernetes, o Kubernetes está substituindo as métricas de GPU que estão sendo relatadas pelo kubelet, para versão 1.20+ de Kubernetes. Como resultado, os insights de contêiner não poderão mais coletar as seguintes métricas prontas para uso:

  • containerGpuDutyCycle
  • containerGpumemoryTotalBytes
  • containerGpumemoryUsedBytes

Para continuar coletando métricas de GPU por meio de insights de contêiner, migre para o exportador de métricas específicas do fornecedor de GPU até 31 de dezembro de 2022. Configure a extração do Prometheus para extrair métricas do exportador específico do fornecedor implantado.

Fornecedores de GPU compatíveis

Os insights de contêiner permitem monitoramento de clusters de GPU dos seguintes fornecedores de GPU:

Os insights de contêiner iniciam automaticamente o monitoramento do uso de GPU em nós, pods e cargas de trabalho que solicitam a GPU ao coletar as métricas a seguir em intervalos de 60 segundos e armazená-las na tabela InsightMetrics.

Observação

Depois de provisionar clusters com nós de GPU, verifique se o driver de GPU está instalado conforme exigido pelo AKS (Serviço de Kubernetes do Azure) para executar cargas de trabalho de GPU. As informações de contêiner coletam métricas de GPU por meio de pods de driver de GPU em execução no nó.

Nome da métrica Dimensão métrica (marcas) Descrição
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Percentual de tempo sobre o período de amostra passado (60 segundos) durante o qual a GPU estava ocupada/em processamento ativo para um contêiner. O ciclo de serviço é um número entre 1 e 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Cada contêiner pode especificar limites como uma ou mais GPUs. Não é possível solicitar nem limitar uma fração de uma GPU.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Cada contêiner pode solicitar uma ou mais GPUs. Não é possível solicitar nem limitar uma fração de uma GPU.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Quantidade de memória de GPU, em bytes, disponível para uso em um contêiner específico.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Quantidade de memória de GPU, em bytes, usada por um contêiner específico.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Número de GPUs em um nó que pode ser usado pelo Kubernetes.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Número total de GPUs em um nó.

* Com base nas alterações upstream do Kubernetes, essas métricas não são mais coletadas prontas para uso. Como um hotfix temporário, para AKS, atualize o pool de nós de GPU para a versão mais recente ou *– 08/06/2022 ou superior. Para o Kubernetes habilitado para Azure Arc, habilite o portão de recursos DisableAcceleratorUsageMetrics=false na configuração do kubelet do nó e reinicie o kubelet. Depois que as alterações upstream atingirem a disponibilidade geral, essa correção não funcionará mais. Faça planos para migrar para o uso do exportador de métricas específicas do fornecedor de GPU até 31 de dezembro de 2022.

Gráficos de desempenho da GPU

Os insights de contêiner incluem gráficos pré-configurados para as métricas listadas anteriormente na tabela como uma pasta de trabalho de GPU para cada cluster. Para obter uma descrição das pastas de trabalho disponíveis para os insights do Contêiner, confira Pastas de Trabalho nos insights de contêiner.

Próximas etapas