Partilhar via


Categorias de impacto para relatórios de saúde dos convidados (pré-visualização)

Para relatar problemas corretamente ao Guest Health Reporting, você deve usar uma categoria de impacto que comece com Resource.HPC.

Existem três tipos principais de categorias de impacto para a computação de alto desempenho (HPC):

  • Reset: Solicite uma atualização do estado de integridade do nó.
  • Reboot: Solicitar início de um nó.
  • Unhealthy: Problemas são observados no nó. Retire o nó da produção para diagnósticos e reparos adicionais.

Importante

O Relatório de Saúde do Utilizador está atualmente em pré-visualização. Para obter os termos legais que se aplicam aos recursos do Azure que estão em versão beta, em visualização ou ainda não lançados em disponibilidade geral, consulte os Termos de Uso Suplementares para Visualizações do Microsoft Azure.

Categorias detalhadas de impacto da HPC

Categoria Description Assinalar como indisponível para reparação
Resource.Hpc.Reset Redefinir o status de integridade do nó. Não
Resource.Hpc.Reboot Reinicie o nó. Não
Resource.Hpc.Unhealthy.HpcMissingGpu GPU ausente. Yes
Resource.Hpc.Unhealthy.MissingIB Porta InfiniBand ausente. Yes
Resource.Hpc.Unhealthy.IBPerformance Desempenho degradado da InfiniBand. Yes
Resource.Hpc.Unhealthy.IBPortDown A porta InfiniBand está em estado inativo. Yes
Resource.Hpc.Unhealthy.IBPortFlapping Oscilações da porta InfiniBand. Yes
Resource.Hpc.Unhealthy.HpcGpuDcgmDiagFailure Falha de diagnóstico da Interface de Gerenciamento de GPU do Data Center (DCGMI) para o datacenter da GPU. Yes
Resource.Hpc.Unhealthy.HpcRowRemapFailure Falha no remapeamento de linha da GPU. Yes
Resource.Hpc.Unhealthy.HpcInforomCorruption Corrupção de infoROM da GPU. Yes
Resource.Hpc.Unhealthy.HpcGenericFailure O problema não se enquadra em nenhuma outra categoria. Yes
Resource.Hpc.Unhealthy.ManualInvestigation Solicite uma investigação manual adicional por parte da equipa de HPC. Yes
Resource.Hpc.Unhealthy.XID95UncontainedECCError Erro não contido de Código de Correção de Erros (ECC) da GPU (Xid 95). Yes
Resource.Hpc.Unhealthy.XID94ContainedECCError GPU continha erro ECC (Xid 94). Yes
Resource.Hpc.Unhealthy.XID79FallenOffBus A GPU caiu do barramento PCIe (Peripheral Component Interconnect Express) (Xid 79). Yes
Resource.Hpc.Unhealthy.XID48DoubleBitECC GPU relata um erro ECC de bit duplo (Xid 48). Yes
Resource.Hpc.Unhealthy.UnhealthyGPUNvidiasmi NVIDIA System Management Interface (nvidia-smi) para de responder e pode não recuperar. Yes
Resource.Hpc.Unhealthy.NvLink NvLink está inativo. Yes
Resource.Hpc.Unhealthy.HpcDcgmiThermalReport DCGMI relata violações térmicas. Yes
Resource.Hpc.Unhealthy.ECCPageRetirementTableFull As retiradas de página para erros ECC de bit duplo estão acima do limite. Yes
Resource.Hpc.Unhealthy.DBEOverLimit A GPU tem mais de 10 páginas retiradas devido a erros ECC de bit duplo nos últimos sete dias. Yes
Resource.Hpc.Unhealthy.GpuXIDError GPU relata um erro Xid diferente de 48, 79, 94 ou 95. Yes
Resource.Hpc.Unhealthy.AmdGpuResetFailed Erro irrecuperável de redefinição na GPU AMD. Yes
Resource.Hpc.Unhealthy.EROTFailure Falha na memória da GPU Raiz de Confiança Externa (eRoT). Yes
Resource.Hpc.Unhealthy.GPUMemoryBWFailure Falha na largura de banda da memória GPU. Yes
Resource.Hpc.Unhealthy.CPUPerformance Problema de desempenho da CPU. Yes