Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Para relatar problemas corretamente ao Guest Health Reporting, você deve usar uma categoria de impacto que comece com Resource.HPC.
Existem três tipos principais de categorias de impacto para a computação de alto desempenho (HPC):
-
Reset: Solicite uma atualização do estado de integridade do nó. -
Reboot: Solicitar início de um nó. -
Unhealthy: Problemas são observados no nó. Retire o nó da produção para diagnósticos e reparos adicionais.
Importante
O Relatório de Saúde do Utilizador está atualmente em pré-visualização. Para obter os termos legais que se aplicam aos recursos do Azure que estão em versão beta, em visualização ou ainda não lançados em disponibilidade geral, consulte os Termos de Uso Suplementares para Visualizações do Microsoft Azure.
Categorias detalhadas de impacto da HPC
| Categoria | Description | Assinalar como indisponível para reparação |
|---|---|---|
Resource.Hpc.Reset |
Redefinir o status de integridade do nó. | Não |
Resource.Hpc.Reboot |
Reinicie o nó. | Não |
Resource.Hpc.Unhealthy.HpcMissingGpu |
GPU ausente. | Yes |
Resource.Hpc.Unhealthy.MissingIB |
Porta InfiniBand ausente. | Yes |
Resource.Hpc.Unhealthy.IBPerformance |
Desempenho degradado da InfiniBand. | Yes |
Resource.Hpc.Unhealthy.IBPortDown |
A porta InfiniBand está em estado inativo. | Yes |
Resource.Hpc.Unhealthy.IBPortFlapping |
Oscilações da porta InfiniBand. | Yes |
Resource.Hpc.Unhealthy.HpcGpuDcgmDiagFailure |
Falha de diagnóstico da Interface de Gerenciamento de GPU do Data Center (DCGMI) para o datacenter da GPU. | Yes |
Resource.Hpc.Unhealthy.HpcRowRemapFailure |
Falha no remapeamento de linha da GPU. | Yes |
Resource.Hpc.Unhealthy.HpcInforomCorruption |
Corrupção de infoROM da GPU. | Yes |
Resource.Hpc.Unhealthy.HpcGenericFailure |
O problema não se enquadra em nenhuma outra categoria. | Yes |
Resource.Hpc.Unhealthy.ManualInvestigation |
Solicite uma investigação manual adicional por parte da equipa de HPC. | Yes |
Resource.Hpc.Unhealthy.XID95UncontainedECCError |
Erro não contido de Código de Correção de Erros (ECC) da GPU (Xid 95). | Yes |
Resource.Hpc.Unhealthy.XID94ContainedECCError |
GPU continha erro ECC (Xid 94). | Yes |
Resource.Hpc.Unhealthy.XID79FallenOffBus |
A GPU caiu do barramento PCIe (Peripheral Component Interconnect Express) (Xid 79). | Yes |
Resource.Hpc.Unhealthy.XID48DoubleBitECC |
GPU relata um erro ECC de bit duplo (Xid 48). | Yes |
Resource.Hpc.Unhealthy.UnhealthyGPUNvidiasmi |
NVIDIA System Management Interface (nvidia-smi) para de responder e pode não recuperar. | Yes |
Resource.Hpc.Unhealthy.NvLink |
NvLink está inativo. | Yes |
Resource.Hpc.Unhealthy.HpcDcgmiThermalReport |
DCGMI relata violações térmicas. | Yes |
Resource.Hpc.Unhealthy.ECCPageRetirementTableFull |
As retiradas de página para erros ECC de bit duplo estão acima do limite. | Yes |
Resource.Hpc.Unhealthy.DBEOverLimit |
A GPU tem mais de 10 páginas retiradas devido a erros ECC de bit duplo nos últimos sete dias. | Yes |
Resource.Hpc.Unhealthy.GpuXIDError |
GPU relata um erro Xid diferente de 48, 79, 94 ou 95. | Yes |
Resource.Hpc.Unhealthy.AmdGpuResetFailed |
Erro irrecuperável de redefinição na GPU AMD. | Yes |
Resource.Hpc.Unhealthy.EROTFailure |
Falha na memória da GPU Raiz de Confiança Externa (eRoT). | Yes |
Resource.Hpc.Unhealthy.GPUMemoryBWFailure |
Falha na largura de banda da memória GPU. | Yes |
Resource.Hpc.Unhealthy.CPUPerformance |
Problema de desempenho da CPU. | Yes |