Bagikan melalui


Kategori dampak untuk Pelaporan Kesehatan Tamu (pratinjau)

Untuk melaporkan masalah dengan benar ke Pelaporan Kesehatan Tamu, Anda harus menggunakan kategori dampak yang dimulai dengan Resource.HPC.

Ada tiga jenis utama kategori dampak untuk komputasi performa tinggi (HPC):

  • Reset: Minta refresh status kesehatan node.
  • Reboot: Minta node dimulai.
  • Unhealthy: Masalah diamati pada simpul. Keluarkan node dari produksi untuk diagnostik dan perbaikan lebih lanjut.

Penting

Pelaporan Kesehatan Tamu saat ini sedang dalam tahap pratinjau. Untuk persyaratan hukum yang berlaku untuk fitur Azure yang beta, dalam pratinjau, atau belum dirilis ke ketersediaan umum, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Kategori dampak HPC terperinci

Kategori Description Tandai sebagai siap untuk perbaikan
Resource.Hpc.Reset Reset status kesehatan node. Tidak.
Resource.Hpc.Reboot Mulai ulang node. Tidak.
Resource.Hpc.Unhealthy.HpcMissingGpu GPU hilang. Yes
Resource.Hpc.Unhealthy.MissingIB Port InfiniBand hilang. Yes
Resource.Hpc.Unhealthy.IBPerformance Performa InfiniBand berkurang. Yes
Resource.Hpc.Unhealthy.IBPortDown Port InfiniBand dalam keadaan tidak berfungsi. Yes
Resource.Hpc.Unhealthy.IBPortFlapping Flapping pada port InfiniBand Yes
Resource.Hpc.Unhealthy.HpcGpuDcgmDiagFailure Kegagalan diagnostik Antarmuka Manajemen GPU Pusat Data (DCGMI) untuk pusat data GPU. Yes
Resource.Hpc.Unhealthy.HpcRowRemapFailure Kegagalan pemetaan ulang baris GPU. Yes
Resource.Hpc.Unhealthy.HpcInforomCorruption GPU infoROM mengalami kerusakan. Yes
Resource.Hpc.Unhealthy.HpcGenericFailure Masalah tidak termasuk dalam kategori lain. Yes
Resource.Hpc.Unhealthy.ManualInvestigation Minta penyelidikan manual lebih lanjut oleh tim HPC. Yes
Resource.Hpc.Unhealthy.XID95UncontainedECCError Kesalahan GPU tidak terkendali pada Kode Koreksi Kesalahan (ECC) (Xid 95). Yes
Resource.Hpc.Unhealthy.XID94ContainedECCError GPU berisi kesalahan ECC (Xid 94). Yes
Resource.Hpc.Unhealthy.XID79FallenOffBus GPU terputus dari bus Komponen Periferal Interconnect Express (PCIe) (Xid 79). Yes
Resource.Hpc.Unhealthy.XID48DoubleBitECC GPU melaporkan kesalahan ECC bit ganda (Xid 48). Yes
Resource.Hpc.Unhealthy.UnhealthyGPUNvidiasmi Antarmuka Manajemen Sistem NVIDIA (nvidia-smi) berhenti merespons dan mungkin tidak pulih. Yes
Resource.Hpc.Unhealthy.NvLink NvLink tidak berfungsi. Yes
Resource.Hpc.Unhealthy.HpcDcgmiThermalReport DCGMI melaporkan pelanggaran termal. Yes
Resource.Hpc.Unhealthy.ECCPageRetirementTableFull Penghentian halaman untuk kesalahan ECC bit ganda melebihi ambang batas. Yes
Resource.Hpc.Unhealthy.DBEOverLimit GPU memiliki lebih dari 10 halaman yang dihentikan untuk kesalahan ECC bit ganda dalam tujuh hari. Yes
Resource.Hpc.Unhealthy.GpuXIDError GPU melaporkan kesalahan Xid selain 48, 79, 94, atau 95. Yes
Resource.Hpc.Unhealthy.AmdGpuResetFailed Kesalahan AMD GPU karena kegagalan reset yang tidak dapat dipulihkan. Yes
Resource.Hpc.Unhealthy.EROTFailure Kegagalan memori GPU pada External Root of Trust (eRoT). Yes
Resource.Hpc.Unhealthy.GPUMemoryBWFailure Kegagalan pada bandwidth memori GPU. Yes
Resource.Hpc.Unhealthy.CPUPerformance Masalah performa CPU. Yes