Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Untuk melaporkan masalah dengan benar ke Pelaporan Kesehatan Tamu, Anda harus menggunakan kategori dampak yang dimulai dengan Resource.HPC.
Ada tiga jenis utama kategori dampak untuk komputasi performa tinggi (HPC):
-
Reset: Minta refresh status kesehatan node. -
Reboot: Minta node dimulai. -
Unhealthy: Masalah diamati pada simpul. Keluarkan node dari produksi untuk diagnostik dan perbaikan lebih lanjut.
Penting
Pelaporan Kesehatan Tamu saat ini sedang dalam tahap pratinjau. Untuk persyaratan hukum yang berlaku untuk fitur Azure yang beta, dalam pratinjau, atau belum dirilis ke ketersediaan umum, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.
Kategori dampak HPC terperinci
| Kategori | Description | Tandai sebagai siap untuk perbaikan |
|---|---|---|
Resource.Hpc.Reset |
Reset status kesehatan node. | Tidak. |
Resource.Hpc.Reboot |
Mulai ulang node. | Tidak. |
Resource.Hpc.Unhealthy.HpcMissingGpu |
GPU hilang. | Yes |
Resource.Hpc.Unhealthy.MissingIB |
Port InfiniBand hilang. | Yes |
Resource.Hpc.Unhealthy.IBPerformance |
Performa InfiniBand berkurang. | Yes |
Resource.Hpc.Unhealthy.IBPortDown |
Port InfiniBand dalam keadaan tidak berfungsi. | Yes |
Resource.Hpc.Unhealthy.IBPortFlapping |
Flapping pada port InfiniBand | Yes |
Resource.Hpc.Unhealthy.HpcGpuDcgmDiagFailure |
Kegagalan diagnostik Antarmuka Manajemen GPU Pusat Data (DCGMI) untuk pusat data GPU. | Yes |
Resource.Hpc.Unhealthy.HpcRowRemapFailure |
Kegagalan pemetaan ulang baris GPU. | Yes |
Resource.Hpc.Unhealthy.HpcInforomCorruption |
GPU infoROM mengalami kerusakan. | Yes |
Resource.Hpc.Unhealthy.HpcGenericFailure |
Masalah tidak termasuk dalam kategori lain. | Yes |
Resource.Hpc.Unhealthy.ManualInvestigation |
Minta penyelidikan manual lebih lanjut oleh tim HPC. | Yes |
Resource.Hpc.Unhealthy.XID95UncontainedECCError |
Kesalahan GPU tidak terkendali pada Kode Koreksi Kesalahan (ECC) (Xid 95). | Yes |
Resource.Hpc.Unhealthy.XID94ContainedECCError |
GPU berisi kesalahan ECC (Xid 94). | Yes |
Resource.Hpc.Unhealthy.XID79FallenOffBus |
GPU terputus dari bus Komponen Periferal Interconnect Express (PCIe) (Xid 79). | Yes |
Resource.Hpc.Unhealthy.XID48DoubleBitECC |
GPU melaporkan kesalahan ECC bit ganda (Xid 48). | Yes |
Resource.Hpc.Unhealthy.UnhealthyGPUNvidiasmi |
Antarmuka Manajemen Sistem NVIDIA (nvidia-smi) berhenti merespons dan mungkin tidak pulih. | Yes |
Resource.Hpc.Unhealthy.NvLink |
NvLink tidak berfungsi. | Yes |
Resource.Hpc.Unhealthy.HpcDcgmiThermalReport |
DCGMI melaporkan pelanggaran termal. | Yes |
Resource.Hpc.Unhealthy.ECCPageRetirementTableFull |
Penghentian halaman untuk kesalahan ECC bit ganda melebihi ambang batas. | Yes |
Resource.Hpc.Unhealthy.DBEOverLimit |
GPU memiliki lebih dari 10 halaman yang dihentikan untuk kesalahan ECC bit ganda dalam tujuh hari. | Yes |
Resource.Hpc.Unhealthy.GpuXIDError |
GPU melaporkan kesalahan Xid selain 48, 79, 94, atau 95. | Yes |
Resource.Hpc.Unhealthy.AmdGpuResetFailed |
Kesalahan AMD GPU karena kegagalan reset yang tidak dapat dipulihkan. | Yes |
Resource.Hpc.Unhealthy.EROTFailure |
Kegagalan memori GPU pada External Root of Trust (eRoT). | Yes |
Resource.Hpc.Unhealthy.GPUMemoryBWFailure |
Kegagalan pada bandwidth memori GPU. | Yes |
Resource.Hpc.Unhealthy.CPUPerformance |
Masalah performa CPU. | Yes |