안녕하세요 Donghwan 님,
제 답변에 문법적인 오류가 있을 경우 양해 부탁드립니다. 보다 쉽게 읽으실 수 있도록 제 답변을 영어에서 한국어로 번역하기 위해 온라인 번역기를 사용하고 있습니다.
NVRM: Xid (PCI:0002:00:00): 140, An uncorrectable ECC error detected (possible firmware handling failure)
NVRM: GPU 0002:00:00.0: RmInitAdapter failed!
귀하의 오류 메시지(Xid 140)는 GPU 중 하나에서 복구 불가능한 ECC(오류 정정 코드) 메모리 오류가 발생했음을 나타냅니다. lspci
는 PCI 수준에서 4개의 GPU를 모두 감지하지만, nvidia-smi
는 실패한 GPU가 드라이버에 의해 초기화될 수 없기 때문에 3개만 표시됩니다.
이게 무슨 의미인가요?
답변 - Xid 140은 NVIDIA에 의해 하드웨어 오류로 분류되며, 일반적인 드라이버 또는 소프트웨어 재설정으로는 복구할 수 없는 메모리 오류입니다. 반복되는 RmInitAdapter failed 메시지는 NVIDIA 커널 드라이버가 해당 GPU를 온라인으로 전환할 수 없음을 나타냅니다.
왜 그렇게 말할 수 있나요?
답변 - 여기서 확인할 수 있습니다
그리고 이 문서에서도 확인할 수 있습니다.
이 문제를 어떻게 해결하나요?
답변 - Azure Portal에서 VM을 중지(할당 해제)한 다음 다시 시작(재할당)하십시오.
왜 그렇게 해야 하나요?
답변 - 이렇게 하면 Azure는 VM을 새로운 물리적 호스트로 할당하며, 새 GPU 하드웨어를 사용할 수 있게 됩니다. VM이 다시 시작되면 nvidia-smi
를 실행하여 4개의 GPU가 모두 인식되는지 확인할 수 있습니다.