다음을 통해 공유

[azure-virtual-machines] VM에서 그래픽 카드가 드라이버에 인식 안 됨

Donghwan 0 평판 포인트
2025-04-17T02:16:44.1666667+00:00

제 VM의 GPU(A100:4) 중 하나(PCI 0002:00:00.0)에서 RmInitAdapter failed 및 Xid 140 오류가 발생하여 nvidia-smi에서 3개만 보입니다.

  • lspci | grep -i nvidia | wc -l : 4로 gpu 4개가 잡히지만
  • nvidia-smi를 통해서는 gpu가 3개만 인식되는 문제가 있습니다.
  • sudo dmesg | grep -i nvrm
    • [ 16.468586] NVRM: loading NVIDIA UNIX x86_64 Kernel Module 550.120 Fri Sep 13 10:10:01 UTC 2024
    [ 21.446845] NVRM: GPU at PCI:0002:00:00: GPU-7a3acf44-8c3a-0cb2-c830-5007cecb21ad [ 21.446854] NVRM: Xid (PCI:0002:00:00): 140, pid='<unknown>', name=<unknown>, An uncorrectable ECC error detected (possible firmware handling failure) DRAM:-1840691462, LTC:0, MMU:0, PCIE:0 [ 21.448991] NVRM: GPU 0002:00:00.0: RmInitAdapter failed! (0x62:0x40:2535) [ 21.450148] NVRM: GPU 0002:00:00.0: rm_init_adapter failed, device minor number 1 [ 86.092317] NVRM: GPU 0002:00:00.0: RmInitAdapter failed! (0x62:0x40:2535) [ 86.093341] NVRM: GPU 0002:00:00.0: rm_init_adapter failed, device minor number 1 [ 104.619561] NVRM: GPU 0002:00:00.0: RmInitAdapter failed! (0x62:0x40:2535) [ 104.620592] NVRM: GPU 0002:00:00.0: rm_init_adapter failed, device minor number 1

uncorrectable ECC error가 감지되며, 하드웨어 손상이 의심됩니다.

GPU 재할당 또는 VM 재배포가 필요한 상황인지 문의 드립니다.

Azure
Azure
Microsoft에서 관리하는 전 세계 데이터 센터 네트워크를 통해 애플리케이션과 서비스를 빌드, 배포, 관리하기 위한 클라우드 컴퓨팅 플랫폼 및 인프라입니다.
질문 105개
댓글 0개 설명 없음
투표 {count}개

답변 1개

정렬 기준: 가장 유용함
  1. Arko 2,855 평판 포인트 Microsoft 외부 직원 Moderator
    2025-04-17T08:43:47.4233333+00:00

    안녕하세요 Donghwan 님,

    제 답변에 문법적인 오류가 있을 경우 양해 부탁드립니다. 보다 쉽게 읽으실 수 있도록 제 답변을 영어에서 한국어로 번역하기 위해 온라인 번역기를 사용하고 있습니다.

    
    NVRM: Xid (PCI:0002:00:00): 140, An uncorrectable ECC error detected (possible firmware handling failure)
    
    NVRM: GPU 0002:00:00.0: RmInitAdapter failed!
    
    

    귀하의 오류 메시지(Xid 140)는 GPU 중 하나에서 복구 불가능한 ECC(오류 정정 코드) 메모리 오류가 발생했음을 나타냅니다. lspci는 PCI 수준에서 4개의 GPU를 모두 감지하지만, nvidia-smi는 실패한 GPU가 드라이버에 의해 초기화될 수 없기 때문에 3개만 표시됩니다.

    이게 무슨 의미인가요?

    답변 - Xid 140은 NVIDIA에 의해 하드웨어 오류로 분류되며, 일반적인 드라이버 또는 소프트웨어 재설정으로는 복구할 수 없는 메모리 오류입니다. 반복되는 RmInitAdapter failed 메시지는 NVIDIA 커널 드라이버가 해당 GPU를 온라인으로 전환할 수 없음을 나타냅니다.

    왜 그렇게 말할 수 있나요?

    답변 - 여기서 확인할 수 있습니다

    enter image description here

    enter image description here

    그리고 이 문서에서도 확인할 수 있습니다.

    enter image description here

    이 문제를 어떻게 해결하나요?

    답변 - Azure Portal에서 VM을 중지(할당 해제)한 다음 다시 시작(재할당)하십시오.

    왜 그렇게 해야 하나요?

    답변 - 이렇게 하면 Azure는 VM을 새로운 물리적 호스트로 할당하며, 새 GPU 하드웨어를 사용할 수 있게 됩니다. VM이 다시 시작되면 nvidia-smi를 실행하여 4개의 GPU가 모두 인식되는지 확인할 수 있습니다.


답변

질문 작성자가 수락한 답변이라고 답변에 표시할 수 있으며, 이를 통해 작성자의 문제를 해결한 답변을 사용자가 알 수 있도록 도와줍니다.