Azure Stack Edge Pro GPU에서 GPU VM에 대한 GPU 확장 문제 해결

적용 대상:Yes for Pro - GPU SKUAzure Stack Edge Pro - GPUYes for Pro 2 SKUAzure Stack Edge Pro 2Yes for Pro R SKUAzure Stack Edge Pro R

이 문서에서는 Azure Stack Edge Pro GPU 디바이스에서 GPU VM의 GPU 확장 설치가 실패하는 가장 일반적인 문제를 해결하기 위한 지침을 제공합니다.

설치 단계는 GPU 확장 설치를 참조하세요.

2205보다 낮은 버전에서 Linux GPU 확장은 서명 및/또는 필수 키 누락된 이전 서명 키를 설치합니다.

오류 설명: Linux GPU 확장이 이전 서명 키를 설치하여 필수 GPU 드라이버 다운로드를 방지합니다. 이 경우 Linux VM의 syslog에 다음 오류가 표시됩니다.

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

권장 솔루션: 이 문제를 완화할 수 있는 두 가지 옵션이 있습니다.

  • 옵션 1: Azure Stack Edge 2205 업데이트를 디바이스에 적용합니다.

  • 옵션 2: NCasT4_v3 시리즈에서 크기의 GPU 가상 머신을 만든 후 확장을 설치하기 전에 새 서명 키를 수동으로 설치한 다음 CUDA Linux GPG 리포지토리 키 업데이트 | NVIDIA 기술 블로그의 단계를 사용하여 필수 서명 키를 설정합니다.

    다음은 Ubuntu 1804 가상 머신에 서명 키를 설치하는 예입니다.

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Windows 2016 VHD에 GPU 확장 설치 실패

오류 설명: 이는 2205보다 낮은 버전에서 알려진 문제입니다. GPU 확장에는 TLS 1.2가 필요합니다. 이 경우 다음 오류 메시지가 표시될 수 있습니다.

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

추가 정보:

  • 게스트 로그에서 관련 오류를 확인합니다. 게스트 로그를 수집하려면 Azure Stack Edge Pro GPU 디바이스에서 VM에 대한 게스트 로그 수집을 참조하세요.
  • Linux VM에서 /var/log/waagent.log 또는 /var/log/azure/nvidia-vmext-status를 확인합니다.
  • Windows VM의 C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status에서 오류 상태를 찾습니다.
  • 전체 실행 로그를 검토합니다. C:\WindowsAzure\Logs\WaAppAgent.txt.

패키지를 다운로드하는 동안 설치에 실패한 경우 해당 오류는 VM이 공용 네트워크에 액세스하여 드라이버를 다운로드할 수 없다는 것을 나타냅니다.

권장 솔루션: 다음 단계에서 Windows 2016 VM에서 TLS 1.2를 사용하도록 설정한 다음 GPU 확장을 배포합니다.

  1. VM 내에서 다음 명령을 실행하여 TLS 1.2를 사용하도록 설정합니다.

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. 템플릿 addGPUextensiontoVM.json을 배포하여 기존 VM에 확장을 설치합니다. 확장을 수동으로 설치하거나 Azure Portal에서 확장을 설치할 수 있습니다.

    참고 항목

    확장 배포는 장기 실행 작업이며 완료하는 데 약 10분이 걸립니다.

RHEL 7에 Nvidia 드라이버 수동 설치

오류 설명: RHEL 7 VM에 GPU 확장을 설치할 때 인증서 회전 문제 및 호환되지 않는 드라이버 버전으로 인해 설치가 실패할 수 있습니다.

권장 솔루션: 이 경우 두 가지 옵션이 있습니다.

  • 옵션 1: 인증서 회전 문제를 해결한 다음 버전 510보다 낮은 Nvidia 드라이버를 설치합니다.

    1. 인증서 회전 문제를 해결하려면 다음 명령을 실행합니다.

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. 버전 510보다 낮은 Nvidia 드라이버를 설치합니다.

  • 옵션 2: GPU 확장을 배포합니다. ARM 확장을 배포할 때 다음 설정을 사용합니다.

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

VM 크기가 GPU VM 크기가 아닙니다.

오류 설명: GPU VM은 Standard_NC4as_T4_v3 또는 Standard_NC8as_T4_v3 크기여야 합니다. 다른 VM 크기를 사용하는 경우 GPU 확장이 연결되지 않습니다.

권장 솔루션: Standard_NC4as_T4_v3 또는 Standard_NC8as_T4_v3 VM 크기로 VM을 만듭니다. 자세한 내용은 GPU VM에 지원되는 VM 크기를 참조하세요. 크기 지정에 대한 자세한 내용은 GPU VM 만들기를 참조하세요.

이미지 OS는 지원되지 않습니다.

오류 설명: GPU 확장은 VM 이미지에 설치된 운영 체제를 지원하지 않습니다.

권장 솔루션: GPU 확장이 지원하는 운영 체제가 있는 새 VM 이미지를 준비합니다.

확장 매개 변수가 잘못되었습니다.

오류 설명: Linux VM에 GPU 확장을 배포할 때 잘못된 확장 설정이 사용되었습니다.

권장 솔루션: GPU 확장을 배포하기 전에 매개 변수 파일을 편집합니다. 자세한 내용은 GPU 확장 설치를 참조하세요.

패키지를 다운로드할 때 VM 확장 설치 실패

오류 설명: 확장 설치 중 또는 사용 상태에서 확장 프로비저닝에 실패했습니다.

  1. 게스트 로그에서 관련 오류를 확인합니다. 게스트 로그를 수집하려면 Azure Stack Edge Pro에서 VM에 대한 게스트 로그 수집을 참조하세요.

    Linux VM에서:

    • /var/log/waagent.log 또는 /var/log/azure/nvidia-vmext-status에서 찾습니다.

    Windows VM에서

    • C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status에서 오류 상태를 찾으세요.
    • 전체 실행 로그를 검토합니다. C:\WindowsAzure\Logs\WaAppAgent.txt.

    패키지를 다운로드하는 동안 설치에 실패한 경우 해당 오류는 VM이 공용 네트워크에 액세스하여 드라이버를 다운로드할 수 없다는 것을 나타냅니다.

추천 솔루션:

  1. 인터넷에 연결된 포트에서 컴퓨팅을 사용하도록 설정합니다. 지침은 GPU VM 만들기를 참조하세요.

  2. 포털에서 VM을 중지하여 VM 할당을 중단합니다. VM을 중지하려면 가상 머신>개요로 이동하여 VM을 선택합니다. 그런 다음 VM 속성 페이지에서 중지를 선택합니다.

  3. 새 VM을 만듭니다.

dpkg is used/yum lock is used 오류로 인해 VM 확장이 실패했습니다(Linux VM).

오류 설명: 다른 프로세스가 dpkg를 사용 중이거나 다른 프로세스가 yum lock을 생성했기 때문에 Linux VM에서 GPU 확장을 배포하지 못했습니다.

제안된 솔루션: 문제를 해결하려면 다음 단계를 수행합니다.

  1. 잠금을 적용하는 프로세스를 확인하려면 \var\log\azure\nvidia-vmext-status 로그에서 "dpkg가 다른 프로세스에서 사용됨" 또는 "다른 앱이 yum lock 잠금을 보유하고 있음"과 같은 오류를 검색합니다.

  2. 프로세스가 완료되기를 기다리거나 프로세스를 종료합니다.

  3. 다시 GPU 확장을 설치합니다.

  4. 확장 배포가 다시 실패하면 새 VM을 만들고 GPU 확장을 설치하기 전에 잠금이 없는지 확인합니다.

다음 단계

게스트 로그 수집 및 지원 패키지 만들기