Linux를 실행하는 N 시리즈 VM의 NVIDIA GPU 드라이버 설치

주의

이 문서에서는 EOL(수명 종료) 상태에 가까워진 Linux 배포판인 CentOS를 참조하세요. 이에 따라 사용 및 플랜을 고려하세요. 자세한 내용은 CentOS 수명 종료 지침을 참조하세요.

적용 대상: ✔️ Linux VM

NVIDIA GPU가 지원하는 Azure N 시리즈 VM의 GPU 기능을 활용하려면 NVIDIA GPU 드라이버를 설치해야 합니다. NVIDIA GPU 드라이버 확장은 N 시리즈 VM에 적절한 NVIDIA CUDA 또는 GRID 드라이버를 설치합니다. Azure CLI 또는 Azure Resource Manager 템플릿과 같은 도구나 Azure Portal을 사용하여 확장을 설치 또는 관리합니다. 지원되는 배포판 및 배포 단계는 NVIDIA GPU 드라이버 확장 설명서를 참조하세요.

NVIDIA GPU 드라이버를 수동으로 설치하려는 경우 이 문서는 지원되는 배포판, 드라이버, 설치 및 확인 단계를 제공합니다. Windows VM에 대한 드라이버 수동 설치 정보도 제공합니다.

N 시리즈 VM 사양, 스토리지 용량 및 디스크 세부 정보는 GPU Linux VM 크기를 참조하세요.

지원되는 배포판 및 버전

주의

이 문서에서는 EOL(수명 종료) 상태에 가까워진 Linux 배포판인 CentOS를 참조하세요. 이에 따라 사용 및 계획을 고려하세요.

NVIDIA CUDA 드라이버

최신 CUDA 드라이버 및 지원되는 운영 체제는 NVIDIA 웹 사이트를 참조하세요. 배포에 필요한 지원되는 최신 CUDA 드라이버를 설치 또는 업그레이드해야 합니다.

참고 항목

원래 NC 시리즈 SKU VM용으로 지원되는 최신 CUDA 드라이버는 현재 470.82.01입니다. 최신 드라이버 버전은 NC의 K80 카드에서 지원되지 않습니다.

참고 항목

Azure NVads A10 v5 VM은 GRID 14.1(510.73) 이상의 드라이버 버전만 지원합니다. A10 SKU용 vGPU 드라이버는 그래픽과 컴퓨팅 워크로드를 모두 지원하는 통합 드라이버입니다.

Linux VM에서 수동 CUDA 드라이버를 설치하는 대신, Azure Data Science Virtual Machine 이미지를 배포할 수 있습니다. Ubuntu 16.04 LTS 또는 CentOS 7.4용 DSVM 에디션은 NVIDIA CUDA 드라이버, CUDA 심층 신경망 네트워크 라이브러리 및 기타 도구를 사전 설치합니다.

NVIDIA GRID 드라이버

Microsoft는 가상 워크스테이션 또는 가상 애플리케이션으로 사용되는 NV 및 NVv3 시리즈 VM용 NVIDIA GRID 드라이버 설치 관리자를 재배포합니다. Azure NV VM에서 다음 표에 나열된 운영 체제에만 이러한 GRID 드라이버를 설치합니다. 이 드라이버에는 Azure의 GRID 가상 GPU 소프트웨어에 대한 라이선스가 포함됩니다. NVIDIA vGPU 소프트웨어 라이선스 서버를 설정할 필요가 없습니다.

Azure에서 재배포한 GRID 드라이버는 NC, NCv2, NCv3, ND 및 NDv2 시리즈 VM과 같은 대부분의 NV 이외의 시리즈 VM에서는 작동하지 않지만 NCasT4v3 시리즈에서는 작동합니다.

배포 드라이버
Ubuntu 20.04 LTS, 22.04 LTS

Red Hat Enterprise Linux 7.9, 8.6, 8.8

SUSE Linux Enterprise Server 15 SP2, 12 SP2,12 SP5

Rocky Linux 8.4
NVIDIA vGPU 16.3, 드라이버 분기 R535(.exe)

NVIDIA vGPU 16.2, 드라이버 분기 R535(.exe)

참고 항목

Azure NVads A10 v5 VM의 경우 고객은 항상 최신 드라이버 버전을 사용하는 것이 좋습니다. 최신 NVIDIA 주요 드라이버 분기(n)는 이전 주요 분기(n-1)하고만 역호환됩니다. 예를 들어, vGPU 17.x는 vGPU 16.x와만 이전 버전과 호환됩니다. 최신 드라이브 분기가 Azure에서 호스트에 롤아웃되면 여전히 2 이하에서 실행 중인 모든 VM에 드라이버 오류가 표시될 수 있습니다.

NVs_v3 VM은 vGPU 16 이하 드라이버 버전만 지원합니다.

이전 Nvidia GRID 드라이버 링크의 전체 목록은 GitHub를 참조하세요.

Warning

Red Hat 제품에 대한 타사 소프트웨어 설치는 Red Hat 지원 조건에 영향을 줄 수 있습니다. Red Hat 기술 자료 문서를 참조하세요.

N 시리즈 VM에 CUDA 드라이버 설치

N 시리즈 VM의 NVIDIA CUDA 도구 키트에서 CUDA 드라이버를 설치하는 단계는 다음과 같습니다.

경우에 따라 C 및 C++ 개발자는 GPU 가속 애플리케이션을 빌드하기 위해 전체 도구 키트를 설치할 수도 있습니다. 자세한 내용은 CUDA 설치 가이드를 참조하세요.

CUDA 드라이버를 설치하려면 각 VM에 SSH 연결을 설정합니다. 시스템에 CUDA 호환 GPU가 있는지 확인하려면 다음 명령을 실행합니다.

lspci | grep -i NVIDIA

출력은 다음 예제와 비슷합니다(NVIDIA Tesla K80 카드 표시).

lspci 명령 출력

lspci는 InfiniBand NIC 및 GPU(있는 경우)를 포함하여 VM의 PCIe 디바이스를 나열합니다. lspci가 성공적으로 반환되지 않으면 CentOS/RHEL에 LIS를 설치해야 할 수 있습니다.

그런 다음 배포 관련 특정 설치 명령을 실행합니다.

Ubuntu

Ubuntu는 NVIDIA 독점 드라이버를 패키지합니다. 이러한 드라이버는 NVIDIA에서 직접 제공되며 시스템에서 자동으로 관리할 수 있도록 Ubuntu로 간단히 패키지됩니다. 다른 원본에서 드라이버를 다운로드하고 설치하면 시스템이 손상될 수 있습니다. 또한 타사 드라이버를 설치하려면 TrustedLaunch 및 보안 부팅이 사용하도록 설정된 VM에서 추가 단계가 필요합니다. 시스템을 부팅하려면 사용자가 새 시스템 소유자 키를 추가해야 합니다. Ubuntu의 드라이버는 Canonical에서 서명했으며 보안 부팅과 함께 작동합니다.

  1. ubuntu-drivers 유틸리티를 설치합니다.

    sudo apt update && sudo apt install -y ubuntu-drivers-common
    
  2. 최신 NVIDIA 드라이버 설치

    sudo ubuntu-drivers install
    
  3. NVIDIA에서 CUDA 도구 키트를 다운로드하고 설치합니다.

    참고 항목

    이 예에서는 Ubuntu 22.04 LTS의 CUDA 패키지 경로를 보여 줍니다. 사용하려는 버전에 해당하는 경로를 바꿉니다.

    각 버전과 관련된 전체 경로는 NVIDIA 다운로드 센터 또는 NVIDIA CUDA 리소스 페이지를 방문하세요.

    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
    sudo apt install -y ./cuda-keyring_1.1-1_all.deb
    sudo apt update
    sudo apt -y install cuda-toolkit-12-3
    

    설치에 몇 분 정도 걸릴 수 있습니다.

  4. GPU가 올바르게 인식되었는지 확인합니다(시스템 변경 내용을 적용하려면 VM을 다시 부팅해야 할 수 있음).

    nvidia-smi
    

NVIDIA 드라이버 업데이트

배포 후 NVIDIA 드라이버를 주기적으로 업데이트하는 것이 좋습니다.

sudo apt update
sudo apt full-upgrade

CentOS 또는 Red Hat Enterprise Linux

  1. 커널을 업데이트합니다(권장). 커널을 업데이트하지 않도록 선택하는 경우 kernel-develdkms의 버전이 커널에 적합한지 확인하세요.

    sudo yum install kernel kernel-tools kernel-headers kernel-devel
    sudo reboot
    
  2. Hyper-V 및 Azure에 대한 최신 Linux 통합 서비스를 설치하세요. lspci의 결과를 확인하여 LIS가 필요한지 알아봅니다. 모든 GPU 디바이스가 예상대로 나열되면 LIS를 설치할 필요가 없습니다.

    LIS는 Red Hat Enterprise Linux, CentOS 및 Oracle Linux Red Hat 호환 커널 5.2-5.11, 6.0-6.10 및 7.0-7.7에 적용됩니다. 자세한 내용은 Linux Integration Services 설명서를 참조하세요. 이러한 버전에 LIS가 더 이상 필요하지 않으므로 CentOS/RHEL 7.8(또는 이상 버전)을 사용하려는 경우 이 단계를 건너뜁니다.

    wget https://aka.ms/lis
    tar xvzf lis
    cd LISISO
    
    sudo ./install.sh
    sudo reboot
    
  3. VM에 다시 연결하고 다음 명령을 사용하여 설치를 계속합니다.

    sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
    sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
    sudo yum clean all
    sudo yum -y install nvidia-driver-latest-dkms cuda-drivers
    

    설치에 몇 분 정도 걸릴 수 있습니다.

    참고 항목

    FedoraNvidia CUDA 리포지토리를 방문하여 사용하려는 CentOS 또는 RHEL 버전에 맞는 올바른 패키지를 선택합니다.

예를 들어, CentOS 8 및 RHEL 8에는 다음 단계가 필요합니다.

sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo yum install dkms

sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo -O /etc/yum.repos.d/cuda-rhel8.repo

sudo yum install cuda-drivers
  1. 필요에 따라 전체 CUDA 도구 키트를 설치하려면 다음을 입력합니다.

    sudo yum install cuda
    

    참고 항목

    vulkan-filesystem과 같은 누락된 패키지와 관련된 오류 메시지가 표시되는 경우 /etc/yum.repos.d/rh-cloud를 편집하고 optional-rpms를 찾아 enabled를 1로 설정해야 할 수 있습니다.

  2. VM 다시 부팅하고 계속해서 설치를 확인합니다.

드라이버 설치 확인

GPU 디바이스 상태를 쿼리하려면 VM에 대해 SSH를 실행하고 드라이버와 설치된 nvidia-smi 명령줄 유틸리티를 실행합니다.

드라이버가 설치된 경우 Nvidia SMI는 VM에서 GPU 워크로드를 실행할 때까지 GPU-Util을 0%로 나열합니다. 드라이버 버전 및 GPU 세부 정보는 표시된 것과 다를 수 있습니다.

NVIDIA 디바이스 상태

RDMA 네트워크 연결

동일한 가용성 집합 또는 VM(가상 머신) 확장 집합의 단일 배치 그룹에 배포된 NC24r과 같은 RDMA 지원 N 시리즈 VM에서 RDMA 네트워크 연결을 사용할 수 있습니다. RDMA 네트워크는 Intel MPI 5.x 이상 버전을 사용하여 실행되는 애플리케이션에 대한 MPI(Message Passing Interface) 트래픽을 지원합니다.

분포

N 시리즈 VM에서 RDMA 연결을 지원하는 Azure Marketplace의 이미지 중 하나에서 RDMA 지원 N 시리즈 VM을 배포합니다.

  • Ubuntu 16.04 LTS - Intel MPI를 다운로드하도록 VM에서 RDMA 드라이버를 구성하고 Intel에 등록합니다.

    1. Dapl, rdmacm, ibverbs 및 mlx4 설치

      sudo apt-get update
      
      sudo apt-get install libdapl2 libmlx4-1
      
      
    2. /etc/waagent.conf에서 다음 구성 줄의 주석 처리를 해제하여 RDMA를 사용하도록 설정합니다. 이 파일을 편집하려면 루트 액세스가 필요합니다.

      OS.EnableRDMA=y
      
      OS.UpdateRdmaDriver=y
      
    3. /etc/security/limits.conf 파일에서 다음 메모리 설정(KB)을 추가하거나 변경합니다. 이 파일을 편집하려면 루트 액세스가 필요합니다. 테스트를 위해 memlock을 unlimited로 설정할 수 있습니다. 예: <User or group name> hard memlock unlimited

      <User or group name> hard    memlock <memory required for your application in KB>
      
      <User or group name> soft    memlock <memory required for your application in KB>
      
    4. Intel MPI Library를 설치합니다. Intel에서 이 라이브러리를 구입 및 다운로드하거나 평가판을 다운로드합니다.

      wget http://registrationcenter-download.intel.com/akdlm/irc_nas/tec/9278/l_mpi_p_5.1.3.223.tgz
      

      Intel MPI 5.x 런타임만 지원됩니다.

      설치 단계에 대해서는 Intel MPI Library 설치 가이드를 참조하세요.

    5. 루트가 아닌 비디버거 프로세스에 대해 ptrace를 사용하도록 설정합니다(가장 최신 버전의 Intel MPI에 필요).

      echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope
      
  • CentOS 기반 7.4 HPC - RDMA 드라이버 및 Intel MPI 5.1은 VM에 설치됩니다.

  • CentOS 기반 HPC - CENTOS-HPC 7.6 이상(INFINIBAND가 SR-IOV를 통해 지원되는 SKU의 경우). 이러한 이미지에는 Mellanox OFED 및 MPI 라이브러리가 미리 설치되어 있습니다.

참고 항목

CX3-Pro 카드는 LTS 버전의 Mellanox OFED을 통해서만 지원됩니다. ConnectX3-Pro 카드가 있는 N 시리즈 VM에서 LTS Mellanox OFED 버전(4.9-0.1.7.0)을 사용합니다. 자세한 내용은 Linux 드라이버를 참조하세요.

또한 최신 Azure Marketplace HPC 이미지 중 일부에는 ConnectX3-Pro 카드를 지원하지 않는 Mellanox OFED 5.1 이상이 있습니다. ConnectX3-Pro 카드가 있는 VM에서 사용하기 전에 HPC 이미지에서 Mellanox OFED 버전을 확인합니다.

다음 이미지는 ConnectX3-Pro 카드를 지원하는 최신 CentOS-HPC 이미지입니다.

  • OpenLogic:CentOS-HPC:7.6:7.6.2020062900
  • OpenLogic:CentOS-HPC:7_6gen2:7.6.2020062901
  • OpenLogic:CentOS-HPC:7.7:7.7.2020062600
  • OpenLogic:CentOS-HPC:7_7-gen2:7.7.2020062601
  • OpenLogic:CentOS-HPC:8_1:8.1.2020062400
  • OpenLogic:CentOS-HPC:8_1-gen2:8.1.2020062401

NV 또는 NVv3 시리즈 VM에 GRID 드라이버 설치

NVIDIA GRID 드라이버를 NV 또는 NVv3 시리즈 VM에 설치하려면 각 VM에 대한 SSH 연결을 확인하고 Linux 배포에 필요한 단계를 수행합니다.

Ubuntu

  1. lspci 명령을 실행합니다. NVIDIA M60 카드가 PCI 디바이스로 표시되는지 확인합니다.

  2. 업데이트 설치

    sudo apt-get update
    sudo apt-get upgrade -y
    sudo apt-get dist-upgrade -y
    sudo apt-get install build-essential ubuntu-desktop -y
    sudo apt-get install linux-azure -y
    
  3. NVIDIA 드라이버와 호환되지 않는 Nouveau 커널 드라이버를 사용하지 않도록 설정합니다. (NV 또는 NVv2 VM에서 NVIDIA 드라이버만 사용합니다.) 드라이버를 사용하지 않도록 설정하려면 다음 콘텐츠가 포함된 nouveau.conf라고 하는 /etc/modprobe.d에 파일을 만듭니다.

    blacklist nouveau
    blacklist lbm-nouveau
    
  4. VM을 다시 부팅하고 다시 연결합니다. X 서버를 종료합니다.

    sudo systemctl stop lightdm.service
    
  5. GRID 드라이버를 다운로드하여 설치합니다.

    wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
    chmod +x NVIDIA-Linux-x86_64-grid.run
    sudo ./NVIDIA-Linux-x86_64-grid.run
    
  6. X 구성 파일을 업데이트할 nvidia-xconfig 유틸리티를 실행할 것인지 여부를 묻는 메시지가 표시되면 를 선택합니다.

  7. 설치가 완료되면 /etc/nvidia/gridd.conf.template을 /etc/nvidia/ 위치의 새 파일 gridd.conf에 복사합니다.

    sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
    
  8. 다음 줄을 /etc/nvidia/gridd.conf에 추가합니다.

    IgnoreSP=FALSE
    EnableUI=FALSE
    
  9. /etc/nvidia/gridd.conf에서 다음을 제거합니다(있는 경우).

    FeatureType=0
    
  10. VM 다시 부팅하고 계속해서 설치를 확인합니다.

보안 부팅을 사용하도록 설정된 Ubuntu에 GRID 드라이버 설치

GRID 드라이버 설치 프로세스는 커널 모듈 빌드 및 설치를 건너뛰고 서명된 커널 모듈의 다른 원본을 선택하는 옵션을 제공하지 않으므로, 서명된 커널 모듈을 설치한 후 GRID와 함께 사용하기 위해 Linux VM에서 보안 부팅을 사용하지 않도록 설정해야 합니다.

CentOS 또는 Red Hat Enterprise Linux

  1. 커널 및 DKMS를 업데이트합니다(권장). 커널을 업데이트하지 않도록 선택하는 경우 kernel-develdkms의 버전이 커널에 적합한지 확인하세요.

    sudo yum update
    sudo yum install kernel-devel
    sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
    sudo yum install dkms
    sudo yum install hyperv-daemons
    
  2. NVIDIA 드라이버와 호환되지 않는 Nouveau 커널 드라이버를 사용하지 않도록 설정합니다. (NV 또는 NV3 VM에서 NVIDIA 드라이버만 사용합니다.) 이를 수행하려면 다음 콘텐츠가 포함된 nouveau.conf라고 하는 /etc/modprobe.d에 파일을 만듭니다.

    blacklist nouveau
    blacklist lbm-nouveau
    
  3. VM을 다시 부팅하고 다시 연결한 후 Hyper-V 및 Azure에 대한 최신 Linux 통합 서비스를 설치합니다. lspci의 결과를 확인하여 LIS가 필요한지 알아봅니다. 모든 GPU 디바이스가 예상대로 나열되면 LIS를 설치할 필요가 없습니다.

    이러한 버전에 LIS가 더 이상 필요하지 않으므로 CentOS/RHEL 7.8(또는 이상 버전)을 사용하려는 경우 이 단계를 건너뜁니다.

    wget https://aka.ms/lis
    tar xvzf lis
    cd LISISO
    
    sudo ./install.sh
    sudo reboot
    
    
  4. VM에 다시 연결하고 lspci 명령을 실행합니다. NVIDIA M60 카드가 PCI 디바이스로 표시되는지 확인합니다.

  5. GRID 드라이버를 다운로드하여 설치합니다.

    wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
    chmod +x NVIDIA-Linux-x86_64-grid.run
    
    sudo ./NVIDIA-Linux-x86_64-grid.run
    
  6. X 구성 파일을 업데이트할 nvidia-xconfig 유틸리티를 실행할 것인지 여부를 묻는 메시지가 표시되면 를 선택합니다.

  7. 설치가 완료되면 /etc/nvidia/gridd.conf.template을 /etc/nvidia/ 위치의 새 파일 gridd.conf에 복사합니다.

    sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
    
  8. /etc/nvidia/gridd.conf에 다음 두 줄을 추가합니다.

    IgnoreSP=FALSE
    EnableUI=FALSE
    
  9. 다음 한 줄이 있으면 /etc/nvidia/gridd.conf에서 제거합니다.

    FeatureType=0
    
  10. VM 다시 부팅하고 계속해서 설치를 확인합니다.

드라이버 설치 확인

GPU 디바이스 상태를 쿼리하려면 VM에 대해 SSH를 실행하고 드라이버와 설치된 nvidia-smi 명령줄 유틸리티를 실행합니다.

드라이버가 설치된 경우 Nvidia SMI는 VM에서 GPU 워크로드를 실행할 때까지 GPU-Util을 0%로 나열합니다. 드라이버 버전 및 GPU 세부 정보는 표시된 것과 다를 수 있습니다.

GPU 디바이스 상태를 쿼리할 때의 출력을 보여 주는 스크린샷

X11 서버

NV 또는 NVv2 VM에 대한 원격 연결을 위해 X11 서버가 필요한 경우 그래픽의 하드웨어 가속화가 가능하기 때문에 x11vnc가 권장됩니다. M60 디바이스의 BusID를 X11 구성 파일(일반적으로 etc/X11/xorg.conf)에 직접 추가해야 합니다. 다음과 유사한 "Device" 섹션을 추가합니다.

Section "Device"
    Identifier     "Device0"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "Tesla M60"
    BusID          "PCI:0@your-BusID:0:0"
EndSection

또한 "Screen" 섹션을 업데이트하여 이 디바이스를 사용합니다.

실행하여 소수점 BusID를 찾을 수 있음

nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'

BusID는 VM이 다시 할당되거나 다시 부팅될 때를 변경할 수 있습니다. 따라서 스크립트를 만들어서 VM이 다시 부팅될 때 X11 구성에서 BusID를 업데이트할 수도 있습니다. 예를 들어, 다음과 유사한 콘텐츠의 busidupdate.sh(또는 사용자가 선택한 다른 이름)라는 스크립트를 만듭니다.

#!/bin/bash
XCONFIG="/etc/X11/xorg.conf"
OLDBUSID=`awk '/BusID/{gsub(/"/, "", $2); print $2}' ${XCONFIG}`
NEWBUSID=`nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'`

if [[ "${OLDBUSID}" == "${NEWBUSID}" ]] ; then
        echo "NVIDIA BUSID not changed - nothing to do"
else
        echo "NVIDIA BUSID changed from \"${OLDBUSID}\" to \"${NEWBUSID}\": Updating ${XCONFIG}"
        sed -e 's|BusID.*|BusID          '\"${NEWBUSID}\"'|' -i ${XCONFIG}
fi

그런 다음, 스크립트가 부팅 시 루트로 호출되도록 /etc/rc.d/rc3.d에 업데이트 스크립트에 대한 항목을 만듭니다.

문제 해결

  • nvidia-smi를 사용하여 지속성 모드를 설정할 수 있으므로 카드를 쿼리해야 할 때 명령 출력이 더 빠릅니다. 지속성 모드를 설정하려면 nvidia-smi -pm 1을 실행합니다. VM을 다시 시작하면 모드 설정이 사라집니다. 모드 설정은 시작할 때 실행되도록 항상 스크립팅할 수 있습니다.
  • NVIDIA CUDA 드라이버를 최신 버전으로 업데이트하고, RDMA 연결이 더 이상 작동하지 않는 경우 RDMA 드라이버를 다시 설치하여 해당 연결을 다시 설정합니다.
  • LIS를 설치하는 동안 특정 CentOS/RHEL OS 버전(또는 커널)이 LIS에 대해 지원되지 않는 경우 "지원되지 않는 커널 버전" 오류가 발생합니다. OS 및 커널 버전과 함께 이 오류를 보고하세요.
  • GPU의 ECC 오류로 인해 작업이 중단되는 경우(수정 가능하거나 수정할 수 없음) 먼저 GPU가 Nvidia의 ECC 오류에 대한 RMA 조건을 충족하는지 확인합니다. GPU가 RMA에 적합한 경우 서비스 받기에 대해 지원에 문의하세요. 그렇지 않으면 여기에 설명된 대로 VM을 다시 부팅하여 GPU를 다시 연결합니다. nvidia-smi -r과 같은 영향을 덜 미치는 메서드는 Azure에 배포된 가상화 솔루션에서 작동하지 않습니다.

다음 단계