Megosztás a következőn keresztül:


NVIDIA GPU-illesztőprogramok telepítése Linux rendszerű N sorozatú virtuális gépekre

Figyelmeztetés

Ez a cikk az End Of Life (EOL) állapotú Linux-disztribúcióra, a CentOS-ra hivatkozik. Kérjük, vegye figyelembe a használatát, és ennek megfelelően tervezze meg. További információ: CentOS End Of Life útmutató.

A következőkre vonatkozik: ✔️ Linux rendszerű virtuális gépek

Az NVIDIA GPU-k által támogatott Azure N sorozatú virtuális gépek GPU-képességeinek kihasználásához telepítenie kell az NVIDIA GPU-illesztőprogramokat. Az NVIDIA GPU-illesztőbővítmény telepíti a megfelelő NVIDIA CUDA- vagy GRID-illesztőprogramokat egy N sorozatú virtuális gépen. Telepítse vagy kezelje a bővítményt az Azure Portalon vagy olyan eszközökkel, mint az Azure CLI vagy az Azure Resource Manager-sablonok. A támogatott disztribúciókkal és üzembe helyezési lépésekkel kapcsolatban tekintse meg az NVIDIA GPU-illesztőprogram-bővítmény dokumentációját .

Ha úgy dönt, hogy manuálisan telepíti az NVIDIA GPU-illesztőprogramokat, ez a cikk támogatott disztribúciókat, illesztőprogramokat, valamint telepítési és ellenőrzési lépéseket tartalmaz. A manuális illesztőprogram-beállítási információk Windows rendszerű virtuális gépekhez is elérhetők.

Az N sorozatú virtuális gépek specifikációiról, a tárolási kapacitásokról és a lemez részleteiről lásd a GPU Linux rendszerű virtuális gépek méretét.

Támogatott disztribúciók és illesztőprogramok

NVIDIA CUDA-illesztőprogramok

A legújabb CUDA-illesztőprogramok és támogatott operációs rendszerekért látogasson el az NVIDIA webhelyére. Győződjön meg arról, hogy a legújabb támogatott CUDA-illesztőprogramokat telepíti vagy frissíti a disztribúcióhoz.

Megjegyzés:

Az eredeti NC sorozatú termékváltozatú virtuális gépek legújabb támogatott CUDA-illesztőprogramja jelenleg 470.82.01. A későbbi illesztőprogram-verziók nem támogatottak az NC-ben lévő K80-kártyákon.

Megjegyzés:

Az Azure NVads A10 v5 virtuális gépek csak a GRID 14.1(510.73) vagy újabb illesztőprogram-verziókat támogatják. Az A10 termékváltozat vGPU-illesztője egy egységes illesztőprogram, amely támogatja a grafikus és számítási számítási feladatokat is.

Figyelmeztetés

A biztonságos rendszerindítást és a vTPM-et le kell tiltani, mert a folyamat lefagy, amikor engedélyezve vannak.

Jótanács

A manuális CUDA-illesztőprogram linuxos virtuális gépeken történő telepítésének alternatívájaként üzembe helyezhet egy Azure Data Science Virtual Machine-lemezképet. Az Ubuntu 16.04 LTS DSVM-kiadása előtelepíti az NVIDIA CUDA-illesztőprogramokat, a CUDA mély neurális hálózati könyvtárat és más eszközöket.

NVIDIA GRID-illesztőprogramok

Megjegyzés:

A vGPU18 a NCasT4_v3 sorozathoz érhető el. Amint a vGPU18 elérhetővé válik a NVadsA10_v5-sorozathoz, frissítést biztosítunk.

A Microsoft újra terjeszti az NVIDIA GRID illesztőprogram-telepítőit a virtuális munkaállomásként vagy virtuális alkalmazásokhoz használt NV és NVv3 sorozatú virtuális gépekhez. Csak ezeket a GRID-illesztőprogramokat telepítse azure NV-beli virtuális gépekre, csak az alábbi táblázatban felsorolt operációs rendszerekre. Ezek az illesztőprogramok magukban foglalják a GRID virtuális GPU-szoftverek licencelését az Azure-ban. Nem kell nvidia vGPU szoftverlicenc-kiszolgálót beállítania.

Az Azure által újraterjesztett GRID-illesztőprogramok nem működnek a legtöbb nem NV sorozatú virtuális gépen, például NC, NCv2, NCv3, ND és NDv2 sorozatú virtuális gépeken, de az NCasT4v3 sorozaton működik.

Az adott vGPU- és illesztőprogram-ágverziókkal kapcsolatos további információkért látogasson el az NVIDIA webhelyére.

Disztribúció Sofőr
Ubuntu 20.04 LTS, 22.04 LTS, 24.04 LTS

Red Hat Enterprise Linux 8.6, 8.8, 8.9, 8.10, 9.0, 9.2, 9.3, 9.4, 9.5

SUSE Linux Enterprise Server 15 SP2, 12 SP2,12 SP5

Rocky Linux 8.4
NVIDIA vGPU 17.55, R550 illesztőág

NVIDIA vGPU 17.55, R550 illesztőág

Megjegyzés:

Az Azure NVads A10 v5 virtuális gépek esetében azt javasoljuk, hogy az ügyfelek mindig a legújabb illesztőprogram-verzión legyenek. A legújabb NVIDIA fő illesztőprogram ága (n) csak az előző fő ággal (n-1) kompatibilis. Például a vGPU 17.x visszamenőlegesen kompatibilis csak a vGPU 16.x-szel. Az n-2 vagy annál kisebb virtuális gépeken illesztőprogram-hibák léphetnek fel, amikor a legújabb meghajtóágat az Azure-gazdagépekre vezetik be.

NVs_v3 virtuális gépek csak a vGPU 16-os vagy alacsonyabb illesztőprogram-verziót támogatják.

A GRID Driver 17.3 jelenleg csak NCasT4_v3 virtuális gépek sorozatát támogatja. Az illesztőprogram használatához töltse le és telepítse manuálisan a GRID Driver 17.3-at .

A GRID-illesztőprogramok problémákat tapasztalnak az Azure Kernel 6.11-ben való telepítéssel kapcsolatban. A letiltás feloldásához csökkentse a kernel verzióját a 6.8-ra. További információ: Ismert problémák.

Látogasson el a GitHubra az összes korábbi Nvidia GRID-illesztő hivatkozás teljes listájához.

Figyelmeztetés

A harmadik féltől származó szoftverek telepítése a Red Hat termékekre hatással lehet a Red Hat támogatási feltételeire. Lásd a Red Hat Tudásbázis cikkét.

CUDA-illesztőprogramok telepítése N sorozatú virtuális gépekre

Az alábbi lépésekkel telepítheti a CUDA-illesztőprogramokat az NVIDIA CUDA eszközkészletből N sorozatú virtuális gépekre.

A C és c++ fejlesztők igény szerint telepíthetik a teljes eszközkészletet GPU-gyorsított alkalmazások létrehozásához. További információkért tekintse meg a CUDA telepítési útmutatóját.

A CUDA-illesztőprogramok telepítéséhez hozzon létre egy SSH-kapcsolatot az egyes virtuális gépekhez. Annak ellenőrzéséhez, hogy a rendszer rendelkezik-e CUDA-kompatibilis GPU-val, futtassa a következő parancsot:

lspci | grep -i NVIDIA

A kimenet hasonló az alábbi példához (nvidia Tesla K80-kártyát mutat):

Képernyőkép egy NVIDIA Tesla K80-kártyát ábrázoló példakimenetről.

Az lspci felsorolja a virtuális gépen lévő PCIe-eszközöket, beleértve az InfiniBand hálózati adaptert és gpu-kat, ha vannak ilyenek. Ha az lspci nem tér vissza sikeresen, előfordulhat, hogy telepítenie kell a LIS-t a CentOS/RHEL rendszerre.

Ezután futtassa a disztribúcióra vonatkozó telepítési parancsokat.

Ubuntu

Az Ubuntu NVIDIA tulajdonosi jogú illesztőprogramokat tartalmaz. Ezek az illesztőprogramok közvetlenül az NVIDIA-ból származnak, és egyszerűen az Ubuntu csomagolja őket, hogy a rendszer automatikusan felügyelhesse őket. Az illesztőprogramok letöltése és telepítése egy másik forrásból hibás rendszerhez vezethet. Ezenkívül a külső illesztőprogramok telepítéséhez további lépésekre van szükség a TrustedLaunch és a Biztonságos rendszerindítás funkcióval rendelkező virtuális gépeken. Megkövetelik a felhasználótól, hogy adjon hozzá egy új géptulajdonosi kulcsot a rendszerindításhoz. Az Ubuntu illesztőprogramjait a Canonical írta alá, és a Biztonságos rendszerindítással fog működni.

  1. Telepítse a ubuntu-drivers segédprogramot:

    sudo apt update && sudo apt install -y ubuntu-drivers-common
    
  2. Telepítse a legújabb NVIDIA-illesztőprogramokat:

    sudo ubuntu-drivers install
    
  3. Indítsa újra a virtuális gépet a GPU-illesztőprogram telepítése után:

    sudo reboot
    
  4. Töltse le és telepítse a CUDA eszközkészletet az NVIDIA-ból:

    Megjegyzés:

    A példa az Ubuntu 24.04 LTS CUDA csomagútvonalát mutatja be. Cserélje le a használni kívánt verzióra vonatkozó elérési utat.

    Látogasson el az NVIDIA letöltőközpontba vagy az NVIDIA CUDA-erőforrások oldalára az egyes verziókhoz tartozó teljes elérési úthoz.

    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
    sudo apt install -y ./cuda-keyring_1.1-1_all.deb
    sudo apt update
    sudo apt -y install cuda-toolkit-12-5
    

    A telepítés több percet is igénybe vehet.

  5. A telepítés befejezése után indítsa újra a virtuális gépet:

    sudo reboot
    
  6. Ellenőrizze, hogy a GPU megfelelően van-e felismerve (újraindítás után):

    nvidia-smi
    

NVIDIA-illesztőprogramok frissítései

Javasoljuk, hogy az üzembe helyezés után rendszeresen frissítse az NVIDIA-illesztőprogramokat.

sudo apt update
sudo apt full-upgrade

CentOS vagy Red Hat Enterprise Linux

  1. Frissítse a kernelt (ajánlott). Ha úgy dönt, hogy nem frissíti a kernelt, győződjön meg arról, hogy a rendszermag verziói kernel-develés dkms azok megfelelnek a kernelnek.

    sudo yum install kernel kernel-tools kernel-headers kernel-devel
    sudo reboot
    
  2. Telepítse a legújabb Linux Integration Servicest Hyper-V és Azure-hoz. Ellenőrizze, hogy szükség van-e LIS-ra az lspci eredményeinek ellenőrzésével. Ha az összes GPU-eszköz a várt módon van felsorolva, a LIS telepítése nem szükséges.

    A LIS a Red Hat Enterprise Linux, a CentOS és az Oracle Linux Red Hat Kompatibilis Kernel 5.2-5.11, 6.0-6.10 és 7.0-7.7 rendszerekre alkalmazható. További részletekért tekintse meg a Linux Integration Services dokumentációját . Hagyja ki ezt a lépést, ha a CentOS/RHEL 7.8 (vagy újabb verziók) használatát tervezi, mivel ezekhez a verziókhoz már nincs szükség LIS-re.

    wget https://aka.ms/lis
    tar xvzf lis
    cd LISISO
    
    sudo ./install.sh
    sudo reboot
    
  3. Csatlakozzon újra a virtuális géphez, és folytassa a telepítést a következő parancsokkal:

    sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
    sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
    sudo yum clean all
    sudo yum -y install nvidia-driver-latest-dkms cuda-drivers
    

    A telepítés több percet is igénybe vehet.

    Megjegyzés:

    Látogasson el a Fedora és az Nvidia CUDA adattárba , és válassza ki a használni kívánt CentOS- vagy RHEL-verzióhoz megfelelő csomagot.

A CentOS 8-nak és az RHEL 8-nak például a következő lépésekre van szüksége.

sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo yum install dkms

sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo -O /etc/yum.repos.d/cuda-rhel8.repo

sudo yum install cuda-drivers
  1. A teljes CUDA-eszközkészlet opcionális telepítéséhez írja be a következőt:

    sudo yum install cuda
    

    Megjegyzés:

    Ha hibaüzenet jelenik meg az olyan hiányzó csomagokról, mint a vulkan-filesystem, akkor lehet, hogy szerkesztenie kell a /etc/yum.repos.d/rh-cloud fájlt, keresse meg az opcionális rpm-eket, és állítsa be az 1 értéket

  2. Indítsa újra a virtuális gépet, és ellenőrizze a telepítést.

Illesztőprogram telepítésének ellenőrzése

A GPU-eszköz állapotának lekérdezéséhez az SSH-t a virtuális gépre, és futtassa az nvidia-smi parancssori segédprogramot az illesztőprogrammal együtt.

Ha az illesztőprogram telepítve van, az Nvidia SMI 0% sorolja fel a GPU-Util-t, amíg gpu-számítási feladatot nem futtat a virtuális gépen. Előfordulhat, hogy az illesztőprogram verziója és a GPU adatai eltérnek a megjelenítettektől.

Képernyőkép az NVIDIA eszközállapotáról.

RDMA hálózati kapcsolat

Az RDMA hálózati kapcsolat engedélyezhető RDMA-kompatibilis N sorozatú virtuális gépeken, például ugyanazon rendelkezésre állási csoportban vagy virtuálisgép-méretezési csoportban üzembe helyezett NC24r esetén. Az RDMA-hálózat támogatja a Message Passing Interface (MPI) forgalmat az Intel MPI 5.x vagy újabb verzióval futó alkalmazások esetében:

Disztribúciók

RdMA-kompatibilis N sorozatú virtuális gépek üzembe helyezése az Azure Marketplace egyik rendszerképéből, amely támogatja az RDMA-kapcsolatot N sorozatú virtuális gépeken:

  • Ubuntu 16.04 LTS – RDMA-illesztőprogramok konfigurálása a virtuális gépen, és regisztráljon az Intelben az Intel MPI letöltéséhez:

    1. A dapl, rdmacm, ibverbs és mlx4 telepítése

      sudo apt-get update
      
      sudo apt-get install libdapl2 libmlx4-1
      
      
    2. A /etc/waagent.conf fájlban engedélyezze az RDMA-t az alábbi konfigurációs sorok kibontásával. A fájl szerkesztéséhez gyökérszintű hozzáférésre van szüksége.

      OS.EnableRDMA=y
      
      OS.UpdateRdmaDriver=y
      
    3. Adja hozzá vagy módosítsa a következő memóriabeállításokat a KB-ban a /etc/security/limits.conf fájlban. A fájl szerkesztéséhez gyökérszintű hozzáférésre van szüksége. Tesztelési célokra korlátlanra állíthatja a memlockot. Például: <User or group name> hard memlock unlimited.

      <User or group name> hard    memlock <memory required for your application in KB>
      
      <User or group name> soft    memlock <memory required for your application in KB>
      
    4. Telepítse az Intel MPI-kódtárat. Vásárolja meg és töltse le a kódtárat az Intelből, vagy töltse le az ingyenes próbaverziót.

      wget http://registrationcenter-download.intel.com/akdlm/irc_nas/tec/9278/l_mpi_p_5.1.3.223.tgz
      

      Csak az Intel MPI 5.x futtatókörnyezetek támogatottak.

      A telepítési lépésekért tekintse meg az Intel MPI-kódtár telepítési útmutatóját.

    5. Engedélyezze a ptrace-t a nem gyökérszintű nem hibakereső folyamatokhoz (az Intel MPI legújabb verzióihoz szükséges).

      echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope
      
  • CentOS-alapú 7.4 HPC - RDMA-illesztőprogramok és Intel MPI 5.1 telepítve vannak a virtuális gépen.

  • CentOS-alapú HPC – 7.6-os CentOS-HPC és újabb (olyan termékváltozatokhoz, ahol az InfiniBand támogatott a SR-IOV-es SKU-kon). Ezeken a képeken előre telepítve vannak a Mellanox OFED- és MPI-könyvtárak.

Megjegyzés:

CX3-Pro kártyák csak a Mellanox OFED LTS-verzióival támogatottak. Használja az LTS Mellanox OFED-verziót (4.9-0.1.7.0) az N sorozatú virtuális gépeken ConnectX3-Pro kártyákkal. További információ: Linux-illesztőprogramok.

A legújabb Azure Marketplace HPC-rendszerképek közül néhány mellanox OFED 5.1 és újabb verzióval rendelkezik, amelyek nem támogatják ConnectX3-Pro kártyákat. Ellenőrizze a Mellanox OFED-verziót a HPC-lemezképben, mielőtt ConnectX3-Pro kártyákkal rendelkező virtuális gépeken használja.

Az alábbi képek a ConnectX3-Pro kártyákat támogató legújabb CentOS-HPC képek:

  • OpenLogic:CentOS-HPC:7.6:7.6.2020062900
  • OpenLogic:CentOS-HPC:7_6gen2:7.6.2020062901
  • OpenLogic:CentOS-HPC:7.7:7.7.2020062600
  • OpenLogic:CentOS-HPC:7_7-gen2:7.7.2020062601
  • OpenLogic:CentOS-HPC:8_1:8.1.2020062400
  • OpenLogic:CentOS-HPC:8_1-gen2:8.1.2020062401

GRID-illesztőprogramok telepítése NV vagy NVv3 sorozatú virtuális gépekre

Ha NVIDIA GRID-illesztőprogramokat szeretne telepíteni NV vagy NVv3 sorozatú virtuális gépekre, hozzon létre egy SSH-kapcsolatot az egyes virtuális gépekhez, és kövesse a Linux-disztribúció lépéseit.

Ubuntu

  1. Adja ki a lspci parancsot. Ellenőrizze, hogy az NVIDIA M60 kártya vagy kártyák PCI-eszközként láthatók-e.

  2. Telepítse a frissítéseket.

    sudo apt-get update
    sudo apt-get upgrade -y
    sudo apt-get dist-upgrade -y
    sudo apt-get install build-essential ubuntu-desktop -y
    sudo apt-get install linux-azure -y
    
  3. Tiltsa le a Nouveau kernelillesztőt, amely nem kompatibilis az NVIDIA-illesztőprogrammal. (Csak NV vagy NVv2 rendszerű virtuális gépeken használja az NVIDIA-illesztőt.) Az illesztőprogram letiltásához hozzon létre egy fájlt /etc/modprobe.d a következő tartalommal:nouveau.conf

    blacklist nouveau
    blacklist lbm-nouveau
    
  4. Indítsa újra a virtuális gépet, és csatlakozzon újra. Kilépés az X kiszolgálóról:

    sudo systemctl stop lightdm.service
    
  5. Töltse le és telepítse a GRID-illesztőt:

    wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
    chmod +x NVIDIA-Linux-x86_64-grid.run
    sudo ./NVIDIA-Linux-x86_64-grid.run
    
  6. Amikor a rendszer megkérdezi, hogy szeretné-e futtatni az nvidia-xconfig segédprogramot az X konfigurációs fájl frissítéséhez, válassza az Igen lehetőséget.

  7. A telepítés befejezése után másolja a /etc/nvidia/gridd.conf.template fájlt egy új fájlra gridd.conf helyre /etc/nvidia/

    sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
    
  8. Hozzáadás a következőhöz /etc/nvidia/gridd.conf:

    IgnoreSP=FALSE
    EnableUI=FALSE
    
  9. Távolítsa el a következőket /etc/nvidia/gridd.conf, ha az jelen van:

    FeatureType=0
    
  10. Indítsa újra a virtuális gépet, és ellenőrizze a telepítést.

A GRID-illesztő telepítése az Ubuntu-ra a biztonságos rendszerindítás engedélyezésével

A GRID-illesztő telepítési folyamata nem kínál lehetőséget a kernelmodulok összeállításának és telepítésének kihagyására, valamint az aláírt kernelmodulok egy másik forrásának kiválasztására, ezért az aláírt kernelmodulok telepítése után le kell tiltani a biztonságos rendszerindítást Linux rendszerű virtuális gépeken, hogy azokat a GRID-szel együtt használhassák.

CentOS vagy Red Hat Enterprise Linux

  1. Frissítse a kernelt és a DKMS-t (ajánlott). Ha úgy dönt, hogy nem frissíti a kernelt, győződjön meg arról, hogy a kernel-devel és dkms verziói megfelelőek a kerneléhez.

    sudo yum update
    sudo yum install kernel-devel
    sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
    sudo yum install dkms
    sudo yum install hyperv-daemons
    
  2. Tiltsa le a Nouveau kernelillesztőt, amely nem kompatibilis az NVIDIA-illesztőprogrammal. (Csak NV vagy NV3 rendszerű virtuális gépeken használja az NVIDIA-illesztőt.) Ehhez hozzon létre egy fájlt /etc/modprobe.d a következő tartalommal:nouveau.conf

    blacklist nouveau
    blacklist lbm-nouveau
    
  3. Indítsa újra a virtuális gépet, csatlakozzon újra, és telepítse a legújabb Linux Integration Servicest a Hyper-V és az Azure számára. Ellenőrizze, hogy szükség van-e LIS-ra az lspci eredményeinek ellenőrzésével. Ha az összes GPU-eszköz a várt módon van felsorolva, a LIS telepítése nem szükséges.

    Hagyja ki ezt a lépést, ha a CentOS/RHEL 7.8 (vagy újabb verziók) használatát tervezi, mivel ezekhez a verziókhoz már nincs szükség LIS-re.

    wget https://aka.ms/lis
    tar xvzf lis
    cd LISISO
    
    sudo ./install.sh
    sudo reboot
    
    
  4. Csatlakozzon újra a virtuális géphez, és futtassa a lspci parancsot. Ellenőrizze, hogy az NVIDIA M60 kártya vagy kártyák PCI-eszközként láthatók-e.

  5. Töltse le és telepítse a GRID-illesztőt:

    wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
    chmod +x NVIDIA-Linux-x86_64-grid.run
    
    sudo ./NVIDIA-Linux-x86_64-grid.run
    
  6. Amikor a rendszer megkérdezi, hogy szeretné-e futtatni az nvidia-xconfig segédprogramot az X konfigurációs fájl frissítéséhez, válassza az Igen lehetőséget.

  7. A telepítés befejezése után másolja a /etc/nvidia/gridd.conf.template fájlt egy új fájlra gridd.conf helyre /etc/nvidia/

    sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
    
  8. Két sor hozzáadása a következőhöz /etc/nvidia/gridd.conf:

    IgnoreSP=FALSE
    EnableUI=FALSE
    
  9. Távolítsa el az egyik sort /etc/nvidia/gridd.conf , ha az jelen van:

    FeatureType=0
    
  10. Indítsa újra a virtuális gépet, és ellenőrizze a telepítést.

Illesztőprogram telepítésének ellenőrzése

A GPU-eszköz állapotának lekérdezéséhez az SSH-t a virtuális gépre, és futtassa az nvidia-smi parancssori segédprogramot az illesztőprogrammal együtt.

Ha az illesztőprogram telepítve van, az Nvidia SMI 0% listázni fogja a GPU-Util-t, amíg gpu-számítási feladatot nem futtat a virtuális gépen. Előfordulhat, hogy az illesztőprogram verziója és a GPU adatai eltérnek a megjelenítettektől.

Képernyőkép a GPU-eszköz állapotának lekérdezésekor megjelenő kimenetről.

X11-kiszolgáló

Ha X11-kiszolgálóra van szüksége egy NV vagy NVv2 virtuális gép távoli kapcsolataihoz, akkor az x11vnc használata ajánlott, mert lehetővé teszi a grafikus elemek hardveres gyorsítását. Az M60-eszköz BusID azonosítóját manuálisan kell hozzáadni az X11 konfigurációs fájlhoz (általában etc/X11/xorg.conf). Adjon hozzá egy "Device" , a következőhöz hasonló szakaszt:

Section "Device"
    Identifier     "Device0"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "Tesla M60"
    BusID          "PCI:0@your-BusID:0:0"
EndSection

Emellett frissítse a(z) "Screen" szakaszt az eszköz használatához.

A decimális BusID megtalálható a következő futtatásával

nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'

A BusID változhat, ha egy virtuális gépet újratelepítenek vagy újraindítanak. Ezért érdemes lehet létrehozni egy szkriptet, amely frissíti a BusID-t az X11 konfigurációban a virtuális gép újraindításakor. Hozzon létre például egy szkriptet busidupdate.sh (vagy egy másik választott nevet) az alábbihoz hasonló tartalommal:

#!/bin/bash
XCONFIG="/etc/X11/xorg.conf"
OLDBUSID=`awk '/BusID/{gsub(/"/, "", $2); print $2}' ${XCONFIG}`
NEWBUSID=`nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'`

if [[ "${OLDBUSID}" == "${NEWBUSID}" ]] ; then
        echo "NVIDIA BUSID not changed - nothing to do"
else
        echo "NVIDIA BUSID changed from \"${OLDBUSID}\" to \"${NEWBUSID}\": Updating ${XCONFIG}"
        sed -e 's|BusID.*|BusID          '\"${NEWBUSID}\"'|' -i ${XCONFIG}
fi

Ezután hozzon létre egy bejegyzést a frissítési szkriptnél /etc/rc.d/rc3.d annak érdekében, hogy a szkript rendszergazdaként legyen futtatva a rendszerindításkor.

Hibaelhárítás

  • Az adatmegőrzési módot nvidia-smi úgy állíthatja be, hogy a parancs kimenete gyorsabb legyen, ha kártyákat kell lekérdeznie. Az adatmegőrzési mód beállításához hajtsa végre a következőt nvidia-smi -pm 1: . Vegye figyelembe, hogy ha a virtuális gép újraindul, a módbeállítás megszűnik. Az indításkor végrehajtandó módbeállítást mindig szkriptelheti.
  • Ha frissítette az NVIDIA CUDA-illesztőprogramokat a legújabb verzióra, és úgy találja, hogy az RDMA-kapcsolat már nem működik, telepítse újra az RDMA-illesztőprogramokat a kapcsolat újbóli létrehozásához.
  • A LIS telepítése során, ha egy bizonyos CentOS/RHEL OS-verzió (vagy kernel) nem támogatott a LIS esetében, a rendszer "Nem támogatott kernelverzió" hibaüzenetet ad. Jelentse ezt a hibát az operációs rendszer és a kernelverziók mellett.
  • Ha a gpu ECC-hibái megszakítják a feladatokat (javítható vagy javíthatatlan), először ellenőrizze, hogy a GPU megfelel-e az Nvidia ECC-hibákra vonatkozó RMA-feltételeinek. Ha a GPU jogosult az RMA használatára, forduljon az ügyfélszolgálathoz a szolgáltatással kapcsolatban; ellenkező esetben indítsa újra a virtuális gépet a GPU újraaktiválásához az itt leírtak szerint. Kevésbé invazív módszerek, például nvidia-smi -r nem működnek az Azure-ban üzembe helyezett virtualizálási megoldással.

Következő lépések