NVIDIA GPU-illesztők telepítése N-sorozatú, Linuxot futtató virtuális gépeken
Figyelemfelhívás
Ez a cikk az End Of Life (EOL) állapotú Linux-disztribúcióra, a CentOS-ra hivatkozik. Fontolja meg a használatát, és ennek megfelelően tervezze meg. További információ: CentOS End Of Life útmutató.
A következőkre vonatkozik: ✔️ Linux rendszerű virtuális gépek
Az NVIDIA GPU-k által támogatott Azure N sorozatú virtuális gépek GPU-képességeinek kihasználásához telepítenie kell az NVIDIA GPU-illesztőprogramokat. Az NVIDIA GPU-illesztőbővítmény telepíti a megfelelő NVIDIA CUDA- vagy GRID-illesztőprogramokat egy N sorozatú virtuális gépen. Telepítse vagy kezelje a bővítményt az Azure Portalon vagy olyan eszközökkel, mint az Azure CLI vagy az Azure Resource Manager-sablonok. A támogatott disztribúciókkal és üzembe helyezési lépésekkel kapcsolatban tekintse meg az NVIDIA GPU-illesztőprogram-bővítmény dokumentációját .
Ha úgy dönt, hogy manuálisan telepíti az NVIDIA GPU-illesztőprogramokat, ez a cikk támogatott disztribúciókat, illesztőprogramokat, valamint telepítési és ellenőrzési lépéseket tartalmaz. A manuális illesztőprogram-beállítási információk Windows rendszerű virtuális gépekhez is elérhetők.
Az N sorozatú virtuális gépek specifikációiról, a tárolási kapacitásokról és a lemez részleteiről lásd a GPU Linux rendszerű virtuális gépek méretét.
Támogatott disztribúciók és illesztőprogramok
NVIDIA CUDA-illesztőprogramok
A legújabb CUDA-illesztőprogramok és támogatott operációs rendszerekért látogasson el az NVIDIA webhelyére. Győződjön meg arról, hogy a legújabb támogatott CUDA-illesztőprogramokat telepíti vagy frissíti a disztribúcióhoz.
Feljegyzés
Az eredeti NC-sorozatú termékváltozatú virtuális gépek legújabb támogatott CUDA-illesztőprogramjai jelenleg 470.82.01-es verzióban érhetőek el. A későbbi illesztőverziók nem támogatottak a K80-kártyákon az NC-ben.
Feljegyzés
Az Azure NVads A10 v5 virtuális gépek csak a GRID 14.1(510.73) vagy újabb illesztőprogram-verziókat támogatják. Az A10 termékváltozat vGPU-illesztője egy egységes illesztőprogram, amely támogatja a grafikus és számítási számítási feladatokat is.
Tipp.
A manuális CUDA-illesztőprogram linuxos virtuális gépeken történő telepítésének alternatívájaként üzembe helyezhet egy Azure Adattudomány virtuálisgép-lemezképet. Az Ubuntu 16.04 LTS DSVM kiadása előre telepíti az NVIDIA CUDA illesztőprogramokat, a CUDA mély neurális hálózati könyvtárat és más eszközöket.
NVIDIA GRID-illesztőprogramok
A Microsoft újra terjeszti az NVIDIA GRID illesztőprogram-telepítőit a virtuális munkaállomásként vagy virtuális alkalmazásokhoz használt NV és NVv3 sorozatú virtuális gépekhez. Csak ezeket a GRID-illesztőprogramokat telepítse azure NV-beli virtuális gépekre, csak az alábbi táblázatban felsorolt operációs rendszerekre. Ezek az illesztőprogramok magukban foglalják a GRID virtuális GPU-szoftverek licencelését az Azure-ban. Nem kell nvidia vGPU szoftverlicenc-kiszolgálót beállítania.
Az Azure által újraterjesztett GRID-illesztőprogramok nem működnek a legtöbb nem NV sorozatú virtuális gépen, például NC, NCv2, NCv3, ND és NDv2 sorozatú virtuális gépeken, de az NCasT4v3 sorozaton működik.
Az adott vGPU- és illesztőprogram-ágverziókkal kapcsolatos további információkért látogasson el az NVIDIA webhelyére.
Disztribúció | Illesztő |
---|---|
Ubuntu 20.04 LTS, 22.04 LTS Red Hat Enterprise Linux 7.9, 8.6, 8.8, 8.9 SUSE Linux Enterprise Server 15 SP2, 12 SP2,12 SP5 Rocky Linux 8.4 |
NVIDIA vGPU 16.5, R535 illesztőág (.exe) NVIDIA vGPU 16.3, R535-ös illesztőág (.exe) |
Feljegyzés
Az Azure NVads A10 v5 virtuális gépek esetében azt javasoljuk, hogy az ügyfelek mindig a legújabb illesztőprogram-verzión legyenek. A legújabb NVIDIA fő illesztőág(n) csak az előző főággal (n-1) való kompatibilitás. Például a vGPU 17.x visszamenőlegesen kompatibilis csak a vGPU 16.x-szel. Az n-2 vagy annál kisebb virtuális gépeken illesztőprogram-hibák léphetnek fel, amikor a legújabb meghajtóágat az Azure-gazdagépekre vezetik be.
NVs_v3 virtuális gépek csak a vGPU 16-os vagy alacsonyabb illesztőprogram-verziót támogatják.
Látogasson el a GitHubra az összes korábbi Nvidia GRID-illesztő hivatkozás teljes listájához.
Figyelmeztetés
A külső gyártótól származó szoftverek Red Hat termékekre történő telepítése befolyásolhatja a Red Hat támogatási feltételeit. Tekintse meg a vonatkozó cikket a Red Hat tudásbázisában.
CUDA-illesztőprogramok telepítése N sorozatú virtuális gépekre
Az alábbi lépésekkel telepítheti a CUDA-illesztőprogramokat az NVIDIA CUDA eszközkészletből N sorozatú virtuális gépekre.
A C és c++ fejlesztők igény szerint telepíthetik a teljes eszközkészletet GPU-gyorsított alkalmazások létrehozásához. További információkért tekintse meg a CUDA telepítési útmutatóját.
A CUDA-illesztőprogramok telepítéséhez hozzon létre egy SSH-kapcsolatot az egyes virtuális gépekhez. Annak ellenőrzéséhez, hogy a rendszer rendelkezik-e CUDA-kompatibilis GPU-val, futtassa a következő parancsot:
lspci | grep -i NVIDIA
A kimenet hasonló az alábbi példához (nvidia Tesla K80-kártyát mutat):
Az lspci felsorolja a virtuális gépen lévő PCIe-eszközöket, beleértve az InfiniBand hálózati adaptert és gpu-kat, ha vannak ilyenek. Ha az lspci nem tér vissza sikeresen, előfordulhat, hogy telepítenie kell a LIS-t a CentOS/RHEL rendszerre.
Ezután futtassa a disztribúcióra vonatkozó telepítési parancsokat.
Ubuntu
Az Ubuntu nvidia által védett illesztőprogramokat tartalmaz. Ezek az illesztőprogramok közvetlenül az NVIDIA-ból származnak, és egyszerűen az Ubuntu csomagolja őket, hogy a rendszer automatikusan felügyelhesse őket. Az illesztőprogramok letöltése és telepítése egy másik forrásból hibás rendszerhez vezethet. Ezenkívül a külső illesztőprogramok telepítéséhez további lépésekre van szükség a TrustedLaunch és a Biztonságos rendszerindítás funkcióval rendelkező virtuális gépeken. Megkövetelik a felhasználótól, hogy adjon hozzá egy új géptulajdonosi kulcsot a rendszerindításhoz. Az Ubuntu illesztőprogramjait a Canonical írta alá, és a Biztonságos rendszerindítással fog működni.
Telepítse a
ubuntu-drivers
segédprogramot:sudo apt update && sudo apt install -y ubuntu-drivers-common
Telepítse a legújabb NVIDIA-illesztőprogramokat:
sudo ubuntu-drivers install
Indítsa újra a virtuális gépet a GPU-illesztőprogram telepítése után.
Töltse le és telepítse a CUDA eszközkészletet az NVIDIA-ból:
Feljegyzés
A példa az Ubuntu 24.04 LTS CUDA csomagútvonalát mutatja be. Cserélje le a használni kívánt verzióra vonatkozó elérési utat.
Látogasson el az NVIDIA letöltőközpontba vagy az NVIDIA CUDA-erőforrások oldalára az egyes verziókhoz tartozó teljes elérési úthoz.
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb sudo apt install -y ./cuda-keyring_1.1-1_all.deb sudo apt update sudo apt -y install cuda-toolkit-12-5
A telepítés több percet is igénybe vehet.
A telepítés befejezése után indítsa újra a virtuális gépet:
sudo reboot
Ellenőrizze, hogy a GPU megfelelően van-e felismerve (újraindítás után):
nvidia-smi
NVIDIA-illesztőprogramok frissítései
Javasoljuk, hogy az üzembe helyezés után rendszeresen frissítse az NVIDIA-illesztőprogramokat.
sudo apt update
sudo apt full-upgrade
CentOS vagy Red Hat Enterprise Linux
Frissítse a kernelt (ajánlott). Ha úgy dönt, hogy nem frissíti a kernelt, győződjön meg arról, hogy a rendszermag verziói
kernel-devel
ésdkms
azok megfelelnek a kernelnek.sudo yum install kernel kernel-tools kernel-headers kernel-devel sudo reboot
Telepítse a Legújabb Linux Integration Servicest a Hyper-V-hez és az Azure-hoz. Ellenőrizze, hogy szükség van-e LIS-ra az lspci eredményeinek ellenőrzésével. Ha az összes GPU-eszköz a várt módon van felsorolva, a LIS telepítése nem szükséges.
A LIS a Red Hat Enterprise Linux, a CentOS és az Oracle Linux Red Hat Kompatibilis Kernel 5.2-5.11, 6.0-6.10 és 7.0-7.7 rendszerekre alkalmazható. További részletekért tekintse meg a Linux Integration Services dokumentációját . Hagyja ki ezt a lépést, ha a CentOS/RHEL 7.8 (vagy újabb verziók) használatát tervezi, mivel ezekhez a verziókhoz már nincs szükség LIS-re.
wget https://aka.ms/lis tar xvzf lis cd LISISO sudo ./install.sh sudo reboot
Csatlakozzon újra a virtuális géphez, és folytassa a telepítést a következő parancsokkal:
sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo sudo yum clean all sudo yum -y install nvidia-driver-latest-dkms cuda-drivers
A telepítés több percet is igénybe vehet.
Feljegyzés
Látogasson el a Fedora és az Nvidia CUDA adattárba , és válassza ki a használni kívánt CentOS- vagy RHEL-verzióhoz megfelelő csomagot.
A CentOS 8-nak és az RHEL 8-nak például a következő lépésekre van szüksége.
sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo yum install dkms
sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo -O /etc/yum.repos.d/cuda-rhel8.repo
sudo yum install cuda-drivers
A teljes CUDA-eszközkészlet opcionális telepítéséhez írja be a következőt:
sudo yum install cuda
Feljegyzés
Ha hibaüzenet jelenik meg az olyan hiányzó csomagokról, mint a vulkan-filesystem, akkor lehet, hogy szerkesztenie kell a /etc/yum.repos.d/rh-cloud fájlt, keresse meg az opcionális rpm-eket, és állítsa be az 1 értéket
Indítsa újra a virtuális gépet, és ellenőrizze a telepítést.
Illesztőprogram telepítésének ellenőrzése
A GPU-eszköz állapotának lekérdezéséhez az SSH-t a virtuális gépre, és futtassa az nvidia-smi parancssori segédprogramot az illesztőprogrammal együtt.
Ha az illesztőprogram telepítve van, az Nvidia SMI 0%-ként sorolja fel a GPU-Util-t , amíg gpu-számítási feladatot nem futtat a virtuális gépen. Előfordulhat, hogy az illesztőprogram verziója és a GPU adatai eltérnek a megjelenítettektől.
RDMA hálózati kapcsolat
Az RDMA hálózati kapcsolat engedélyezhető RDMA-kompatibilis N sorozatú virtuális gépeken, például ugyanazon rendelkezésre állási csoportban vagy virtuálisgép-méretezési csoportban üzembe helyezett NC24r esetén. Az RDMA-hálózat támogatja a Message Passing Interface (MPI) forgalmat az Intel MPI 5.x vagy újabb verzióval futó alkalmazások esetében:
Disztribúciók
RdMA-kompatibilis N sorozatú virtuális gépek üzembe helyezése az Azure Marketplace egyik rendszerképéből, amely támogatja az RDMA-kapcsolatot N sorozatú virtuális gépeken:
Ubuntu 16.04 LTS – RDMA-illesztőprogramok konfigurálása a virtuális gépen, és regisztráljon az Intelben az Intel MPI letöltéséhez:
A dapl, rdmacm, ibverbs és mlx4 telepítése
sudo apt-get update sudo apt-get install libdapl2 libmlx4-1
A /etc/waagent.conf fájlban engedélyezze az RDMA-t az alábbi konfigurációs sorok kibontásával. A fájl szerkesztéséhez gyökérszintű hozzáférésre van szüksége.
OS.EnableRDMA=y OS.UpdateRdmaDriver=y
Adja hozzá vagy módosítsa a következő memóriabeállításokat a KB-ban a /etc/security/limits.conf fájlban. A fájl szerkesztéséhez gyökérszintű hozzáférésre van szüksége. Tesztelési célokra korlátlanra állíthatja a memlockot. Például:
<User or group name> hard memlock unlimited
<User or group name> hard memlock <memory required for your application in KB> <User or group name> soft memlock <memory required for your application in KB>
Telepítse az Intel MPI-kódtárat. Vásárolja meg és töltse le a kódtárat az Intelből, vagy töltse le az ingyenes próbaverziót.
wget http://registrationcenter-download.intel.com/akdlm/irc_nas/tec/9278/l_mpi_p_5.1.3.223.tgz
Csak az Intel MPI 5.x futtatókörnyezetek támogatottak.
A telepítési lépésekért tekintse meg az Intel MPI-kódtár telepítési útmutatóját.
Engedélyezze a ptrace-t a nem gyökérszintű nem hibakereső folyamatokhoz (az Intel MPI legújabb verzióihoz szükséges).
echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope
CentOS-alapú 7.4 HPC - RDMA-illesztőprogramok és Intel MPI 5.1 telepítve vannak a virtuális gépen.
CentOS-alapú HPC – CentOS-HPC 7.6 és újabb (olyan termékváltozatokhoz, ahol az InfiniBand támogatott az SR-IOV-n keresztül). Ezek a képek mellanox OFED- és MPI-kódtárakat telepítettek előre.
Feljegyzés
A CX3-Pro kártyák csak a Mellanox OFED LTS-verzióin keresztül támogatottak. Használja az LTS Mellanox OFED-verziót (4.9-0.1.7.0) az N sorozatú, ConnectX3-Pro kártyákkal rendelkező virtuális gépeken. További információ: Linux-illesztőprogramok.
A legújabb Azure Marketplace HPC-rendszerképek közül néhány mellanox OFED 5.1 és újabb verzióval rendelkezik, amelyek nem támogatják a ConnectX3-Pro kártyákat. Ellenőrizze a Mellanox OFED verziót a HPC-rendszerképben, mielőtt ConnectX3-Pro kártyákkal rendelkező virtuális gépeken használva használták volna.
Az alábbi képek a ConnectX3-Pro kártyákat támogató legújabb CentOS-HPC-képek:
- OpenLogic:CentOS-HPC:7.6:7.6.2020062900
- OpenLogic:CentOS-HPC:7_6gen2:7.6.2020062901
- OpenLogic:CentOS-HPC:7.7:7.7.2020062600
- OpenLogic:CentOS-HPC:7_7-gen2:7.7.2020062601
- OpenLogic:CentOS-HPC:8_1:8.1.2020062400
- OpenLogic:CentOS-HPC:8_1-gen2:8.1.2020062401
GRID-illesztőprogramok telepítése NV vagy NVv3 sorozatú virtuális gépekre
Ha NVIDIA GRID-illesztőprogramokat szeretne telepíteni NV vagy NVv3 sorozatú virtuális gépekre, hozzon létre egy SSH-kapcsolatot az egyes virtuális gépekhez, és kövesse a Linux-disztribúció lépéseit.
Ubuntu
Futtassa a következő parancsot:
lspci
. Ellenőrizze, hogy az NVIDIA M60 kártya vagy kártyák PCI-eszközként láthatók-e.Telepítse a frissítéseket.
sudo apt-get update sudo apt-get upgrade -y sudo apt-get dist-upgrade -y sudo apt-get install build-essential ubuntu-desktop -y sudo apt-get install linux-azure -y
Tiltsa le a Nouveau kernelillesztőt, amely nem kompatibilis az NVIDIA-illesztőprogrammal. (Csak NV vagy NVv2 rendszerű virtuális gépeken használja az NVIDIA-illesztőt.) Az illesztőprogram letiltásához hozzon létre egy fájlt
/etc/modprobe.d
a következő tartalommal:nouveau.conf
blacklist nouveau blacklist lbm-nouveau
Indítsa újra a virtuális gépet, és csatlakozzon újra. Kilépés az X kiszolgálóról:
sudo systemctl stop lightdm.service
Töltse le és telepítse a GRID-illesztőt:
wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272 chmod +x NVIDIA-Linux-x86_64-grid.run sudo ./NVIDIA-Linux-x86_64-grid.run
Amikor a rendszer megkérdezi, hogy szeretné-e futtatni az nvidia-xconfig segédprogramot az X konfigurációs fájl frissítéséhez, válassza az Igen lehetőséget.
A telepítés befejezése után másolja a /etc/nvidia/gridd.conf.template fájlt egy új fájlra gridd.conf helyre /etc/nvidia/
sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
Adja hozzá a következőket a következőhöz
/etc/nvidia/gridd.conf
:IgnoreSP=FALSE EnableUI=FALSE
Távolítsa el a következőket
/etc/nvidia/gridd.conf
, ha az jelen van:FeatureType=0
Indítsa újra a virtuális gépet, és ellenőrizze a telepítést.
A GRID-illesztő telepítése az Ubuntu-ra a biztonságos rendszerindítás engedélyezésével
A GRID-illesztő telepítési folyamata nem kínál lehetőséget a kernelmodulok összeállításának és telepítésének kihagyására, valamint az aláírt kernelmodulok egy másik forrásának kiválasztására, ezért az aláírt kernelmodulok telepítése után le kell tiltani a biztonságos rendszerindítást Linux rendszerű virtuális gépeken, hogy azokat a GRID-szel együtt használhassák.
CentOS vagy Red Hat Enterprise Linux
Frissítse a kernelt és a DKMS-t (ajánlott). Ha úgy dönt, hogy nem frissíti a kernelt, győződjön meg arról, hogy a kernel verziói
kernel-devel
ésdkms
azok megfelelőek.sudo yum update sudo yum install kernel-devel sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm sudo yum install dkms sudo yum install hyperv-daemons
Tiltsa le a Nouveau kernelillesztőt, amely nem kompatibilis az NVIDIA-illesztőprogrammal. (Csak NV vagy NV3 rendszerű virtuális gépeken használja az NVIDIA-illesztőt.) Ehhez hozzon létre egy fájlt
/etc/modprobe.d
a következő tartalommal:nouveau.conf
blacklist nouveau blacklist lbm-nouveau
Indítsa újra a virtuális gépet, csatlakozzon újra, és telepítse a Legújabb Linux Integration Servicest a Hyper-V-hez és az Azure-hoz. Ellenőrizze, hogy szükség van-e LIS-ra az lspci eredményeinek ellenőrzésével. Ha az összes GPU-eszköz a várt módon van felsorolva, a LIS telepítése nem szükséges.
Hagyja ki ezt a lépést, ha a CentOS/RHEL 7.8 (vagy újabb verziók) használatát tervezi, mivel ezekhez a verziókhoz már nincs szükség LIS-re.
wget https://aka.ms/lis tar xvzf lis cd LISISO sudo ./install.sh sudo reboot
Csatlakozzon újra a virtuális géphez, és futtassa a
lspci
parancsot. Ellenőrizze, hogy az NVIDIA M60 kártya vagy kártyák PCI-eszközként láthatók-e.Töltse le és telepítse a GRID-illesztőt:
wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272 chmod +x NVIDIA-Linux-x86_64-grid.run sudo ./NVIDIA-Linux-x86_64-grid.run
Amikor a rendszer megkérdezi, hogy szeretné-e futtatni az nvidia-xconfig segédprogramot az X konfigurációs fájl frissítéséhez, válassza az Igen lehetőséget.
A telepítés befejezése után másolja a /etc/nvidia/gridd.conf.template fájlt egy új fájlra gridd.conf helyre /etc/nvidia/
sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
Két sor hozzáadása a következőhöz
/etc/nvidia/gridd.conf
:IgnoreSP=FALSE EnableUI=FALSE
Távolítsa el az egyik sort
/etc/nvidia/gridd.conf
, ha az jelen van:FeatureType=0
Indítsa újra a virtuális gépet, és ellenőrizze a telepítést.
Illesztőprogram telepítésének ellenőrzése
A GPU-eszköz állapotának lekérdezéséhez az SSH-t a virtuális gépre, és futtassa az nvidia-smi parancssori segédprogramot az illesztőprogrammal együtt.
Ha az illesztőprogram telepítve van, az Nvidia SMI 0%-ként sorolja fel a GPU-Util-t , amíg gpu-számítási feladatot nem futtat a virtuális gépen. Előfordulhat, hogy az illesztőprogram verziója és a GPU adatai eltérnek a megjelenítettektől.
X11-kiszolgáló
Ha X11-kiszolgálóra van szüksége egy NV vagy NVv2 virtuális gép távoli kapcsolataihoz, akkor az x11vnc használata ajánlott, mert lehetővé teszi a grafikus elemek hardveres gyorsítását. Az M60-eszköz BusID azonosítóját manuálisan kell hozzáadni az X11 konfigurációs fájlhoz (általában etc/X11/xorg.conf
). Adjon hozzá egy "Device"
, a következőhöz hasonló szakaszt:
Section "Device"
Identifier "Device0"
Driver "nvidia"
VendorName "NVIDIA Corporation"
BoardName "Tesla M60"
BusID "PCI:0@your-BusID:0:0"
EndSection
Emellett frissítse a szakaszt "Screen"
az eszköz használatára.
A decimális BusID a futtatással
nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'
A BusID változhat, ha egy virtuális gépet újratelepítenek vagy újraindítanak. Ezért érdemes lehet létrehozni egy szkriptet, amely frissíti a BusID-t az X11 konfigurációban a virtuális gép újraindításakor. Hozzon létre például egy szkriptet busidupdate.sh
(vagy egy másik választott nevet) az alábbihoz hasonló tartalommal:
#!/bin/bash
XCONFIG="/etc/X11/xorg.conf"
OLDBUSID=`awk '/BusID/{gsub(/"/, "", $2); print $2}' ${XCONFIG}`
NEWBUSID=`nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'`
if [[ "${OLDBUSID}" == "${NEWBUSID}" ]] ; then
echo "NVIDIA BUSID not changed - nothing to do"
else
echo "NVIDIA BUSID changed from \"${OLDBUSID}\" to \"${NEWBUSID}\": Updating ${XCONFIG}"
sed -e 's|BusID.*|BusID '\"${NEWBUSID}\"'|' -i ${XCONFIG}
fi
Ezután hozzon létre egy bejegyzést a frissítési szkripthez /etc/rc.d/rc3.d
, hogy a szkript gyökérként legyen meghívva a rendszerindításkor.
Hibaelhárítás
- Az adatmegőrzési módot
nvidia-smi
úgy állíthatja be, hogy a parancs kimenete gyorsabb legyen, ha kártyákat kell lekérdeznie. Az adatmegőrzési mód beállításához hajtsa végre a következőtnvidia-smi -pm 1
: . Vegye figyelembe, hogy ha a virtuális gép újraindul, a módbeállítás megszűnik. Az indításkor végrehajtandó módbeállítást mindig szkriptelheti. - Ha frissítette az NVIDIA CUDA-illesztőprogramokat a legújabb verzióra, és úgy találja, hogy az RDMA-kapcsolat már nem működik, telepítse újra az RDMA-illesztőprogramokat a kapcsolat újbóli létrehozásához.
- A LIS telepítése során, ha egy bizonyos CentOS/RHEL OS-verzió (vagy kernel) nem támogatott a LIS esetében, a rendszer "Nem támogatott kernelverzió" hibaüzenetet ad. Jelentse ezt a hibát az operációs rendszer és a kernelverziók mellett.
- Ha a gpu ECC-hibái megszakítják a feladatokat (javítható vagy javíthatatlan), először ellenőrizze, hogy a GPU megfelel-e az Nvidia ECC-hibákra vonatkozó RMA-feltételeinek. Ha a GPU jogosult az RMA használatára, forduljon az ügyfélszolgálathoz a szolgáltatással kapcsolatban; ellenkező esetben indítsa újra a virtuális gépet a GPU újraaktiválásához az itt leírtak szerint. Kevésbé invazív módszerek, például
nvidia-smi -r
nem működnek az Azure-ban üzembe helyezett virtualizálási megoldással.
Következő lépések
- Linux rendszerű virtuálisgép-rendszerképek a telepített NVIDIA-illesztőprogramokkal való rögzítéséhez tekintse meg a Linux rendszerű virtuális gépek általánosítását és rögzítését ismertető témakört.