Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Figyelmeztetés
Ez a cikk az End Of Life (EOL) állapotú Linux-disztribúcióra, a CentOS-ra hivatkozik. Kérjük, vegye figyelembe a használatát, és ennek megfelelően tervezze meg. További információ: CentOS End Of Life útmutató.
A következőkre vonatkozik: ✔️ Linux rendszerű virtuális gépek
Az NVIDIA GPU-k által támogatott Azure N sorozatú virtuális gépek GPU-képességeinek kihasználásához telepítenie kell az NVIDIA GPU-illesztőprogramokat. Az NVIDIA GPU-illesztőbővítmény telepíti a megfelelő NVIDIA CUDA- vagy GRID-illesztőprogramokat egy N sorozatú virtuális gépen. Telepítse vagy kezelje a bővítményt az Azure Portalon vagy olyan eszközökkel, mint az Azure CLI vagy az Azure Resource Manager-sablonok. A támogatott disztribúciókkal és üzembe helyezési lépésekkel kapcsolatban tekintse meg az NVIDIA GPU-illesztőprogram-bővítmény dokumentációját .
Ha úgy dönt, hogy manuálisan telepíti az NVIDIA GPU-illesztőprogramokat, ez a cikk támogatott disztribúciókat, illesztőprogramokat, valamint telepítési és ellenőrzési lépéseket tartalmaz. A manuális illesztőprogram-beállítási információk Windows rendszerű virtuális gépekhez is elérhetők.
Az N sorozatú virtuális gépek specifikációiról, a tárolási kapacitásokról és a lemez részleteiről lásd a GPU Linux rendszerű virtuális gépek méretét.
Támogatott disztribúciók és illesztőprogramok
NVIDIA CUDA-illesztőprogramok
A legújabb CUDA-illesztőprogramok és támogatott operációs rendszerekért látogasson el az NVIDIA webhelyére. Győződjön meg arról, hogy a legújabb támogatott CUDA-illesztőprogramokat telepíti vagy frissíti a disztribúcióhoz.
Megjegyzés:
Az eredeti NC sorozatú termékváltozatú virtuális gépek legújabb támogatott CUDA-illesztőprogramja jelenleg 470.82.01. A későbbi illesztőprogram-verziók nem támogatottak az NC-ben lévő K80-kártyákon.
Megjegyzés:
Az Azure NVads A10 v5 virtuális gépek csak a GRID 14.1(510.73) vagy újabb illesztőprogram-verziókat támogatják. Az A10 termékváltozat vGPU-illesztője egy egységes illesztőprogram, amely támogatja a grafikus és számítási számítási feladatokat is.
Figyelmeztetés
A biztonságos rendszerindítást és a vTPM-et le kell tiltani, mert a folyamat lefagy, amikor engedélyezve vannak.
Jótanács
A manuális CUDA-illesztőprogram linuxos virtuális gépeken történő telepítésének alternatívájaként üzembe helyezhet egy Azure Data Science Virtual Machine-lemezképet. Az Ubuntu 16.04 LTS DSVM-kiadása előtelepíti az NVIDIA CUDA-illesztőprogramokat, a CUDA mély neurális hálózati könyvtárat és más eszközöket.
NVIDIA GRID-illesztőprogramok
Megjegyzés:
A vGPU18 a NCasT4_v3 sorozathoz érhető el. Amint a vGPU18 elérhetővé válik a NVadsA10_v5-sorozathoz, frissítést biztosítunk.
A Microsoft újra terjeszti az NVIDIA GRID illesztőprogram-telepítőit a virtuális munkaállomásként vagy virtuális alkalmazásokhoz használt NV és NVv3 sorozatú virtuális gépekhez. Csak ezeket a GRID-illesztőprogramokat telepítse azure NV-beli virtuális gépekre, csak az alábbi táblázatban felsorolt operációs rendszerekre. Ezek az illesztőprogramok magukban foglalják a GRID virtuális GPU-szoftverek licencelését az Azure-ban. Nem kell nvidia vGPU szoftverlicenc-kiszolgálót beállítania.
Az Azure által újraterjesztett GRID-illesztőprogramok nem működnek a legtöbb nem NV sorozatú virtuális gépen, például NC, NCv2, NCv3, ND és NDv2 sorozatú virtuális gépeken, de az NCasT4v3 sorozaton működik.
Az adott vGPU- és illesztőprogram-ágverziókkal kapcsolatos további információkért látogasson el az NVIDIA webhelyére.
Disztribúció | Sofőr |
---|---|
Ubuntu 20.04 LTS, 22.04 LTS, 24.04 LTS Red Hat Enterprise Linux 8.6, 8.8, 8.9, 8.10, 9.0, 9.2, 9.3, 9.4, 9.5 SUSE Linux Enterprise Server 15 SP2, 12 SP2,12 SP5 Rocky Linux 8.4 |
NVIDIA vGPU 17.55, R550 illesztőág NVIDIA vGPU 17.55, R550 illesztőág |
Megjegyzés:
Az Azure NVads A10 v5 virtuális gépek esetében azt javasoljuk, hogy az ügyfelek mindig a legújabb illesztőprogram-verzión legyenek. A legújabb NVIDIA fő illesztőprogram ága (n) csak az előző fő ággal (n-1) kompatibilis. Például a vGPU 17.x visszamenőlegesen kompatibilis csak a vGPU 16.x-szel. Az n-2 vagy annál kisebb virtuális gépeken illesztőprogram-hibák léphetnek fel, amikor a legújabb meghajtóágat az Azure-gazdagépekre vezetik be.
NVs_v3 virtuális gépek csak a vGPU 16-os vagy alacsonyabb illesztőprogram-verziót támogatják.
A GRID Driver 17.3 jelenleg csak NCasT4_v3 virtuális gépek sorozatát támogatja. Az illesztőprogram használatához töltse le és telepítse manuálisan a GRID Driver 17.3-at .
A GRID-illesztőprogramok problémákat tapasztalnak az Azure Kernel 6.11-ben való telepítéssel kapcsolatban. A letiltás feloldásához csökkentse a kernel verzióját a 6.8-ra. További információ: Ismert problémák.
Látogasson el a GitHubra az összes korábbi Nvidia GRID-illesztő hivatkozás teljes listájához.
Figyelmeztetés
A harmadik féltől származó szoftverek telepítése a Red Hat termékekre hatással lehet a Red Hat támogatási feltételeire. Lásd a Red Hat Tudásbázis cikkét.
CUDA-illesztőprogramok telepítése N sorozatú virtuális gépekre
Az alábbi lépésekkel telepítheti a CUDA-illesztőprogramokat az NVIDIA CUDA eszközkészletből N sorozatú virtuális gépekre.
A C és c++ fejlesztők igény szerint telepíthetik a teljes eszközkészletet GPU-gyorsított alkalmazások létrehozásához. További információkért tekintse meg a CUDA telepítési útmutatóját.
A CUDA-illesztőprogramok telepítéséhez hozzon létre egy SSH-kapcsolatot az egyes virtuális gépekhez. Annak ellenőrzéséhez, hogy a rendszer rendelkezik-e CUDA-kompatibilis GPU-val, futtassa a következő parancsot:
lspci | grep -i NVIDIA
A kimenet hasonló az alábbi példához (nvidia Tesla K80-kártyát mutat):
Az lspci felsorolja a virtuális gépen lévő PCIe-eszközöket, beleértve az InfiniBand hálózati adaptert és gpu-kat, ha vannak ilyenek. Ha az lspci nem tér vissza sikeresen, előfordulhat, hogy telepítenie kell a LIS-t a CentOS/RHEL rendszerre.
Ezután futtassa a disztribúcióra vonatkozó telepítési parancsokat.
Ubuntu
Az Ubuntu NVIDIA tulajdonosi jogú illesztőprogramokat tartalmaz. Ezek az illesztőprogramok közvetlenül az NVIDIA-ból származnak, és egyszerűen az Ubuntu csomagolja őket, hogy a rendszer automatikusan felügyelhesse őket. Az illesztőprogramok letöltése és telepítése egy másik forrásból hibás rendszerhez vezethet. Ezenkívül a külső illesztőprogramok telepítéséhez további lépésekre van szükség a TrustedLaunch és a Biztonságos rendszerindítás funkcióval rendelkező virtuális gépeken. Megkövetelik a felhasználótól, hogy adjon hozzá egy új géptulajdonosi kulcsot a rendszerindításhoz. Az Ubuntu illesztőprogramjait a Canonical írta alá, és a Biztonságos rendszerindítással fog működni.
Telepítse a
ubuntu-drivers
segédprogramot:sudo apt update && sudo apt install -y ubuntu-drivers-common
Telepítse a legújabb NVIDIA-illesztőprogramokat:
sudo ubuntu-drivers install
Indítsa újra a virtuális gépet a GPU-illesztőprogram telepítése után:
sudo reboot
Töltse le és telepítse a CUDA eszközkészletet az NVIDIA-ból:
Megjegyzés:
A példa az Ubuntu 24.04 LTS CUDA csomagútvonalát mutatja be. Cserélje le a használni kívánt verzióra vonatkozó elérési utat.
Látogasson el az NVIDIA letöltőközpontba vagy az NVIDIA CUDA-erőforrások oldalára az egyes verziókhoz tartozó teljes elérési úthoz.
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb sudo apt install -y ./cuda-keyring_1.1-1_all.deb sudo apt update sudo apt -y install cuda-toolkit-12-5
A telepítés több percet is igénybe vehet.
A telepítés befejezése után indítsa újra a virtuális gépet:
sudo reboot
Ellenőrizze, hogy a GPU megfelelően van-e felismerve (újraindítás után):
nvidia-smi
NVIDIA-illesztőprogramok frissítései
Javasoljuk, hogy az üzembe helyezés után rendszeresen frissítse az NVIDIA-illesztőprogramokat.
sudo apt update
sudo apt full-upgrade
CentOS vagy Red Hat Enterprise Linux
Frissítse a kernelt (ajánlott). Ha úgy dönt, hogy nem frissíti a kernelt, győződjön meg arról, hogy a rendszermag verziói
kernel-devel
ésdkms
azok megfelelnek a kernelnek.sudo yum install kernel kernel-tools kernel-headers kernel-devel sudo reboot
Telepítse a legújabb Linux Integration Servicest Hyper-V és Azure-hoz. Ellenőrizze, hogy szükség van-e LIS-ra az lspci eredményeinek ellenőrzésével. Ha az összes GPU-eszköz a várt módon van felsorolva, a LIS telepítése nem szükséges.
A LIS a Red Hat Enterprise Linux, a CentOS és az Oracle Linux Red Hat Kompatibilis Kernel 5.2-5.11, 6.0-6.10 és 7.0-7.7 rendszerekre alkalmazható. További részletekért tekintse meg a Linux Integration Services dokumentációját . Hagyja ki ezt a lépést, ha a CentOS/RHEL 7.8 (vagy újabb verziók) használatát tervezi, mivel ezekhez a verziókhoz már nincs szükség LIS-re.
wget https://aka.ms/lis tar xvzf lis cd LISISO sudo ./install.sh sudo reboot
Csatlakozzon újra a virtuális géphez, és folytassa a telepítést a következő parancsokkal:
sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo sudo yum clean all sudo yum -y install nvidia-driver-latest-dkms cuda-drivers
A telepítés több percet is igénybe vehet.
Megjegyzés:
Látogasson el a Fedora és az Nvidia CUDA adattárba , és válassza ki a használni kívánt CentOS- vagy RHEL-verzióhoz megfelelő csomagot.
A CentOS 8-nak és az RHEL 8-nak például a következő lépésekre van szüksége.
sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo yum install dkms
sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo -O /etc/yum.repos.d/cuda-rhel8.repo
sudo yum install cuda-drivers
A teljes CUDA-eszközkészlet opcionális telepítéséhez írja be a következőt:
sudo yum install cuda
Megjegyzés:
Ha hibaüzenet jelenik meg az olyan hiányzó csomagokról, mint a vulkan-filesystem, akkor lehet, hogy szerkesztenie kell a /etc/yum.repos.d/rh-cloud fájlt, keresse meg az opcionális rpm-eket, és állítsa be az 1 értéket
Indítsa újra a virtuális gépet, és ellenőrizze a telepítést.
Illesztőprogram telepítésének ellenőrzése
A GPU-eszköz állapotának lekérdezéséhez az SSH-t a virtuális gépre, és futtassa az nvidia-smi parancssori segédprogramot az illesztőprogrammal együtt.
Ha az illesztőprogram telepítve van, az Nvidia SMI 0% sorolja fel a GPU-Util-t, amíg gpu-számítási feladatot nem futtat a virtuális gépen. Előfordulhat, hogy az illesztőprogram verziója és a GPU adatai eltérnek a megjelenítettektől.
RDMA hálózati kapcsolat
Az RDMA hálózati kapcsolat engedélyezhető RDMA-kompatibilis N sorozatú virtuális gépeken, például ugyanazon rendelkezésre állási csoportban vagy virtuálisgép-méretezési csoportban üzembe helyezett NC24r esetén. Az RDMA-hálózat támogatja a Message Passing Interface (MPI) forgalmat az Intel MPI 5.x vagy újabb verzióval futó alkalmazások esetében:
Disztribúciók
RdMA-kompatibilis N sorozatú virtuális gépek üzembe helyezése az Azure Marketplace egyik rendszerképéből, amely támogatja az RDMA-kapcsolatot N sorozatú virtuális gépeken:
Ubuntu 16.04 LTS – RDMA-illesztőprogramok konfigurálása a virtuális gépen, és regisztráljon az Intelben az Intel MPI letöltéséhez:
A dapl, rdmacm, ibverbs és mlx4 telepítése
sudo apt-get update sudo apt-get install libdapl2 libmlx4-1
A /etc/waagent.conf fájlban engedélyezze az RDMA-t az alábbi konfigurációs sorok kibontásával. A fájl szerkesztéséhez gyökérszintű hozzáférésre van szüksége.
OS.EnableRDMA=y OS.UpdateRdmaDriver=y
Adja hozzá vagy módosítsa a következő memóriabeállításokat a KB-ban a /etc/security/limits.conf fájlban. A fájl szerkesztéséhez gyökérszintű hozzáférésre van szüksége. Tesztelési célokra korlátlanra állíthatja a memlockot. Például:
<User or group name> hard memlock unlimited
.<User or group name> hard memlock <memory required for your application in KB> <User or group name> soft memlock <memory required for your application in KB>
Telepítse az Intel MPI-kódtárat. Vásárolja meg és töltse le a kódtárat az Intelből, vagy töltse le az ingyenes próbaverziót.
wget http://registrationcenter-download.intel.com/akdlm/irc_nas/tec/9278/l_mpi_p_5.1.3.223.tgz
Csak az Intel MPI 5.x futtatókörnyezetek támogatottak.
A telepítési lépésekért tekintse meg az Intel MPI-kódtár telepítési útmutatóját.
Engedélyezze a ptrace-t a nem gyökérszintű nem hibakereső folyamatokhoz (az Intel MPI legújabb verzióihoz szükséges).
echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope
CentOS-alapú 7.4 HPC - RDMA-illesztőprogramok és Intel MPI 5.1 telepítve vannak a virtuális gépen.
CentOS-alapú HPC – 7.6-os CentOS-HPC és újabb (olyan termékváltozatokhoz, ahol az InfiniBand támogatott a SR-IOV-es SKU-kon). Ezeken a képeken előre telepítve vannak a Mellanox OFED- és MPI-könyvtárak.
Megjegyzés:
CX3-Pro kártyák csak a Mellanox OFED LTS-verzióival támogatottak. Használja az LTS Mellanox OFED-verziót (4.9-0.1.7.0) az N sorozatú virtuális gépeken ConnectX3-Pro kártyákkal. További információ: Linux-illesztőprogramok.
A legújabb Azure Marketplace HPC-rendszerképek közül néhány mellanox OFED 5.1 és újabb verzióval rendelkezik, amelyek nem támogatják ConnectX3-Pro kártyákat. Ellenőrizze a Mellanox OFED-verziót a HPC-lemezképben, mielőtt ConnectX3-Pro kártyákkal rendelkező virtuális gépeken használja.
Az alábbi képek a ConnectX3-Pro kártyákat támogató legújabb CentOS-HPC képek:
- OpenLogic:CentOS-HPC:7.6:7.6.2020062900
- OpenLogic:CentOS-HPC:7_6gen2:7.6.2020062901
- OpenLogic:CentOS-HPC:7.7:7.7.2020062600
- OpenLogic:CentOS-HPC:7_7-gen2:7.7.2020062601
- OpenLogic:CentOS-HPC:8_1:8.1.2020062400
- OpenLogic:CentOS-HPC:8_1-gen2:8.1.2020062401
GRID-illesztőprogramok telepítése NV vagy NVv3 sorozatú virtuális gépekre
Ha NVIDIA GRID-illesztőprogramokat szeretne telepíteni NV vagy NVv3 sorozatú virtuális gépekre, hozzon létre egy SSH-kapcsolatot az egyes virtuális gépekhez, és kövesse a Linux-disztribúció lépéseit.
Ubuntu
Adja ki a
lspci
parancsot. Ellenőrizze, hogy az NVIDIA M60 kártya vagy kártyák PCI-eszközként láthatók-e.Telepítse a frissítéseket.
sudo apt-get update sudo apt-get upgrade -y sudo apt-get dist-upgrade -y sudo apt-get install build-essential ubuntu-desktop -y sudo apt-get install linux-azure -y
Tiltsa le a Nouveau kernelillesztőt, amely nem kompatibilis az NVIDIA-illesztőprogrammal. (Csak NV vagy NVv2 rendszerű virtuális gépeken használja az NVIDIA-illesztőt.) Az illesztőprogram letiltásához hozzon létre egy fájlt
/etc/modprobe.d
a következő tartalommal:nouveau.conf
blacklist nouveau blacklist lbm-nouveau
Indítsa újra a virtuális gépet, és csatlakozzon újra. Kilépés az X kiszolgálóról:
sudo systemctl stop lightdm.service
Töltse le és telepítse a GRID-illesztőt:
wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272 chmod +x NVIDIA-Linux-x86_64-grid.run sudo ./NVIDIA-Linux-x86_64-grid.run
Amikor a rendszer megkérdezi, hogy szeretné-e futtatni az nvidia-xconfig segédprogramot az X konfigurációs fájl frissítéséhez, válassza az Igen lehetőséget.
A telepítés befejezése után másolja a /etc/nvidia/gridd.conf.template fájlt egy új fájlra gridd.conf helyre /etc/nvidia/
sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
Hozzáadás a következőhöz
/etc/nvidia/gridd.conf
:IgnoreSP=FALSE EnableUI=FALSE
Távolítsa el a következőket
/etc/nvidia/gridd.conf
, ha az jelen van:FeatureType=0
Indítsa újra a virtuális gépet, és ellenőrizze a telepítést.
A GRID-illesztő telepítése az Ubuntu-ra a biztonságos rendszerindítás engedélyezésével
A GRID-illesztő telepítési folyamata nem kínál lehetőséget a kernelmodulok összeállításának és telepítésének kihagyására, valamint az aláírt kernelmodulok egy másik forrásának kiválasztására, ezért az aláírt kernelmodulok telepítése után le kell tiltani a biztonságos rendszerindítást Linux rendszerű virtuális gépeken, hogy azokat a GRID-szel együtt használhassák.
CentOS vagy Red Hat Enterprise Linux
Frissítse a kernelt és a DKMS-t (ajánlott). Ha úgy dönt, hogy nem frissíti a kernelt, győződjön meg arról, hogy a
kernel-devel
ésdkms
verziói megfelelőek a kerneléhez.sudo yum update sudo yum install kernel-devel sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm sudo yum install dkms sudo yum install hyperv-daemons
Tiltsa le a Nouveau kernelillesztőt, amely nem kompatibilis az NVIDIA-illesztőprogrammal. (Csak NV vagy NV3 rendszerű virtuális gépeken használja az NVIDIA-illesztőt.) Ehhez hozzon létre egy fájlt
/etc/modprobe.d
a következő tartalommal:nouveau.conf
blacklist nouveau blacklist lbm-nouveau
Indítsa újra a virtuális gépet, csatlakozzon újra, és telepítse a legújabb Linux Integration Servicest a Hyper-V és az Azure számára. Ellenőrizze, hogy szükség van-e LIS-ra az lspci eredményeinek ellenőrzésével. Ha az összes GPU-eszköz a várt módon van felsorolva, a LIS telepítése nem szükséges.
Hagyja ki ezt a lépést, ha a CentOS/RHEL 7.8 (vagy újabb verziók) használatát tervezi, mivel ezekhez a verziókhoz már nincs szükség LIS-re.
wget https://aka.ms/lis tar xvzf lis cd LISISO sudo ./install.sh sudo reboot
Csatlakozzon újra a virtuális géphez, és futtassa a
lspci
parancsot. Ellenőrizze, hogy az NVIDIA M60 kártya vagy kártyák PCI-eszközként láthatók-e.Töltse le és telepítse a GRID-illesztőt:
wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272 chmod +x NVIDIA-Linux-x86_64-grid.run sudo ./NVIDIA-Linux-x86_64-grid.run
Amikor a rendszer megkérdezi, hogy szeretné-e futtatni az nvidia-xconfig segédprogramot az X konfigurációs fájl frissítéséhez, válassza az Igen lehetőséget.
A telepítés befejezése után másolja a /etc/nvidia/gridd.conf.template fájlt egy új fájlra gridd.conf helyre /etc/nvidia/
sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
Két sor hozzáadása a következőhöz
/etc/nvidia/gridd.conf
:IgnoreSP=FALSE EnableUI=FALSE
Távolítsa el az egyik sort
/etc/nvidia/gridd.conf
, ha az jelen van:FeatureType=0
Indítsa újra a virtuális gépet, és ellenőrizze a telepítést.
Illesztőprogram telepítésének ellenőrzése
A GPU-eszköz állapotának lekérdezéséhez az SSH-t a virtuális gépre, és futtassa az nvidia-smi parancssori segédprogramot az illesztőprogrammal együtt.
Ha az illesztőprogram telepítve van, az Nvidia SMI 0% listázni fogja a GPU-Util-t, amíg gpu-számítási feladatot nem futtat a virtuális gépen. Előfordulhat, hogy az illesztőprogram verziója és a GPU adatai eltérnek a megjelenítettektől.
X11-kiszolgáló
Ha X11-kiszolgálóra van szüksége egy NV vagy NVv2 virtuális gép távoli kapcsolataihoz, akkor az x11vnc használata ajánlott, mert lehetővé teszi a grafikus elemek hardveres gyorsítását. Az M60-eszköz BusID azonosítóját manuálisan kell hozzáadni az X11 konfigurációs fájlhoz (általában etc/X11/xorg.conf
). Adjon hozzá egy "Device"
, a következőhöz hasonló szakaszt:
Section "Device"
Identifier "Device0"
Driver "nvidia"
VendorName "NVIDIA Corporation"
BoardName "Tesla M60"
BusID "PCI:0@your-BusID:0:0"
EndSection
Emellett frissítse a(z) "Screen"
szakaszt az eszköz használatához.
A decimális BusID megtalálható a következő futtatásával
nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'
A BusID változhat, ha egy virtuális gépet újratelepítenek vagy újraindítanak. Ezért érdemes lehet létrehozni egy szkriptet, amely frissíti a BusID-t az X11 konfigurációban a virtuális gép újraindításakor. Hozzon létre például egy szkriptet busidupdate.sh
(vagy egy másik választott nevet) az alábbihoz hasonló tartalommal:
#!/bin/bash
XCONFIG="/etc/X11/xorg.conf"
OLDBUSID=`awk '/BusID/{gsub(/"/, "", $2); print $2}' ${XCONFIG}`
NEWBUSID=`nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'`
if [[ "${OLDBUSID}" == "${NEWBUSID}" ]] ; then
echo "NVIDIA BUSID not changed - nothing to do"
else
echo "NVIDIA BUSID changed from \"${OLDBUSID}\" to \"${NEWBUSID}\": Updating ${XCONFIG}"
sed -e 's|BusID.*|BusID '\"${NEWBUSID}\"'|' -i ${XCONFIG}
fi
Ezután hozzon létre egy bejegyzést a frissítési szkriptnél /etc/rc.d/rc3.d
annak érdekében, hogy a szkript rendszergazdaként legyen futtatva a rendszerindításkor.
Hibaelhárítás
- Az adatmegőrzési módot
nvidia-smi
úgy állíthatja be, hogy a parancs kimenete gyorsabb legyen, ha kártyákat kell lekérdeznie. Az adatmegőrzési mód beállításához hajtsa végre a következőtnvidia-smi -pm 1
: . Vegye figyelembe, hogy ha a virtuális gép újraindul, a módbeállítás megszűnik. Az indításkor végrehajtandó módbeállítást mindig szkriptelheti. - Ha frissítette az NVIDIA CUDA-illesztőprogramokat a legújabb verzióra, és úgy találja, hogy az RDMA-kapcsolat már nem működik, telepítse újra az RDMA-illesztőprogramokat a kapcsolat újbóli létrehozásához.
- A LIS telepítése során, ha egy bizonyos CentOS/RHEL OS-verzió (vagy kernel) nem támogatott a LIS esetében, a rendszer "Nem támogatott kernelverzió" hibaüzenetet ad. Jelentse ezt a hibát az operációs rendszer és a kernelverziók mellett.
- Ha a gpu ECC-hibái megszakítják a feladatokat (javítható vagy javíthatatlan), először ellenőrizze, hogy a GPU megfelel-e az Nvidia ECC-hibákra vonatkozó RMA-feltételeinek. Ha a GPU jogosult az RMA használatára, forduljon az ügyfélszolgálathoz a szolgáltatással kapcsolatban; ellenkező esetben indítsa újra a virtuális gépet a GPU újraaktiválásához az itt leírtak szerint. Kevésbé invazív módszerek, például
nvidia-smi -r
nem működnek az Azure-ban üzembe helyezett virtualizálási megoldással.
Következő lépések
- Linux rendszerű virtuálisgép-rendszerképek a telepített NVIDIA-illesztőprogramokkal való rögzítéséhez tekintse meg a Linux rendszerű virtuális gépek általánosítását és rögzítését ismertető témakört.