Instalación de controladores de GPU de NVIDIA en máquinas virtuales de la serie N con Linux

Precaución

En este artículo se hace referencia a CentOS, una distribución de Linux con un estado de finalización del servicio (EOL). Tenga en cuenta su uso y planifique en consecuencia. Para obtener más información, consulte la guía de fin de vida de CentOS.

Se aplica a: ✔️ Máquinas virtuales Linux

Importante

Para alinearse con las prácticas de lenguaje inclusivo, hemos reemplazado el término "lista negra" por "lista de bloqueos" en esta documentación. Este cambio refleja nuestro compromiso con evitar la terminología que podría llevar a cabo las representaciones negativas no deseadas o los sesgos raciales percibidos. Sin embargo, en fragmentos de código y referencias técnicas donde "lista negra" forma parte de la sintaxis establecida o herramientas (por ejemplo, archivos de configuración, parámetros de línea de comandos), el término original se conserva para conservar la precisión funcional. Este uso es estrictamente técnico y no implica ninguna intención discriminatoria.

Para aprovechar las funcionalidades de GPU de Azure máquinas virtuales de la serie N respaldadas por GPU NVIDIA, debe instalar controladores de GPU de NVIDIA. La extensión de controlador de GPU de NVIDIA instala los controladores NVIDIA CUDA o GRID adecuados en una máquina virtual de la serie N. Instale o administre la extensión mediante el portal de Azure o herramientas, como las plantillas de CLI de Azure o Azure Resource Manager. Consulte la documentación de la extensión de controlador de GPU de NVIDIA para ver las distribuciones y los pasos de implementación admitidos.

Si decide instalar manualmente los controladores de GPU de NVIDIA, este artículo proporciona los pasos de instalación y verificación, los controladores y las distribuciones compatibles. La información de configuración manual del controlador también está disponible para Windows máquinas virtuales.

Para obtener información sobre las especificaciones de máquinas virtuales de la serie N, las capacidades de almacenamiento y los detalles del disco, consulte tamaños de máquina virtual Linux de GPU.

Advertencia

La instalación de controladores NVIDIA mediante métodos distintos de los descritos en esta guía puede provocar un error en la instalación del controlador previsto. Para garantizar la funcionalidad y el soporte adecuados, siga solo los pasos de instalación y use las versiones de controlador especificadas en esta documentación.

Distribuciones y controladores admitidos

Controladores NVIDIA CUDA

Para conocer los controladores CUDA más recientes y los sistemas operativos compatibles, visite el sitio web de NVIDIA . Asegúrese de instalar o actualizar a los controladores CUDA admitidos más recientes para su distribución.

Nota:

El controlador CUDA compatible más reciente para máquinas virtuales de SKU originales de la serie NC es actualmente 470.82.01. No se admiten versiones posteriores de los controladores en las tarjetas K80 de NC.

Nota:

Las máquinas virtuales de Azure NVads A10 v5 solo admiten versiones de controlador GRID 17.x o posteriores. El controlador vGPU para la SKU A10 es un controlador unificado que admite cargas de trabajo de gráficos y de proceso.

Precaución

Se debe deshabilitar el arranque seguro y vTPM porque el proceso se bloquea cuando están habilitados.

Sugerencia

Como alternativa a la instalación manual del controlador CUDA en una máquina virtual Linux, puede implementar una imagen de Azure Data Science Virtual Machine. La edición DSVM para Ubuntu 16.04 LTS preinstala los controladores NVIDIA CUDA, la biblioteca de redes neuronales profundas de CUDA y otras herramientas.

Controladores de NVIDIA GRID

Nota:

vGPU20 ya está disponible para la serie BSE NCv6 RTX PRO 6000 y NCasT4_v3. vGPU20 aún no se admite en la serie NVadsA10_v5. Proporcionaremos una actualización para cuando se admita vGPU20 en la serie NVadsA10_v5.

vGPU18 ya está disponible para la serie NVadsA10_v5 en las regiones Public, China y Azure Government solamente.

Microsoft redistribuye los instaladores de controladores NVIDIA GRID para NVv3, NCasT4_v3, NVadsA10_v5 y NCv6 RTX PRO 6000 máquinas virtuales BSE que se usan como estaciones de trabajo virtuales o para aplicaciones virtuales. Instale estos controladores GRID solo en estas máquinas virtuales y solo en los sistemas operativos enumerados en la tabla siguiente. Estos controladores incluyen licencias para GRID Virtual GPU Software en Azure. No es necesario configurar un servidor de licencias de software de NVIDIA vGPU.

Las series NCasT4_v3 y NCv6 RTX PRO 6000 BSE son las únicas series de máquinas virtuales de GPU que no son NV que admiten los controladores GRID.

Para obtener más información sobre las versiones específicas de la rama de controlador y vGPU, visite el sitio web de NVIDIA .

Distribución	Controlador
Ubuntu 20.04 LTS, 22.04 LTS, 24.04 LTS Red Hat Enterprise Linux 8.6, 8.8, 8.9, 8.10, 9.0, 9.2, 9.3, 9.4 y 9.5 SUSE Linux Enterprise Server 15 SP2, 12 SP2,12 SP5 Rocky Linux 8.4	NVIDIA vGPU 18.6, rama de controlador R570 NVIDIA vGPU 18.6, rama de controlador R570

Nota:

Recomendamos que para VMs de Azure NVads A10 v5, utilice la versión más reciente del controlador. La última rama principal del controlador de NVIDIA (n) solo es compatible de manera retroactiva con la rama principal anterior (n-1). Por ejemplo, vGPU 17.x es compatible hacia atrás solo con vGPU 16.x. Es posible que se produzcan fallos de controlador en cualquier máquina virtual que siga ejecutando n-2 o inferior cuando la rama de drivers más reciente se implemente en hosts de Azure.

Las máquinas virtuales NVs_v3 solo admiten versiones de controlador vGPU 16 o anteriores.

GRID Driver 17.3 actualmente solo admite la serie NCasT4_v3 de máquinas virtuales. Para usar este controlador, descargue e instale GRID Driver 17.3 manualmente.

Los controladores GRID tienen problemas con la instalación en Azure kernel 6.11. Para desbloquear, cambie el kernel a la versión 6.8. Para obtener más información, consulte Problemas conocidos.

Visite GitHub para obtener la lista completa de todos los vínculos anteriores del controlador nvidia GRID.

Advertencia

La instalación de software de terceros en productos de Red Hat puede afectar a los términos de soporte técnico de Red Hat. Consulte el artículo base de conocimiento de Red Hat.

Instalación de controladores CUDA en máquinas virtuales de la serie N

Estos son los pasos para instalar controladores CUDA desde el kit de herramientas de NVIDIA CUDA en máquinas virtuales de la serie N.

Los desarrolladores de C y C++, si lo desean, pueden instalar el kit de herramientas completo para crear aplicaciones aceleradas por GPU. Para obtener más información, consulte la Guía de instalación de CUDA.

Para instalar los controladores de CUDA, realice una conexión SSH a cada máquina virtual. Para comprobar que el sistema dispone de una GPU compatible con CUDA, ejecute el siguiente comando:

lspci | grep -i NVIDIA

lspci enumera los dispositivos PCIe de la máquina virtual, incluidas GPU y la NIC de InfiniBand, si los hay. Si lspci no se devuelve correctamente, puede que tenga que instalar LIS en CentOS/RHEL.

Luego, ejecute los comandos de instalación específicos de su distribución.

Ubuntu

Ubuntu empaqueta los controladores propietarios de NVIDIA. Estos controladores proceden directamente de NVIDIA y simplemente son empaquetados por Ubuntu para que puedan ser administrados automáticamente por el sistema. La descarga e instalación de controladores de otro origen puede provocar la inoperabilidad del sistema. Además, la instalación de controladores de terceros requiere pasos adicionales en máquinas virtuales con TrustedLaunch y arranque seguro habilitado. Requieren que el usuario agregue una nueva clave de propietario de la máquina para que el sistema arranque. Los controladores de Ubuntu están firmados por Canonical y funcionarán con arranque seguro.

Instale la utilidad de ubuntu-drivers:

sudo apt update && sudo apt install -y ubuntu-drivers-common

Instale los últimos controladores de NVIDIA:
```
sudo ubuntu-drivers install
```
Reinicie la máquina virtual después de instalar el controlador de GPU:
```
sudo reboot
```
Descargue e instale el kit de herramientas de CUDA desde NVIDIA:

Nota:

En el ejemplo, se muestra la ruta de acceso del paquete CUDA para Ubuntu 24.04 LTS. Use la ruta de acceso específica de la versión que planea usar.

Visite el Centro de descarga de NVIDIA o la página De recursos de NVIDIA CUDA para obtener la ruta de acceso completa específica de cada versión.
```
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo apt install -y ./cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt -y install cuda-toolkit-12-5
```
La instalación puede tardar varios minutos.
Reinicie la máquina virtual una vez completada la instalación:
```
sudo reboot
```
Compruebe que la GPU se reconoce correctamente:
```
nvidia-smi
```

Actualizaciones de controladores de NVIDIA

Recomendamos actualizar periódicamente los controladores de NVIDIA después de la implementación.

sudo apt update
sudo apt full-upgrade

CentOS o Red Hat Enterprise Linux

Actualice el kernel (recomendado). Si decide no actualizar el kernel, asegúrese de que las versiones de kernel-devel y dkms sean adecuadas para el kernel.
```
sudo yum install kernel kernel-tools kernel-headers kernel-devel
sudo reboot
```
Instale la Linux Integration Services más reciente para Hyper-V y Azure. Para confirmar si se requiere LIS, compruebe los resultados de lspci. Si todos los dispositivos de GPU aparecen como se esperaba, no es necesario instalar LIS.

LIS es aplicable a Red Hat Enterprise Linux, CentOS y el kernel compatible de Red Hat de Oracle Linux 5.2-5.11, 6.0-6.10 y 7.0-7.7. Consulte la documentación de Linux Integration Services para obtener más detalles. Omita este paso si tiene previsto usar CentOS/RHEL 7.8 (o versiones posteriores), pues ya no se necesita LIS en estas versiones.
```
wget https://aka.ms/lis
tar xvzf lis
cd LISISO

sudo ./install.sh
sudo reboot
```

Vuelva a conectarse a la VM y continúe con la instalación con los siguientes comandos:

sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
sudo yum clean all
sudo yum -y install nvidia-driver-latest-dkms cuda-drivers

La instalación puede tardar varios minutos.

Nota:

Visite el repositorio Fedora y Nvidia CUDA para elegir el paquete correcto para la versión de CentOS o RHEL que desea usar.

Por ejemplo, CentOS 8 y RHEL 8 necesitan los pasos siguientes.

sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo yum install dkms

sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo -O /etc/yum.repos.d/cuda-rhel8.repo

sudo yum install cuda-drivers

Para instalar (opcional) el kit de herramientas CUDA completo, escriba:
```
sudo yum install cuda
```
Nota:

Si ve un mensaje de error relacionado con los paquetes que faltan, como vulkan-filesystem, es posible que tenga que editar /etc/yum.repos.d/rh-cloud, busque optional-rpms y establezca habilitado en 1.
Reinicie la máquina virtual y continúe para comprobar la instalación.

Comprobación de la instalación del controlador

Para consultar el estado del dispositivo de GPU, ssh a la máquina virtual y ejecute la utilidad de línea de comandos nvidia-smi instalada con el controlador.

Si el controlador está instalado, Nvidia SMI enumera GPU-Util como N/A hasta que ejecute una carga de trabajo de GPU en la máquina virtual.

Conectividad de red RDMA

La conectividad de red RDMA puede habilitarse en las máquinas virtuales de la serie N preparadas para RDMA, como la NC24r, implementadas en el mismo conjunto de disponibilidad o en un único grupo de selección de ubicación en un conjunto de escalado de máquinas virtuales (VM). Ahora, la red RDMA admite el tráfico de interfaz de paso de mensajes (MPI) para aplicaciones que se ejecutan con Intel MPI 5.x o una versión posterior:

Distribuciones

Implemente máquinas virtuales de la serie N compatibles con RDMA desde una de las imágenes de la Azure Marketplace que admita la conectividad RDMA en máquinas virtuales de la serie N:

Ubuntu 16.04 LTS : configure controladores RDMA en la máquina virtual y regístrese con Intel para descargar Intel MPI:
1. Instale dapl, rdmacm, ibverbs y mlx4.
```
sudo apt-get update

sudo apt-get install libdapl2 libmlx4-1
```
2. En /etc/waagent.conf, habilite RDMA quitando la marca de comentario de las siguientes líneas de configuración. Necesita acceso a la raíz para editar este archivo.
```
OS.EnableRDMA=y

OS.UpdateRdmaDriver=y
```
3. Agregue o cambie la siguiente configuración de memoria en KB en el archivo /etc/security/limits.conf. Necesita acceso a la raíz para editar este archivo. Para realizar pruebas, puede establecer memlock en ilimitado. Por ejemplo: <User or group name> hard memlock unlimited.
```
<User or group name> hard    memlock <memory required for your application in KB>

<User or group name> soft    memlock <memory required for your application in KB>
```
4. Instale la biblioteca Intel MPI. Compre y descargue la biblioteca desde Intel o descargue la versión de evaluación gratuita.
```
wget http://registrationcenter-download.intel.com/akdlm/irc_nas/tec/9278/l_mpi_p_5.1.3.223.tgz
```
  Solo se admiten los runtimes de Intel MPI 5.x.
  
  Para conocer los pasos de instalación, consulte la Guía de instalación de la biblioteca Intel MPI.
5. Habilite ptrace para los procesos que no son de depurador no raíz (necesario para las versiones más recientes de Intel MPI).
```
echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope
```
HpC basado en CentOS 7.4 : los controladores RDMA y Intel MPI 5.1 están instalados en la máquina virtual.
HPC basado en CentOS: CentOS-HPC 7.6 y versiones posteriores (para SKU en las que se admite InfiniBand a través de SR-IOV). Estas imágenes tienen preinstaladas las bibliotecas OFED y MPI de Mellanox.

Nota:

Las tarjetas CX3-Pro solo se admiten a través de las versiones de LTS de OFED de Mellanox. Use la versión de LTS de OFED de Mellanox (4.9-0.1.7.0) en las máquinas virtuales de la serie N con tarjetas ConnectX3-Pro. Para obtener más información, consulte Controladores de Linux.

Además, algunas de las imágenes Azure Marketplace HPC más recientes tienen Mellanox OFED 5.1 y versiones posteriores, que no admiten tarjetas ConnectX3-Pro. Compruebe la versión OFED de Mellanox en la imagen de HPC antes de usarla en máquinas virtuales con tarjetas ConnectX3-Pro.

Las imágenes siguientes son las de CentOS-HPC más recientes que admiten tarjetas ConnectX3-Pro:

OpenLogic:CentOS-HPC:7.6:7.6.2020062900
OpenLogic:CentOS-HPC:7_6gen2:7.6.2020062901
OpenLogic:CentOS-HPC:7.7:7.7.2020062600
OpenLogic:CentOS-HPC:7_7-gen2:7.7.2020062601
OpenLogic:CentOS-HPC:8_1:8.1.2020062400
OpenLogic:CentOS-HPC:8_1-gen2:8.1.2020062401

Instalación de controladores GRID en máquinas virtuales NCv6 RTX PRO 6000 BSE (MV)

Asegúrese de que el arranque seguro y vTPM están deshabilitados.

Instale los requisitos previos.

Ubuntu (24.04, 22.04, 20.04):

sudo apt update 
sudo apt install -y build-essential

RHEL (8.8, 8.10, 9.4, 9.6, 9.7):

sudo yum check-update 
sudo yum install -y make automake gcc gcc-c++ kernel-devel-$(uname -r) kernel-headers-$(uname -r)

Descargue el controlador Linux (con v20.x vGPU Unified Driver).

wget -O ./NVIDIA-Linux-x86_64-595.58.03-grid-azure.run https://download.microsoft.com/download/51239696-ec04-4c02-a6b3-1d9c608fb57c/NVIDIA-Linux-x86_64-595.58.03-grid-azure.run

Instale el controlador.

sudo chmod +x ./NVIDIA-Linux-x86_64-595.58.03-grid-azure.run 
sudo ./NVIDIA-Linux-x86_64-595.58.03-grid-azure.run -M open

Compruebe la instalación del controlador.
```
nvidia-smi
```
Si el controlador está instalado, Nvidia SMI enumerará GPU-Util como N/A hasta que ejecute una carga de trabajo de GPU en la máquina virtual.

Instalación de controladores GRID en VM de la serie NV o NVv3

Para instalar los controladores NVIDIA GRID en VM de la serie NV o NVv3, establezca una conexión SSH a cada VM y siga los pasos para su distribución de Linux.

Ubuntu

Ejecute el comando lspci. Compruebe que la tarjeta o tarjetas NVIDIA M60 son visibles como dispositivos PCI.

Instale las actualizaciones.

sudo apt-get update
sudo apt-get upgrade -y
sudo apt-get dist-upgrade -y
sudo apt-get install build-essential ubuntu-desktop -y
sudo apt-get install linux-azure -y

Deshabilite el controlador de kernel Nouveau que es incompatible con el controlador NVIDIA. (Solo use el controlador NVIDIA en máquinas virtuales NV o NVv2). Para deshabilitar el controlador, cree un archivo en /etc/modprobe.d llamado nouveau.conf con el siguiente contenido:
```
blacklist nouveau
blacklist lbm-nouveau
```
Reinicie la máquina virtual y vuelva a conectar. Salga del servidor X:
```
sudo systemctl stop lightdm.service
```

Descargue e instale el controlador de GRID:

wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
chmod +x NVIDIA-Linux-x86_64-grid.run
sudo ./NVIDIA-Linux-x86_64-grid.run

Cuando se le pregunte si desea ejecutar la utilidad nvidia-xconfig para actualizar el archivo de configuración X, seleccione Sí.
Una vez completada la instalación, copie /etc/nvidia/gridd.conf.template en un nuevo archivo gridd.conf en la ubicación /etc/nvidia/.
```
sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
```
Agregue lo siguiente a /etc/nvidia/gridd.conf:
```
IgnoreSP=FALSE
EnableUI=FALSE
```
Quite lo siguiente de /etc/nvidia/gridd.conf si está presente:
```
FeatureType=0
```
Reinicie la máquina virtual y continúe para comprobar la instalación.

Instalar el controlador de GRID en Ubuntu con el arranque seguro habilitado

El proceso de instalación del controlador GRID no ofrece opciones para omitir la compilación y la instalación del módulo kernel y seleccionar un origen diferente de módulos de kernel firmados, por lo que el arranque seguro debe deshabilitarse en máquinas virtuales Linux para usarlos con GRID, después de instalar módulos de kernel firmados.

CentOS o Red Hat Enterprise Linux

Actualice el kernel y DKMS (recomendado). Si decide no actualizar el kernel, asegúrese de que las versiones de kernel-devel y dkms sean adecuadas para el kernel.

sudo yum update
sudo yum install kernel-devel
sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
sudo yum install dkms
sudo yum install hyperv-daemons

Deshabilite el controlador de kernel Nouveau que es incompatible con el controlador NVIDIA. (Use el controlador NVIDIA solo en máquinas virtuales NV o NV3). Para hacer esto, cree un archivo en /etc/modprobe.d llamado nouveau.conf con el siguiente contenido:
```
blacklist nouveau
blacklist lbm-nouveau
```
Reinicie la máquina virtual, vuelva a conectarse e instale la Linux Integration Services más reciente para Hyper-V y Azure. Para confirmar si se requiere LIS, compruebe los resultados de lspci. Si todos los dispositivos de GPU aparecen como se esperaba, no es necesario instalar LIS.

Omita este paso si tiene previsto usar CentOS/RHEL 7.8 (o versiones posteriores), pues ya no se necesita LIS en estas versiones.
```
wget https://aka.ms/lis
tar xvzf lis
cd LISISO

sudo ./install.sh
sudo reboot
```
Vuelva a conectarse a la máquina virtual y ejecute el comando lspci. Compruebe que la tarjeta o tarjetas NVIDIA M60 son visibles como dispositivos PCI.

Descargue e instale el controlador de GRID:

wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
chmod +x NVIDIA-Linux-x86_64-grid.run

sudo ./NVIDIA-Linux-x86_64-grid.run

Cuando se le pregunte si desea ejecutar la utilidad nvidia-xconfig para actualizar el archivo de configuración X, seleccione Sí.
Una vez completada la instalación, copie /etc/nvidia/gridd.conf.template en un nuevo archivo gridd.conf en la ubicación /etc/nvidia/.
```
sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
```
Agregue dos líneas a /etc/nvidia/gridd.conf:
```
IgnoreSP=FALSE
EnableUI=FALSE
```
Quite una línea de /etc/nvidia/gridd.conf si está presente:
```
FeatureType=0
```
Reinicie la máquina virtual y continúe para comprobar la instalación.

Comprobación de la instalación del controlador

Para consultar el estado del dispositivo de GPU, ssh a la máquina virtual y ejecute la utilidad de línea de comandos nvidia-smi instalada con el controlador.

Si el controlador está instalado, Nvidia SMI enumerará GPU-Util como N/A hasta que ejecute una carga de trabajo de GPU en la máquina virtual.

Servidor X11

Si necesita un servidor X11 para las conexiones remotas a una máquina virtual NV o NVv2, se recomienda x11vnc porque permite la aceleración de hardware de gráficos. El BusID del dispositivo M60 debe agregarse manualmente al archivo de configuración X11 (normalmente etc/X11/xorg.conf). Agregue una sección "Device" similar a la siguiente:

Section "Device"
    Identifier     "Device0"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "Tesla M60"
    BusID          "PCI:0@your-BusID:0:0"
EndSection

Además, actualice su sección "Screen" para usar este dispositivo.

Puede encontrar el ID del bus decimal ejecutando

nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'

El BusID puede cambiar cuando se reasigna o reinicia una máquina virtual. Por lo tanto, puede ser conveniente crear un script para actualizar el BusID en la configuración de X11 cuando se reinicie una máquina virtual. Por ejemplo, cree un script llamado busidupdate.sh (u otro nombre que elija) con un contenido similar al siguiente:

#!/bin/bash
XCONFIG="/etc/X11/xorg.conf"
OLDBUSID=`awk '/BusID/{gsub(/"/, "", $2); print $2}' ${XCONFIG}`
NEWBUSID=`nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'`

if [[ "${OLDBUSID}" == "${NEWBUSID}" ]] ; then
        echo "NVIDIA BUSID not changed - nothing to do"
else
        echo "NVIDIA BUSID changed from \"${OLDBUSID}\" to \"${NEWBUSID}\": Updating ${XCONFIG}"
        sed -e 's|BusID.*|BusID          '\"${NEWBUSID}\"'|' -i ${XCONFIG}
fi

A continuación, cree una entrada para el script actualizado en /etc/rc.d/rc3.d para que se invoque el script como raíz en el arranque.

Solución de problemas

Puede establecer el modo de persistencia mediante nvidia-smi para que la salida del comando sea más rápida cuando necesita consultar tarjetas. Para establecer el modo de persistencia, ejecute nvidia-smi -pm 1. Si se reinicia la máquina virtual, la configuración del modo desaparece. Siempre puede crear un script de la configuración de modo para que se ejecute al inicio.
Si ha actualizado los controladores DE NVIDIA CUDA a la versión más reciente y encuentra que la conectividad RDMA ya no funciona, vuelva a instalar los controladores RDMA para restablecer esa conectividad.
Durante la instalación de LIS, si no se admite una determinada versión del sistema operativo CentOS/RHEL (o kernel) para LIS, se produce el error de versión de kernel no compatible. Notifique este error junto con el sistema operativo y las versiones del kernel.
Si los trabajos se interrumpen mediante errores ECC en la GPU (que se pueden corregir o no se pueden corregir), compruebe primero si la GPU cumple alguno de los criterios de RMA de Nvidia para errores ECC. Si la GPU es apta para RMA, póngase en contacto con el soporte técnico sobre cómo obtener el servicio; De lo contrario, reinicie la máquina virtual para volver a adjuntar la GPU como se describe aquí. Los métodos menos invasivos, como nvidia-smi -r, no funcionan con la solución de virtualización implementada en Azure.

Pasos siguientes

Para capturar una imagen de máquina virtual Linux con los controladores NVIDIA instalados, consulte Cómo generalizar y capturar una máquina virtual Linux.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-19

Instalación de controladores de GPU de NVIDIA en máquinas virtuales de la serie N con Linux

Distribuciones y controladores admitidos

Controladores NVIDIA CUDA

Controladores de NVIDIA GRID

Instalación de controladores CUDA en máquinas virtuales de la serie N

Ubuntu

Actualizaciones de controladores de NVIDIA

CentOS o Red Hat Enterprise Linux

Comprobación de la instalación del controlador

Conectividad de red RDMA

Distribuciones

Instalación de controladores GRID en máquinas virtuales NCv6 RTX PRO 6000 BSE (MV)

Instalación de controladores GRID en VM de la serie NV o NVv3

Ubuntu

Instalar el controlador de GRID en Ubuntu con el arranque seguro habilitado

CentOS o Red Hat Enterprise Linux

Comprobación de la instalación del controlador

Servidor X11

Solución de problemas

Pasos siguientes

Comentarios

Recursos adicionales