Instalación de controladores de GPU de NVIDIA en VM de la serie N con Windows

Artigo
04/28/2024

Se aplica a: ✔️ Máquinas virtuales Linux ✔️ Máquinas virtuales Windows ✔️ Conjuntos de escalado flexibles

Para aprovechar las funcionalidades de GPU de las VM de la serie N de Azure respaldadas por GPU de NVIDIA, deben instalarse controladores de GPU de NVIDIA. La extensión de controlador de GPU de NVIDIA instala los controladores CUDA de NVIDIA o GRID adecuados en una máquina virtual de la serie N. Instale o administre la extensión mediante Azure Portal o con herramientas como las plantillas de Azure PowerShell o Azure Resource Manager. Consulte la documentación de la extensión de controlador de GPU de NVIDIA para los sistemas operativos compatibles y los pasos de implementación.

Si decide instalar manualmente los controladores de GPU de NVIDIA, este artículo proporciona pasos de instalación y verificación, controladores y los sistemas operativos compatibles. También está disponible la información de instalación manual del controlador para las máquinas virtuales Linux.

Para conocer las especificaciones básicas, las capacidades de almacenamiento y los detalles del disco, consulte Tamaño de máquinas virtuales para GPU Windows.

Sistemas operativos y controladores compatibles

Controladores NVIDIA Tesla (CUDA)

Nota:

Las máquinas virtuales de Azure NVads A10 v5 solo admiten vGPU 14.1(510.73) o versiones posteriores del controlador. El controlador vGPU para la SKU A10 es un controlador unificado que admite cargas de trabajo de gráficos y de proceso.

Los controladores NVIDIA Tesla (CUDA) para todas las máquinas virtuales de la serie NC* y ND* (opcionales para la serie NV) son genéricas y no específicas de Azure. Para ver los controladores más recientes, visite el sitio web de NVIDIA.

Sugerencia

Como alternativa a la instalación manual de controladores de CUDA en una máquina virtual de Windows Server, puede implementar una imagen de Data Science Virtual Machine de Azure. Las ediciones de DSVM para Windows Server 2016 preinstalan los controladores NVIDIA CUDA, la biblioteca CUDA Deep Neural Network Library y otras herramientas.

Controladores NVIDIA GRID/vGPU

Nota:

En el caso de las máquinas virtuales de Azure NVads A10 v5, se recomienda que los clientes siempre estén en la versión más reciente del controlador. La última rama de controlador principal de NVIDIA (n) solo es compatible con versiones anteriores con la rama principal anterior (n-1). Por ejemplo, vGPU 17.x solo es compatible con vGPU 16.x. Las máquinas virtuales que todavía se ejecutan en n-2 o versiones inferiores pueden ver errores de controlador cuando la rama de unidad más reciente se implementa en hosts de Azure.

Las máquinas virtuales NVs_v3 solo admiten la versión de controlador de vGPU 16 o inferior.

La compatibilidad con Windows Server 2016 desaparecerá de vGPU 17.x en adelante.

Microsoft redistribuye los instaladores de controladores de NVIDIA GRID para máquinas virtuales de las series NV, NVv3 y NVads A10 v5 que se emplean como estaciones de trabajo virtuales o para aplicaciones virtuales. Instale estos controladores GRID en VM de la serie NV de Azure y solo en los sistemas operativos enumerados en la tabla siguiente. Estos controladores incluyen licencias del software GRID Virtual GPU en Azure. No es necesario configurar un servidor de licencias de software vGPU NVIDIA.

Los controladores de GRID redistribuidos por Azure no funcionan en máquinas virtuales que no son de la serie NV, como las máquinas virtuales de las series NCv2, NCv3, ND y NDv2. La única excepción es la serie de VM NCas_T4_V3, donde los controladores de GRID habilitarán las funcionalidades de gráficos similares a las de la serie NV.

La extensión Nvidia siempre instala el controlador más reciente.

Para Windows 11 hasta 23H2 inclusive, Windows 10 hasta 22H2 inclusive, Servidor 2019/2022:

GRID 16.5 (538.46) (.exe)

Los vínculos siguientes a versiones anteriores se proporcionan para admitir dependencias de versiones anteriores del controlador.

Para Windows Server 2016 1607, 1709:

GRID 14.1 (512.78) (.exe) es el último controlador compatible de NVIDIA. Las versiones 15.x más nuevas y posteriores no admiten Windows Server 2016.

En Windows Server 2012 R2:

GRID 13.1 (472.39) (.exe)
GRID 13 (471.68) (.exe)

Nota

El proceso de instalación de vGPU 15.1/15.2 realiza una llamada remota adicional a ngx.download.nvidia.com. Se trata de un cambio inesperado en el comportamiento y NVIDIA lo deshabilitará de forma predeterminada a partir de vGPU 15.3 o posterior. Mientras tanto, actualice la siguiente clave del registro antes de instalar el controlador vGPU 15.1/15.2.

Para deshabilitar la llamada remota a ngx.

[HKEY_LOCAL_MACHINE\SOFTWARE\NVIDIA Corporation\Global\NGXCore]

"EnableOTA"=dword:00000000

Para volver a habilitar la llamada remota, cambie la configuración a 1 o simplemente elimine la clave del registro.

Para información sobre los vínculos a todas las versiones de controlador GRID de Nvidia anteriores, visite GitHub.

Instalación del controlador

Conéctese mediante Escritorio remoto a cada máquina virtual de la serie N.
Descargue, extraiga e instale el controlador compatible con su sistema operativo Windows.

Después de la instalación de controladores de GRID en una VM, se requiere un reinicio. Después de la instalación de controladores de CUDA, no se requiere un reinicio.

Comprobación de la instalación del controlador

Tenga en cuenta que el panel de control de Nvidia solo es accesible con la instalación del controlador GRID. Si ha instalado controladores CUDA, el panel de control de Nvidia no será visible.

Puede comprobar la instalación del controlador en el Administrador de dispositivos. En el ejemplo siguiente se muestra una configuración correcta de la tarjeta Tesla K80 en una máquina virtual de Azure NC.

Propiedades del controlador de GPU

Para consultar el estado del dispositivo de GPU, ejecute la utilidad de línea de comandos smi nvidia que se instala con el controlador.

Abra un símbolo del sistema y cambie al directorio C:\Program Files\NVIDIA Corporation\NVSMI.
Ejecute nvidia-smi. Si el controlador está instalado, verá una salida parecida a la siguiente. La utilidad GPU-Util muestra 0 % , salvo que se esté ejecutando una carga de trabajo de GPU en la máquina virtual. La versión del controlador y los detalles de GPU pueden ser diferentes de los que se muestran.

Estado del dispositivo de NVIDIA

Conectividad de red RDMA

La conectividad de red RDMA puede habilitarse en las máquinas virtuales de la serie N que puedan usar RDMA, como la NC24r, implementadas en el mismo conjunto de disponibilidad o en un único grupo de selección de red en un conjunto de escalado de máquinas virtuales. En las máquinas virtuales compatibles con RDMA, es necesario agregar la extensión HpcVmDrivers a las máquinas virtuales para instalar los controladores de dispositivos de red de Windows necesarios para la conectividad RDMA. Para agregar la extensión de máquina virtual a una máquina virtual de la serie N habilitada para RDMA, puede usar cmdlets de Azure PowerShell para Azure Resource Manager.

Para instalar la versión más reciente de la extensión HpcVMDrivers 1.1 en una máquina virtual compatible con RDMA existente denominada "myVM" en la región de oeste de EE. UU.:

Set-AzVMExtension -ResourceGroupName "myResourceGroup" -Location "westus" -VMName "myVM" -ExtensionName "HpcVmDrivers" -Publisher "Microsoft.HpcCompute" -Type "HpcVmDrivers" -TypeHandlerVersion "1.1"

Para obtener más información, consulte Características y extensiones de las máquinas virtuales para Windows.

Ahora, la red RDMA admite el tráfico de interfaz de paso de mensajes (MPI) para aplicaciones que se ejecutan con Microsoft MPI o Intel MPI 5.x.

Pasos siguientes

Los desarrolladores que creen aplicaciones con aceleración por GPU para las GPU Tesla de NVIDIA también pueden descargar e instalar el último CUDA Toolkit. Para obtener más información, consulte la guía de instalación de CUDA.

Compartir por