Máquina virtual (VM) de la unidad de procesamiento gráfico (GPU) en Azure Stack Hub

Artículo
10/30/2024

En este artículo, se describe cuáles son los modelos de unidad de procesamiento gráfico (GPU) que se admiten en un sistema integrado de Azure Stack Hub. El artículo también contiene instrucciones sobre cómo instalar los controladores usados con las GPU. La compatibilidad con GPU en Azure Stack Hub permite soluciones de inteligencia artificial, entrenamiento, inferencia y visualización de datos. La GPU AMD Radeon Instinct MI25 puede usarse para respaldar aplicaciones con un uso intensivo de gráficos, como AutoCAD de Autodesk.

Puede elegir entre tres modelos de GPU. Están disponibles en las GPU de NVIDIA V100, NVIDIA T4 y AMD MI25. Estas GPU físicas se alinean con los siguientes tipos de máquina virtual (VM) de la serie N de Azure de la siguiente manera:

Advertencia

En esta versión no se admiten las máquinas virtuales con GPU. Debe actualizar a Azure Stack Hub 2005 o posterior. Además, el hardware de Azure Stack Hub debe tener GPU físicas.

NCv3

Las máquinas virtuales de la serie NCv3 disponen de la tecnología de las GPU NVIDIA Tesla V100. Los clientes pueden aprovechar estas GPU actualizadas para cargas de trabajo de HPC tradicionales, como la creación de modelos de embalses, la secuenciación de ADN, el análisis de proteínas, la realización de simulaciones Monte Carlo y otras.

Tamaño	vCPU	Memoria: GiB	GiB de almacenamiento temporal (SSD)	GPU	Memoria de GPU: GiB	Discos de datos máx.	Nº máx. NIC
Standard_NC6s_v3	6	112	736	1	16	12	4
Standard_NC12s_v3	12	224	1474	2	32	24	8
Standard_NC24s_v3	24	448	2948	4	64	32	8

NVv4

Las máquinas virtuales de la serie NVv4 usan la tecnología de las GPU AMD Radeon Instinct MI25. Con la serie NVv4, Azure Stack Hub presenta máquinas virtuales con GPU parciales. Este tamaño se puede usar con aplicaciones de gráficos aceleradas por GPU y escritorios virtuales. Actualmente, las máquinas virtuales NVv4 solo admiten el sistema operativo invitado windows.

Tamaño	vCPU	Memoria: GiB	GiB de almacenamiento temporal (SSD)	GPU	Memoria de GPU: GiB	Discos de datos máx.	Nº máx. NIC
Standard_NV4as_v4	4	14	88	1/8	2	4	2
Standard_NV8as_v4	8	28	176	1/4	4	8	4
Standard_NV16as_v4	16	56	352	1/2	8	16	8
Standard_NV32as_v4	32	112	704	1	16	32	8

NCasT4_v3

Tamaño	vCPU	Memoria: GiB	GPU	Memoria de GPU: GiB	Discos de datos máx.	Nº máx. NIC
Standard_NC4as_T4_v3	4	28	1	16	8	4
Standard_NC8as_T4_v3	8	56	1	16	16	8
Standard_NC16as_T4_v3	16	110	1	16	32	8
Standard_NC64as_T4_v3	64	440	4	64	32	8

NC_A100 v4

Las máquinas virtuales de la serie NC_A100 cuentan con la tecnología de GPU NVIDIA Ampere A100, la sucesora de las GPU Tesla V100. Puede aprovechar estas GPU actualizadas para cargas de trabajo de HPC tradicionales, como el modelado de depósitos, la secuenciación de ADN, el análisis de proteínas, las simulaciones de Monte Carlo y otras.

Tamaño	vCPU	Memoria: GiB	Almacenamiento temporal (GiB)	Discos de datos máx.	GPU	GiB de memoria de GPU	Nº máx. NIC
Standard_NC24ads_A100_v4	24	220	1123	12	1	80	2
Standard_NC48ads_A100_v4	48	440	2246	24	2	160	4

NC_L40S v4

Tamaño	vCPU	Memoria: GiB	Almacenamiento temporal (GiB)	Discos de datos máx.	GPU	GiB de memoria de GPU	Nº máx. NIC
Standard_NC24ads_L40S_v4	24	220	1123	8	1	80	2
Standard_NC48ads_L40S_v4	48	440	2246	16	2	160	4

Consideraciones del sistema de GPU

La GPU debe ser una de estas SKU: AMD MI-25, Nvidia V100 (y variantes) o Nvidia T4.
Número de GPU por servidor admitido (1, 2, 3, 4). Las opciones preferidas son: 1, 2 y 4.
Todas las GPU deben ser exactamente de la misma SKU en toda la unidad de escalado.
Todas las cantidades de GPU por servidor deben ser las mismas en toda la unidad de escalado.
El tamaño de partición de GPU (para AMD Mi25) debe ser el mismo en todas las máquinas virtuales de la GPU en la unidad de escalado.

Planificación de capacidad

El planificador de capacidad de Azure Stack Hub se actualizó para admitir configuraciones de GPU. Es accesible aquí.

Adición de GPU en una instancia de Azure Stack Hub existente

Azure Stack Hub ahora admite la adición de GPU a cualquier sistema existente. Para agregar una GPU, ejecute stop-azurestack, ejecute el procedimiento de stop-azurestack, agregue GPU y, a continuación, ejecute start-azurestack hasta la finalización. Si el sistema ya tenía GPU, las máquinas virtuales de GPU creadas anteriormente deben reiniciarse stop-deallocated y reiniciarse.

Revisión y actualización, comportamiento de FRU de máquinas virtuales

Las máquinas virtuales de GPU se someten a un tiempo de inactividad durante las operaciones, como la revisión y actualización (PnU) y el reemplazo de hardware (FRU) de Azure Stack Hub. En la tabla siguiente se describe el estado de la máquina virtual observado durante estas actividades y la acción manual que el usuario puede realizar para que estas máquinas virtuales estén disponibles después de la operación.

Operación	PnU: actualización completa, actualización de OEM	FRU
Estado de la máquina virtual	No disponible durante la actualización. Puede estar disponible mediante una operación manual. La máquina virtual se encuentra automáticamente en línea después de la actualización.	No disponible durante la operación de FRU. Puede estar disponible mediante una operación manual. Es necesario volver a iniciar la máquina virtual después de la operación de FRU.
Operación manual	Si es necesario que la máquina virtual esté disponible durante la actualización, si hay particiones de GPU disponibles, la máquina virtual se puede reiniciar desde el portal haciendo clic en el botón Restart (Reiniciar). La máquina virtual vuelve automáticamente a realizar una copia de seguridad después de la actualización.	La máquina virtual no está disponible durante la operación de FRU. Si hay GPU disponibles, es posible que la máquina virtual se detenga y desasigne y posteriormente se reinicie durante la operación de FRU. Después de la finalización de FRU, la máquina virtual debe `stop-deallocated` usar el botón Detener y, a continuación, reiniciarse con el botón Iniciar .

Instalación del controlador de invitado

Los siguientes cmdlets de PowerShell se pueden usar para la instalación del controlador:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

En función del sistema operativo, escriba y conecte la máquina virtual de GPU de Azure Stack Hub, debe reemplazar estos valores por la configuración siguiente.

AMD MI25

La versión del controlador invitado debe coincidir con la versión de Azure Stack Hub, independientemente del estado de conectividad. El uso de versiones más recientes no alineadas con la versión de Azure Stack Hub puede provocar problemas de facilidad de uso.

Versión de Azure Stack Hub	Controlador invitado AMD
2206 y versiones posteriores	21.Q2-1, 20.Q4-1
2108	21.Q2-1, 20.Q4-1
2102	21.Q2-1, 20.Q4-1

Conectado

Use el script de PowerShell en la sección anterior con el tipo de controlador adecuado para AMD. En el artículo Instalación de controladores de GPU AMD en máquinas virtuales de la serie N que ejecutan Windows se proporcionan instrucciones sobre cómo instalar el controlador para AMD Radeon Instinct MI25 dentro de la máquina virtual habilitada para GPU-P de NVv4, junto con pasos sobre cómo comprobar la instalación del controlador.

Escenario desconectado

Dado que la extensión extrae el controlador de una ubicación en Internet, una máquina virtual que está desconectada de la red externa no puede acceder a él. Puede descargar el controlador de la tabla anterior y cargarlo en una cuenta de almacenamiento de la red local a la que se pueda acceder a la máquina virtual.

Agregue el controlador AMD a una cuenta de almacenamiento y especifique la dirección URL de esa cuenta en Settings. Esta configuración debe usarse en el cmdlet Set-AzureRMVMExtension . Por ejemplo:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

Los controladores de NVIDIA deben instalarse dentro de la máquina virtual para cargas de trabajo de CUDA o GRID mediante la GPU.

Caso de uso: GRID de gráficos/visualización

Este escenario requiere el uso de controladores de GRID. Los controladores de GRID se pueden descargar a través del centro de aplicaciones de NVIDIA siempre que se tengan las licencias necesarias. Los controladores de GRID también requieren un servidor de licencias de GRID con las licencias de GRID adecuadas antes de usarlos en la máquina virtual.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Caso de uso: proceso/CUDA: conectado

Los controladores CUDA no necesitan un servidor de licencias y no necesitan una configuración modificada.

Caso de uso: proceso/CUDA: desconectado

Los vínculos a los controladores de NVIDIA CUDA se pueden obtener mediante el vínculo: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Debe hacer referencia a algunas direcciones URL para la configuración:

URL	Notas
PUBKEY_URL	PUBKEY_URL es la clave pública para el repositorio de controladores de Nvidia, no para la máquina virtual Linux. Se usa para instalar el controlador para Ubuntu.
DRIVER_URL	DRIVER_URL es la dirección URL para descargar la información del repositorio del controlador nvidia y se agrega a la lista de repositorios de la máquina virtual Linux.

Agregue las direcciones URL a la configuración.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Compartir a través de