Máquina virtual (VM) de la unidad de procesamiento gráfico (GPU) en Azure Stack Hub
En este artículo, se describe cuáles son los modelos de unidad de procesamiento gráfico (GPU) que se admiten en un sistema integrado de Azure Stack Hub. También se pueden encontrar instrucciones sobre la instalación de los controladores que se usan con las GPU. La compatibilidad con GPU en Azure Stack Hub permite soluciones de inteligencia artificial, entrenamiento, inferencia y visualización de datos. La GPU AMD Radeon Instinct MI25 puede usarse para respaldar aplicaciones con un uso intensivo de gráficos, como AutoCAD de Autodesk.
Puede elegir entre tres modelos de GPU. Están disponibles en las GPU de NVIDIA V100, NVIDIA T4 y AMD MI25. Estas GPU físicas se alinean con los siguientes tipos de máquina virtual (VM) de la serie N de Azure de la siguiente manera:
Advertencia
En esta versión no se admiten las máquinas virtuales con GPU. Tendrá que actualizar a Azure Stack Hub 2005 o a versiones posteriores. Además, el hardware de Azure Stack Hub debe tener GPU físicas.
NCv3
Las máquinas virtuales de la serie NCv3 disponen de la tecnología de las GPU NVIDIA Tesla V100. Los clientes pueden aprovechar estas GPU actualizadas para cargas de trabajo de HPC tradicionales, como la creación de modelos de embalses, la secuenciación de ADN, el análisis de proteínas, la realización de simulaciones Monte Carlo y otras.
Tamaño | vCPU | Memoria: GiB | GiB de almacenamiento temporal (SSD) | GPU | Memoria de GPU: GiB | Discos de datos máx. | Nº máx. NIC |
---|---|---|---|---|---|---|---|
Standard_NC6s_v3 | 6 | 112 | 736 | 1 | 16 | 12 | 4 |
Standard_NC12s_v3 | 12 | 224 | 1474 | 2 | 32 | 24 | 8 |
Standard_NC24s_v3 | 24 | 448 | 2948 | 4 | 64 | 32 | 8 |
NVv4
Las máquinas virtuales de la serie NVv4 usan la tecnología de las GPU AMD Radeon Instinct MI25. Con la serie NVv4, Azure Stack Hub introduce máquinas virtuales con GPU parciales. Este tamaño se puede usar con aplicaciones de gráficos aceleradas por GPU y escritorios virtuales. Las máquinas virtuales NVv4 actualmente solo admiten el sistema operativo invitado Windows.
Tamaño | vCPU | Memoria: GiB | GiB de almacenamiento temporal (SSD) | GPU | Memoria de GPU: GiB | Discos de datos máx. | Nº máx. NIC |
---|---|---|---|---|---|---|---|
Standard_NV4as_v4 | 4 | 14 | 88 | 1/8 | 2 | 4 | 2 |
Standard_NV8as_v4 | 8 | 28 | 176 | 1/4 | 4 | 8 | 4 |
Standard_NV16as_v4 | 16 | 56 | 352 | 1/2 | 8 | 16 | 8 |
Standard_NV32as_v4 | 32 | 112 | 704 | 1 | 16 | 32 | 8 |
NCasT4_v3
Tamaño | vCPU | Memoria: GiB | GPU | Memoria de GPU: GiB | Discos de datos máx. | Nº máx. NIC |
---|---|---|---|---|---|---|
Standard_NC4as_T4_v3 | 4 | 28 | 1 | 16 | 8 | 4 |
Standard_NC8as_T4_v3 | 8 | 56 | 1 | 16 | 16 | 8 |
Standard_NC16as_T4_v3 | 16 | 110 | 1 | 16 | 32 | 8 |
Standard_NC64as_T4_v3 | 64 | 440 | 4 | 64 | 32 | 8 |
NC_A100 v4
Las máquinas virtuales de la serie NC_A100 cuentan con la tecnología de GPU NVIDIA Ampere A100, la sucesora de las GPU Tesla V100. Puede aprovechar estas GPU actualizadas para cargas de trabajo de HPC tradicionales, como el modelado de depósitos, la secuenciación de ADN, el análisis de proteínas, las simulaciones de Monte Carlo y otras.
Tamaño | vCPU | Memoria: GiB | Almacenamiento temporal (GiB) | Discos de datos máx. | GPU | GiB de memoria de GPU | Nº máx. NIC |
---|---|---|---|---|---|---|---|
Standard_NC24ads_A100_v4 | 24 | 220 | 1123 | 12 | 1 | 80 | 2 |
Standard_NC48ads_A100_v4 | 48 | 440 | 2246 | 24 | 2 | 160 | 4 |
Consideraciones del sistema de GPU
- La GPU debe ser una de estas SKU: AMD MI-25, Nvidia V100 (y variantes) o Nvidia T4.
- Número de GPU por servidor admitido (1, 2, 3, 4). Las opciones preferidas son: 1, 2 y 4.
- Todas las GPU deben ser exactamente de la misma SKU en toda la unidad de escalado.
- Todas las cantidades de GPU por servidor deben ser las mismas en toda la unidad de escalado.
- El tamaño de partición de GPU (para AMD Mi25) debe ser el mismo en todas las máquinas virtuales de la GPU en la unidad de escalado.
Planificación de capacidad
La herramienta de planeamiento de capacidad de Azure Stack Hub se ha actualizado para admitir configuraciones de GPU. Se puede acceder a esta herramienta en https://aka.ms/azstackcapacityplanner.
Adición de GPU en una instancia de Azure Stack Hub existente
Azure Stack Hub ahora admite la adición de GPU a cualquier sistema existente. Para ello, ejecute stop-azurestack, complete el procedimiento de stop-azurestack, agregue GPU y, a continuación, ejecute start-azurestack hasta su finalización. Si el sistema ya tenía GPU, las máquinas virtuales de GPU creadas previamente se deberán detener (desasignar) y, a continuación, volver a iniciarse.
Revisión y actualización, comportamiento de FRU de máquinas virtuales
Las máquinas virtuales de GPU experimentarán tiempo de inactividad durante operaciones tales como aplicación de revisiones y actualización (PnU) y el reemplazo de hardware (FRU) de Azure Stack Hub. En la tabla siguiente se describe el estado de la máquina virtual observado durante estas actividades y la acción manual que el usuario puede realizar para que estas máquinas virtuales estén disponibles después de la operación.
Operación | PnU: actualización completa, actualización de OEM | FRU |
---|---|---|
Estado de la máquina virtual | No disponible durante la actualización. Puede estar disponible mediante una operación manual. La máquina virtual se encuentra automáticamente en línea después de la actualización. | No disponible durante la operación de FRU. Puede estar disponible mediante una operación manual. Es necesario volver a iniciar la máquina virtual después de la operación de FRU. |
Operación manual | Si es necesario que la máquina virtual esté disponible durante la actualización, si hay particiones de GPU disponibles, la máquina virtual se puede reiniciar desde el portal haciendo clic en el botón Restart (Reiniciar). La máquina virtual volverá a iniciarse automáticamente después de la actualización. | La máquina virtual no está disponible durante la operación de FRU. Si hay GPU disponibles, es posible que la máquina virtual se detenga y desasigne y posteriormente se reinicie durante la operación de FRU. Después de completar la operación de FRU, la máquina debe detenerse y desasignarse con el botón Detener e iniciarse de nuevo con el botón Iniciar. |
Instalación del controlador de invitado
Los siguientes cmdlets de PowerShell se pueden usar para la instalación del controlador:
$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"
Set-AzureRmVMExtension -Location $Location `
-Publisher $driverPublisher `
-ExtensionType $driverType `
-TypeHandlerVersion $driverVersion `
-VMName $VmName `
-ResourceGroupName $ResourceGroupName `
-Name $driverName `
-Settings $Settings ` # If no settings are set, omit this parameter
-Verbose
En función del sistema operativo, el tipo y la conectividad de la máquina virtual de GPU de Azure Stack Hub, deberá realizar modificaciones con la configuración siguiente.
AMD MI25
La versión del controlador invitado debe coincidir con la versión de Azure Stack Hub, independientemente del estado de conectividad. El uso de versiones más recientes no alineadas con la versión de Azure Stack Hub puede provocar problemas de facilidad de uso.
Versión de Azure Stack Hub | Controlador invitado AMD |
---|---|
2206 | 21.Q2-1, 20.Q4-1 |
2108 | 21.Q2-1, 20.Q4-1 |
2102 | 21.Q2-1, 20.Q4-1 |
Conectado
Use el script de PowerShell en la sección anterior con el tipo de controlador adecuado para AMD. En el artículo Instalación de controladores de GPU AMD en máquinas virtuales de la serie N que ejecutan Windows se proporcionan instrucciones sobre cómo instalar el controlador para AMD Radeon Instinct MI25 dentro de la máquina virtual habilitada para GPU-P de NVv4, junto con pasos sobre cómo comprobar la instalación del controlador.
Escenario desconectado
Puesto que la extensión extrae el controlador de una ubicación en Internet, una máquina virtual desconectada de la red externa no podrá acceder a él. Puede descargar el controlador de la tabla anterior y cargarlo en una cuenta de almacenamiento de la red local a la que se pueda acceder a la máquina virtual.
Agregue el controlador AMD a una cuenta de almacenamiento y especifique la dirección URL de esa cuenta en Settings
. Esta configuración debe usarse en el cmdlet Set-AzureRMVMExtension . Por ejemplo:
$Settings = @{
"DriverURL" = <URL to driver in storage account>
}
NVIDIA
Los controladores de NVIDIA deben instalarse dentro de la máquina virtual para cargas de trabajo de CUDA o GRID mediante la GPU.
Caso de uso: GRID de gráficos/visualización
Este escenario requiere el uso de controladores de GRID. Los controladores de GRID se pueden descargar a través del centro de aplicaciones de NVIDIA siempre que se tengan las licencias necesarias. Los controladores de GRID también requieren un servidor de licencias de GRID con las licencias de GRID adecuadas antes de usarlos en la máquina virtual.
$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664";
"DriverType"="GRID"
}
Caso de uso: proceso/CUDA: conectado
Los controladores de CUDA no necesitan un servidor de licencias ni una configuración modificada.
Caso de uso: proceso/CUDA: desconectado
Los vínculos a los controladores de NVIDIA CUDA se pueden obtener mediante el vínculo: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json
Windows:
$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664";
"DriverType"="CUDA"
}
Linux:
Tendrá que hacer referencia a algunas direcciones URL para la configuración.
URL | Notas |
---|---|
PUBKEY_URL | PUBKEY_URL es la clave pública para el repositorio de controladores de Nvidia, no para la máquina virtual Linux. Se usa para instalar el controlador para Ubuntu. |
DRIVER_URL | DRIVER_URL es la dirección URL para descargar la información del repositorio del controlador de Nvidia y se agrega a la lista de repositorios de la máquina virtual Linux. |
Agregue las direcciones URL a la configuración.
$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}
Pasos siguientes
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente GitHub Issues como mecanismo de comentarios sobre el contenido y lo sustituiremos por un nuevo sistema de comentarios. Para más información, vea:Enviar y ver comentarios de