Compartir vía


Guía de migración para cargas de trabajo de proceso de GPU en Azure

A medida que las GPU más eficaces estén disponibles en Marketplace y en los centros de datos de Microsoft Azure, se recomienda volver a evaluar el rendimiento de las cargas de trabajo y considerar la migración a GPU más recientes.

Por la misma razón, así como para mantener una oferta de servicio de alta calidad y confiable, Azure retira periódicamente el hardware que alimenta los tamaños de máquina virtual más antiguos. El primer grupo de productos de GPU que se retirarán en Azure son las máquinas virtuales originales de la serie NC, NC v2 y ND, con tecnología nvidia Tesla K80, P100 y aceleradores de GPU del centro de datos P40, respectivamente. Estos productos se retirarán el 31 de agosto de 2023 y las máquinas virtuales más antiguas de esta serie se lanzaron en 2016.

Desde entonces, las GPU han realizado increíbles avances junto con todo el aprendizaje profundo y la industria de HPC, normalmente superando una duplicación del rendimiento entre generaciones. Desde el lanzamiento de GPU NVIDIA K80, P40 y P100, Azure ha enviado varias generaciones y categorías más recientes de productos de máquina virtual orientados a procesos acelerados por GPU e inteligencia artificial, basados en las GPU T4, V100 y A100 de NVIDIA, y se ha diferenciado por características opcionales, como los tejidos de interconexión basados en InfiniBand. Estas son todas las opciones que animamos a los clientes a explorar como rutas de migración.

En la mayoría de los casos, el aumento dramático del rendimiento ofrecido por las generaciones más recientes de GPU reduce el TCO general al reducir la duración del trabajo, para trabajos ampliables o reducir la cantidad de máquinas virtuales habilitadas para GPU generales necesarias para cubrir una demanda de tamaño fijo para los recursos de proceso, aunque los costos por hora de GPU pueden variar. Además de estas ventajas, los clientes pueden mejorar el tiempo a la solución a través de máquinas virtuales de mayor rendimiento y mejorar el estado y la compatibilidad de su solución mediante la adopción de versiones más recientes del software, el entorno de ejecución de CUDA y los controladores.

Migración frente a optimización

Azure reconoce que los clientes tienen una gran cantidad de requisitos que pueden dictar la selección de un producto específico de máquina virtual de GPU, incluidas las consideraciones de arquitectura de GPU, las interconexiones, el TCO, el tiempo de solución y la disponibilidad regional en función de la localidad de cumplimiento o los requisitos de latencia, y algunos de estos cambios incluso a lo largo del tiempo.

Al mismo tiempo, la aceleración de GPU es un área nueva y en rápida evolución.

Por lo tanto, no hay ninguna guía única verdadera para este área de producto y una migración es un momento perfecto para volver a evaluar los cambios potencialmente dramáticos en una carga de trabajo, como pasar de un modelo de implementación agrupado a una sola máquina virtual grande de 8 GPU o viceversa, aprovechando tipos de datos de precisión reducida, adoptando características como GPU multiinstante y mucho más.

Este tipo de consideraciones, cuando se hacen en el contexto de aumentos de rendimiento de GPU por generación ya dramáticos, donde una característica como la adición de TensorCores puede aumentar el rendimiento en un orden de magnitud, son extremadamente específicas de la carga de trabajo.

La combinación de la migración con la re-arquitectura de aplicaciones puede producir un gran valor y una mejora en los costos y el tiempo hasta la solución.

Sin embargo, estos tipos de mejoras están fuera del ámbito de este documento, que tiene como objetivo centrarse en clases de equivalencia directas para cargas de trabajo generalizadas que pueden ejecutar los clientes hoy en día, para identificar las opciones de máquina virtual más similares en el precio y el rendimiento por GPU a las familias de máquinas virtuales existentes que se están retirando.

Por lo tanto, en este documento se supone que es posible que el usuario no tenga información o control sobre propiedades específicas de la carga de trabajo, como el número de instancias de máquina virtual necesarias, GPU, interconexiones, etc.

NC-Series máquinas virtuales con tarjetas gráficas NVIDIA K80

Las máquinas virtuales de la serie NC (v1) son el tipo de máquina virtual de proceso acelerado por GPU más antigua de Azure, con tecnología de 1 a 4 aceleradores de GPU del centro de datos NVIDIA Tesla K80 emparejados con procesadores Intel Xeon E5-2690 v3 (Haswell). Durante un tiempo fueron un tipo de máquina virtual estrella para aplicaciones exigentes de IA, ML y HPC, y siguen siendo una opción popular en los últimos tiempos del ciclo de vida del producto (especialmente a través de los precios promocionales de la serie NC) para los usuarios que valoraban tener un coste absoluto muy bajo por hora de GPU sobre GPU con mayor rendimiento por dólar.

En la actualidad, dado el rendimiento de proceso relativamente bajo de la plataforma de GPU de NVIDIA K80, en comparación con las series de máquinas virtuales con GPU más recientes, un caso de uso popular para la serie NC es cargas de trabajo de inferencia y análisis en tiempo real, donde una máquina virtual acelerada debe estar disponible en un estado estable para atender la solicitud de las aplicaciones a medida que llegan. En estos casos, el volumen o el tamaño del lote de las solicitudes pueden ser insuficientes para beneficiarse de GPU más eficaces. Las máquinas virtuales NC también son populares para desarrolladores y alumnos que aprenden, desarrollan o experimentan con la aceleración de GPU, que necesitan un objetivo de implementación de CUDA basado en la nube económico en el que iterar que no es necesario realizar en los niveles de producción.

En general, los clientes NC-Series deben considerar la posibilidad de pasar directamente de los tamaños NC a los tamaños NC T4 v3, la nueva plataforma acelerada por GPU de Azure para cargas de trabajo ligeras impulsada por NVIDIA Tesla T4 GPUs.

Tamaño de la máquina virtual actual Tamaño de la máquina virtual de destino Diferencia en la especificación
Standard_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3
o
Standard_NC8as_T4
CPU: Intel Haswell frente a AMD Rome
Recuento de GPU: 1 (igual)
Generación de GPU: NVIDIA Kepler frente a Turing (+2 generaciones, ~2x FP32 FLOPs)
Memoria de GPU (GiB por GPU): 16 (+4)
vCPU: 4 (-2) o 8 (+2)
GiB de memoria: 16 (-40) o 56 (igual)
GiB de almacenamiento temporal (SSD): 180 (-160) o 360 (+20)
Máximo de discos de datos: 8 (-4) o 16 (+4)
Redes aceleradas: Sí (+)
Premium Storage: Sí (+)
Standard_NC12
Standard_NC12_Promo
Standard_NC16as_T4_v3 CPU: Intel Haswell frente a AMD Rome
Recuento de GPU: 1 (-1)
Generación de GPU: NVIDIA Keppler frente a Turing (+2 generaciones, ~2x FP32 FLOP)
Memoria de GPU (GiB por GPU): 16 (+4)
vCPU: 16 (+4)
GiB de memoria: 110 (-2)
GiB de almacenamiento temporal (SSD): 360 (-320)
Máximo de discos de datos: 48 (+16)
Redes aceleradas: Sí (+)
Premium Storage: Sí (+)
Standard_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell frente a AMD Rome
Recuento de GPU: 4 (igual)
Generación de GPU: NVIDIA Kepler frente a Turing (+2 generaciones, ~2x FP32 FLOPs)
Memoria de GPU (GiB por GPU): 16 (+4)
vCPU: 64 (+40)
GiB de memoria: 440 (+216)
GiB de almacenamiento temporal (SSD): 2880 (+1440)
Máximo de discos de datos: 32 (-32)
Redes aceleradas: Sí (+)
Premium Storage: Sí (+)
Standard_NC24r
Standard_NC24r_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell frente a AMD Rome
Recuento de GPU: 4 (igual)
Generación de GPU: NVIDIA Kepler frente a Turing (+2 generaciones, ~2x FP32 FLOPS)
Memoria de GPU (GiB por GPU): 16 (+4)
vCPU: 64 (+40)
GiB de memoria: 440 (+216)
GiB de almacenamiento temporal (SSD): 2880 (+1440)
Máximo de discos de datos: 32 (-32)
Redes aceleradas: Sí (+)
Premium Storage: Sí (+)
Interconexión InfiniBand: No

Máquinas virtuales de la serie NC v2 con GPU NVIDIA Tesla P100

Las máquinas virtuales de la serie NC v2 son una plataforma insignia diseñada originalmente para cargas de trabajo de inteligencia artificial y aprendizaje profundo. Ofrecen un excelente rendimiento para el entrenamiento de aprendizaje profundo, con un rendimiento por GPU aproximadamente 2 veces el de la NC-Series original y cuentan con la tecnología de GPU NVIDIA Tesla P100 e Intel Xeon E5-2690 v4 (Broadwell). Al igual que la serie NC y ND, la serie NC v2 ofrece una configuración con una red secundaria de baja latencia, alto rendimiento a través de RDMA e conectividad de InfiniBand para que pueda ejecutar trabajos de entrenamiento a gran escala que abarcan muchas GPU.

En general, los clientes de la serie NCv2 deben considerar la posibilidad de pasar a los tamaños NC A100 v4, la nueva plataforma acelerada por GPU de Azure con tecnología de GPU NVIDIA Ampere A100 PCIe.

Tamaño de la máquina virtual actual Tamaño de la máquina virtual de destino Diferencia en la especificación
Standard_NC6s_v2 Standard_NC24ads_A100_v4 CPU: Intel Broadwell frente a AMD Milan
Recuento de GPU: 1 (igual)
Generación de GPU: NVIDIA Pascal frente a Ampere (+2 generación)
Memoria de GPU (GiB por GPU): 80 (+64)
vCPU: 24 (+18)
GiB de memoria: 220 (+108)
GiB de almacenamiento temporal (SSD): 1123 (+387)
Número máximo de discos de datos: 12 (igual)
Redes aceleradas: Sí (+)
Premium Storage: Sí (+)
Standard_NC12s_v2 Standard_NC48ads_A100_v4 CPU: Intel Broadwell frente a AMD Milan
Recuento de GPU: 2 (igual)
Generación de GPU: NVIDIA Pascal frente a Ampere (+2 generaciones)
Memoria de GPU (GiB por GPU): 80 (+64)
vCPU: 48 (+36)
GiB de memoria: 440 (+216)
GiB de almacenamiento temporal (SSD): 2246 (+772)
Máximo de discos de datos: 24 (igual)
Redes aceleradas: Sí (+)
Premium Storage: Sí (+)
Standard_NC24s_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell frente a AMD Milan
Recuento de GPU: 4 (igual)
Generación de GPU: NVIDIA Pascal frente a Ampere (+2 generaciones)
Memoria de GPU (GiB por GPU): 80 (+64)
vCPU (unidad central de procesamiento virtual): 96 (+72 adicionales)
GiB de memoria: 880 (+432)
GiB de almacenamiento temporal (SSD): 4492 (+1544)
Máximo de discos de datos: 32 (igual)
Redes aceleradas: Sí (+)
Premium Storage: Sí (+)
Standard_NC24rs_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell frente a AMD Milan
Recuento de GPU: 4 (igual)
Generación de GPU: NVIDIA Pascal frente a Ampere (+2 generaciones)
Memoria de GPU (GiB por GPU): 80 (+64)
vCPU: 96 (+72)
GiB de memoria: 880 (+432)
GiB de almacenamiento temporal (SSD): 4492 (+1544)
Máximo de discos de datos: 32 (igual)
Redes aceleradas: Sí (+)
Premium Storage: Sí (+)
Interconexión InfiniBand: No (-)

Máquinas virtuales de la serie ND con GPU NVIDIA Tesla P40

Las máquinas virtuales de la serie ND son una plataforma de rango medio diseñada originalmente para cargas de trabajo de inteligencia artificial y aprendizaje profundo. Ofrecen un excelente rendimiento para la inferencia por lotes a través de operaciones de punto flotante de precisión única mejoradas en comparación con sus predecesores; además, cuentan con la tecnología de GPU NVIDIA Tesla P40 e Intel Xeon E5-2690 v4 (Broadwell). Al igual que la serie NC y NC v2, el ND-Series ofrece una configuración con una red secundaria de baja latencia, alto rendimiento a través de RDMA e conectividad de InfiniBand para poder ejecutar trabajos de entrenamiento a gran escala que abarcan muchas GPU.

Tamaño de la máquina virtual actual Tamaño de la máquina virtual de destino Diferencia en la especificación
Standard_ND6 Standard_NC4as_T4_v3
o
Standard_NC8as_T4_v3
CPU: Intel Broadwell frente a AMD Rome
Recuento de GPU: 1 (igual)
Generación de GPU: NVIDIA Pascal frente a Turing (+1 generación)
Memoria de GPU (GiB por GPU): 16 (-8)
vCPU: 4 (-2) o 8 (+2)
GiB de memoria: 16 (-40) o 56 (-56)
GiB de almacenamiento temporal (SSD): 180 (-552) o 360 (-372)
Máximo de discos de datos: 8 (-4) o 16 (+4)
Redes aceleradas: Sí (+)
Premium Storage: Sí (+)
Standard_ND12 Standard_NC16as_T4_v3 CPU: Intel Broadwell frente a AMD Rome
Recuento de GPU: 1 (-1)
Generación de GPU: NVIDIA Pascal frente a Turing (+1 generaciones)
Memoria de GPU (GiB por GPU): 16 (-8)
vCPU: 16 (+4)
GiB de memoria: 110 (-114)
GiB de almacenamiento temporal (SSD): 360 (-1,114)
Máximo de discos de datos: 48 (+16)
Redes aceleradas: Sí (+)
Premium Storage: Sí (+)
Standard_ND24 Standard_NC64as_T4_v3* CPU: Intel Broadwell frente a AMD Rome
Recuento de GPU: 4 (igual)
Generación de GPU: NVIDIA Pascal frente a Turing (+1 generaciones)
Memoria de GPU (GiB por GPU): 16 (-8)
vCPU: 64 (+40)
GiB de memoria: 440 (igual)
GiB de almacenamiento temporal (SSD): 2880 (igual)
Máximo de discos de datos: 32 (igual)
Redes aceleradas: Sí (+)
Premium Storage: Sí (+)
Standard_ND24r Standard_ND96amsr_A100_v4 CPU: Intel Broadwell frente a AMD Rome
Recuento de GPU: 8 (+4)
Generación de GPU: NVIDIA Pascal frente a Ampere (+2 generación)
Memoria de GPU (GiB por GPU): 80 (+56)
vCPU: 96 (+72)
GiB de memoria: 1900 (+1452)
GiB de almacenamiento temporal (SSD): 6400 (+3452)
Máximo de discos de datos: 32 (igual)
Redes aceleradas: Sí (+)
Premium Storage: Sí (+)
Interconexión de InfiniBand: Sí (igual)

Pasos de migración

Cambios generales

  1. Elija una serie y un tamaño para la migración. Aproveche la calculadora de precios para obtener más información.

  2. Obtenga la cuota de la serie de máquinas virtuales de destino.

  3. Cambie el tamaño actual de la máquina virtual de la serie N* al tamaño de destino. Esto también puede ser un buen momento para actualizar el sistema operativo usado por la imagen de máquina virtual o adoptar una de las imágenes de HPC con controladores preinstalados como punto de partida.

    Importante

    Es posible que la imagen de máquina virtual se haya producido con una versión anterior del entorno de ejecución de CUDA, el controlador NVIDIA y (si procede, solo para los tamaños habilitados para RDMA) los controladores OFED de Mellanox que la nueva serie de máquinas virtuales de GPU requiere, que se pueden actualizar siguiendo las instrucciones de la documentación de Azure.

Últimos cambios

Selecciona el tamaño objetivo para la migración

Después de evaluar el uso actual, decida qué tipo de máquina virtual de GPU necesita. En función de los requisitos de carga de trabajo, tiene algunas opciones diferentes.

Nota:

Un procedimiento recomendado consiste en seleccionar un tamaño de máquina virtual en función del costo y el rendimiento. Las recomendaciones de esta guía se basan en una comparación uno a uno de las métricas de rendimiento y la coincidencia más cercana en otra serie de máquinas virtuales. Antes de decidir el tamaño correcto, obtenga una comparación de costos mediante la Calculadora de precios de Azure.

Importante

Todos los tamaños heredados de NC, NC v2 y ND-Series están disponibles en tamaños de varias GPU, incluidos tamaños de 4 GPU, tanto con como sin la interconexión InfiniBand, para cargas de trabajo a gran escala y estrechamente acopladas que necesitan más potencia de cálculo que la que una sola máquina virtual de 4 GPU o una sola GPU K80, P40 o P100 pueden proporcionar respectivamente. Aunque las recomendaciones anteriores ofrecen una ruta de acceso directa, los usuarios de estos tamaños deben considerar la posibilidad de lograr sus objetivos de rendimiento con una serie de máquinas virtuales basadas en GPU NVIDIA V100 más potente, como la serie NC v3 y la serie ND v2, que normalmente permiten el mismo nivel de rendimiento de la carga de trabajo a menores costos y con una capacidad de administración mejorada al proporcionar un rendimiento considerablemente mayor por GPU y por máquina virtual antes de que se requieran configuraciones de varios nodos y gpu, respectivamente.

Obtener la cuota de la familia de máquinas virtuales de destino

Siga la guía para solicitar un aumento de la cuota de vCPU por familia de máquinas virtuales. Seleccione el tamaño de máquina virtual de destino que ha seleccionado para la migración.

Cambiar el tamaño de la máquina virtual actual

Puede cambiar el tamaño de la máquina virtual.

Pasos siguientes

Para obtener una lista completa de los tamaños de máquina virtual habilitados para GPU, consulte Información general sobre el proceso acelerado de GPU.