Partekatu honen bidez:


Serie ND H100 v5

Se aplica a: ✔️ Máquinas virtuales Linux ✔️ Conjuntos de escalado flexibles ✔️ Conjuntos de escalado uniformes

La máquina virtual (VM) de la serie ND H100 v5 es una nueva adición estrella de la familia de GPU de Azure. Está diseñada para el entrenamiento de aprendizaje profundo de alto nivel y cargas de trabajo de HPC y de IA generativa de escalabilidad horizontal y vertical estrechamente acopladas.

La serie ND H100 v5 comienza con una sola máquina virtual y ocho GPU NVIDIA H100 Tensor Core. Las implementaciones basadas en ND H100 v5 se pueden escalar verticalmente hasta miles de GPU con un ancho de banda de interconexión de 3,2 Tb/s por máquina virtual. Cada GPU incluida en la máquina virtual se proporciona con su propia conexión InfiniBand de NVIDIA Quantum-2 CX7 de 400 Gb/s dedicada e independiente de la topología. Estas conexiones se configuran automáticamente entre máquinas virtuales que ocupan el mismo conjunto de escalado de máquinas virtuales y admiten RDMA de GPUDirect.

Cada GPU incluye conectividad NVLINK 4.0 para la comunicación dentro de la máquina virtual, y la instancia cuenta con el respaldo de 96 núcleos físicos de procesador escalables Intel Xeon de 4ª generación.

Estas instancias proporcionan un rendimiento excelente para muchas herramientas de IA, ML y análisis que admiten la aceleración GPU de serie, como TensorFlow, Pytorch, Caffe, RAPIDS y otras plataformas. Además, la interconexión InfiniBand de escalabilidad horizontal es compatible con un gran conjunto de herramientas de inteligencia artificial y HPC existentes creadas en las bibliotecas de comunicación NCCL de NVIDIA para una agrupación en clústeres de GPU sin problemas.

Premium Storage: Compatible
Almacenamiento en caché de Premium Storage: Compatible
Ultra Disk: Compatible Más información sobre la disponibilidad, el uso y el rendimiento
Migración en vivo: No compatible
Actualizaciones con conservación de memoria: No compatible
Compatibilidad con generación de VM: Generación 2
Redes aceleradas: compatible
Discos de sistema operativo efímero: compatible
InfiniBand: Compatible, RDMA de GPUDirect, NDR Gigabit de 8x400
Interconexión de NVIDIA NVLink: Compatible
Virtualización anidada: no compatible

Importante

Para empezar a trabajar con las máquinas virtuales ND H100 v5, vea Configuración y optimización de cargas de trabajo de HPC para conocer los pasos que incluyen la configuración del controlador y la red. Debido a la mayor superficie de E/S de memoria en la GPU, la serie ND H100 v5 necesita el uso de máquinas virtuales de generación 2 y de imágenes de marketplace.

Azure admite Ubuntu 20.04/22.04, RHEL 7.9/8.7/9.3, AlmaLinux 8.8/9.2 y SLES 15 para máquinas virtuales ND H100 v5. En Azure Marketplace, hay ofertas de imágenes de máquinas virtuales Linux optimizadas y preconfiguradas para cargas de trabajo de HPC/AI con una variedad de herramientas y bibliotecas de HPC instaladas y, por lo tanto, se recomiendan encarecidamente. Actualmente, se admiten imágenes de máquinas virtuales Ubuntu-HPC 20.04/22.04 y AlmaLinux-HPC 8.6/8.7.

Ejemplo

Tamaño vCPU Memoria: GiB GiB de almacenamiento temporal (SSD) GPU Memoria de GPU (GiB) Discos de datos máx. Rendimiento máximo del disco sin almacenamiento en la caché: IOPS/Mbps Ancho de banda de red máx. Nº máx. NIC
Standard_ND96isr_H100_v5 96 1900 28000 8 GPU H100 de 80 GB (NVLink) 80 32 40800/612 80 000 Mbps 8

Definiciones de tabla de tamaño

  • La capacidad de almacenamiento se muestra en unidades de GiB o 1024^3 bytes. Cuando compare discos que se miden en GB (1000^3 bytes) con discos que se miden en GiB (1024^3), recuerde que los números que representan la capacidad en GiB pueden parecer más pequeños. Por ejemplo, 1023 GiB = 1098,4 GB.

  • Se midió el rendimiento de disco en operaciones de entrada/salida por segundo (E/S por segundo) y MBps, donde Mbps = 10^6 bytes/s.

  • Los discos de datos pueden funcionar en modo en caché o en modo no en caché. En el caso de la operación de disco de datos en caché, el modo de caché del host está establecido en ReadOnly o ReadWrite. En el caso de la operación de disco de datos no en caché, el modo de caché del host está definido en None.

  • Para obtener información sobre cómo obtener el mejor rendimiento de almacenamiento para las VM, consulte Rendimiento de la máquina virtual y del disco.

  • El ancho de banda de red esperado es el ancho de banda agregado máximo asignado por tipo de máquina virtual en todas las NIC y para todos los destinos. Para más información, consulte Ancho de banda de red de las máquinas virtuales.

    No se garantizan los límites superiores. Los límites ofrecen una guía para seleccionar el tipo de máquina virtual adecuado para la aplicación prevista. El rendimiento de red real dependerá de diversos factores (como, por ejemplo, la congestión de la red, las cargas de la aplicación y la configuración de red). Para más información sobre cómo optimizar el rendimiento de red, consulte Optimización del rendimiento de red en las máquinas virtuales de Azure. Para lograr el rendimiento de red esperado en Linux o Windows, puede que deba seleccionar una versión específica u optimizar la máquina virtual. Para obtener más información, vea Pruebas de ancho de banda y rendimiento (NTTTCP).

Otros tamaños e información

Más información sobre los tipos de disco: Tipos de disco