Série ND H100 v5

Article
02/05/2024

S’applique à : ✔️ Machines virtuelles Linux ✔️ Groupes identiques flexibles ✔️ Groupes identiques uniformes

La machine virtuelle (VM) de la série ND H100 v5 est un nouvel ajout phare à la famille Azure GPU. Il est conçu pour la formation Deep Learning haut de gamme et les charges de travail IA générative et HPC étroitement couplées.

La série ND H100 v5 commence avec une seule machine virtuelle et huit GPU NVIDIA H100 Tensor Core. Les déploiements basés sur ND H100 v5 peuvent évoluer jusqu'à des milliers de GPU avec 3,2 To/s de bande passante d'interconnexion par VM. Chaque GPU de la machine virtuelle est fourni avec sa propre connexion NVIDIA Quantum-2 CX7 InfiniBand dédiée et indépendante de la topologie. Ces connexions sont configurées automatiquement entre les machines virtuelles occupant le même groupe de machines virtuelles identiques, et prennent en charge GPUDirect RDMA.

Chaque GPU dispose d'une connectivité NVLINK 4.0 pour la communication au sein de la machine virtuelle, et l'instance est soutenue par 96 cœurs de processeur Intel Xeon Scalable de 4e génération.

Ces instances offrent d'excellentes performances pour de nombreux outils d'IA, de ML et d'analyse qui prennent en charge l'accélération GPU « prête à l'emploi », tels que TensorFlow, Pytorch, Caffe, RAPIDS et d'autres frameworks. De plus, l'interconnexion InfiniBand scale-out est prise en charge par un large ensemble d'outils IA et HPC existants qui sont basés sur les bibliothèques de communication NCCL de NVIDIA pour un clustering transparent des GPU.

Stockage Premium : Pris(e) en charge
Mise en cache du Stockage Premium : Pris(e) en charge
Disque Ultra : pris en charge En savoir plus sur la disponibilité, l'utilisation et les performances
Migration dynamique : Non pris en charge
Mises à jour avec préservation de la mémoire : Non pris en charge
Génération de machine virtuelle prise en charge : Génération 2
Performances réseau accélérées : pris en charge
Disques de système d’exploitation éphémères : pris en charge
Infiniband : pris en charge, GPUDirect RDMA, 8x400 Gigabit NDR
Interconnexion NVIDIA/NVLink : Pris en charge
Virtualisation imbriquée : non pris en charge

Important

Pour démarrer avec les machines virtuelles ND H100 v5, reportez-vous à Configuration et optimisation de la charge de travail HPC pour les étapes comprenant la configuration du pilote et du réseau. En raison de l'encombrement accru des E/S de la mémoire GPU, le ND H100 v5 nécessite l'utilisation de machines virtuelles de génération 2 et d'images de marché.

Azure prend en charge Ubuntu 20.04/22.04, RHEL 7.9/8.7/9.3, AlmaLinux 8.8/9.2 et SLES 15 pour les machines virtuelles ND H100 v5. Sur la Place de marché Azure, il existe des offres d’images de machine virtuelle Linux optimisées et préconfigurées pour les charges de travail HPC/IA avec de nombreux outils et bibliothèques HPC installés ; elles sont donc fortement recommandées. Actuellement, les images de machine virtuelle Ubuntu-HPC 20.04/22.04 et AlmaLinux-HPC 8.6/8.7 sont prises en charge.

Exemple

Taille	Processeurs virtuels	Mémoire : Gio	Stockage temporaire (SSD) en Gio	GPU	Gio de mémoire GPU	Disques de données max.	Débit du disque non mis en cache max. : IOPS/Mbits/s	Bande passante réseau maximale	Nombre max de cartes réseau
Standard_ND96isr_H100_v5	96	1900	28000	8 GPU H100 80 Go (NVLink)	80	32	40800/612	80 000 Mbits/s	8

Définitions des tailles de tables

La capacité de stockage est indiquée en unités de Gio ou 1 024^3 octets. Lorsque vous comparez des disques mesurés en Go (1 000^3 octets) à des disques mesurés en Gio (1 024^3), n’oubliez pas que les nombres de capacité donnés en Gio peuvent paraitre inférieurs. Par exemple, 1 023 Gio = 1 098,4 Go.
Le débit de disque est mesuré en opérations d’entrée/sortie par seconde (IOPS) et Mbit/s où Mbit/s = 10^6 octets par seconde.
Les disques de données peuvent fonctionner en mode avec ou sans mise en cache. En cas de fonctionnement du disque de données avec mise en cache, le mode de mise en cache hôte est défini sur ReadOnly ou ReadWrite. En cas de fonctionnement du disque de données sans mise en cache, le mode de mise en cache hôte est défini sur Aucun.
Pour découvrir comment obtenir les meilleures performances de stockage pour vos machines virtuelles, consultez Performances des disques et des machines virtuelles.
La bande passante réseau attendue est la bande passante agrégée maximale qui est allouée par type de machine virtuelle entre toutes les cartes réseau, pour toutes les destinations. Pour plus d’informations, consultez Bande passante réseau des machines virtuelles.

Les limites supérieures ne sont pas garanties. Les limites permettent de sélectionner le type de machine virtuelle approprié pour l’application prévue. Les performances réseau réelles dépendent de nombreux facteurs, notamment la congestion du réseau, les charges de l’application, ainsi que les paramètres réseau. Pour plus d’informations sur l’optimisation du débit du réseau, consultez Optimiser le débit du réseau pour les machines virtuelles Azure. Pour atteindre la performance réseau attendue sous Linux ou Windows, il peut être nécessaire de sélectionner une version spécifique ou d’optimiser votre machine virtuelle. Pour plus d’informations, consultez Test de bande passante/débit (NTTTCP).

Autres tailles et informations

Pour plus d’informations sur les types de disques : Types de disques

Partager via

Série ND H100 v5

Exemple

Définitions des tailles de tables

Autres tailles et informations

Commentaires

Commentaires

Ressources supplémentaires