Tailles des machines virtuelles de calcul haute performance (HPC)

Attention

Cet article fait référence à CentOS, une distribution Linux proche de l’état EOL (End Of Life). Faites le point sur votre utilisation et organisez-vous en conséquence. Pour plus d’informations, consultez l’aide sur la fin de vie de CentOS.

S’applique aux : ✔️ Machines virtuelles Linux ✔️ Machines virtuelles Windows ✔️ Groupes identiques flexibles ✔️ Groupes identiques uniformes

Conseil

Essayez l’ outil de sélection des machines virtuelles pour trouver d’autres tailles mieux adaptées à votre charge de travail.

Les machines virtuelles de la série HBv4 sont optimisées pour diverses charges de travail HPC, comme la dynamique des fluides numérique, l’analyse par éléments finis, le front-end, le rendu, la dynamique moléculaire, la géoscience informatique, la simulation météorologique et l’analyse des risques financiers. Les machines virtuelles HBv4 comportent jusqu’à 176 cœurs de processeurs AMD EPYC™ 9V33X (GenoaX) avec le cache 3D-V d’AMD, 768 Go de RAM et aucun multithreading simultané. Les machines virtuelles de la série HBV4 offrent également 780 Go/s de bande passante de mémoire DDR5 et 2304 Mo de cache L3 par machine virtuelle, jusqu'à 12 Go/s (en lecture) et 7 Go/s (en écriture) de performances de dispositifs de blocs SSD, et des fréquences d’horloge allant jusqu'à 3,7 GHz.

Toutes les machines virtuelles de la série HBv4 reposent sur l’architecture InfiniBand NDR à 400 Go/s de NVIDIA Networking pour permettre des charges de travail MPI à l’échelle d’un superordinateur. Ces machines virtuelles sont connectées dans une arborescence FAT non bloquante pour des performances RDMA optimisées et cohérentes. NDR continue de prendre en charge des fonctionnalités telles que le routage adaptatif et le transport connecté dynamiquement (DCT). Cette nouvelle génération d’InfiniBand s’accompagne en outre d’une meilleure prise en charge du déchargement des collectifs MPI, des latences réelles optimisées en raison de l’intelligence du contrôle de congestion et des capacités de routage adaptatif améliorées. Ces fonctionnalités améliorent les performances, la scalabilité et la cohérence des applications, et leur utilisation est recommandée.

Les machines virtuelles de la série HBv3 sont optimisées pour les applications HPC telles que la dynamique des fluides, l’analyse des éléments finis explicites et implicites, la modélisation de phénomènes météorologiques, le traitement de données sismiques, la simulation de réservoir et la simulation RTL. Les machines virtuelles HBv3 offrent jusqu’à 120 cœurs de processeurs AMD EPYC™ 7003 (MilanX), 448 Go de RAM et aucun hyperthreading. Les machines virtuelles de la série HBv3 offrent également une bande passante mémoire de 350 Go/sec, jusqu’à 32 Mo de cache L3 par cœur, des performances de disque SSD allant jusqu’à 7 Go/s et des fréquences d’horloge allant jusqu’à 3,5 GHz.

Toutes les machines virtuelles de la série HBv3 sont équipées d’InfiniBand HDR à 200 Gbit/s des solutions de mise en réseau NVIDIA pour permettre des charges de travail MPI à l’échelle d’un superordinateur. Ces machines virtuelles sont connectées dans une arborescence FAT non bloquante pour des performances RDMA optimisées et cohérentes. L’architecture InfiniBand HDR prend également en charge le routage adaptatif et le transport connecté dynamique (DCT, en plus des transports RC et UD standards). Ces fonctionnalités améliorent les performances, la scalabilité et la cohérence des applications, et leur utilisation est vivement recommandée.

Les machines virtuelles de la série HBv2 sont optimisées pour des applications tributaires de la bande passante mémoire, par exemple la dynamique des fluides, l’analyse par éléments finis et la simulation de réservoir. Les machines virtuelles HBv2 disposent de 120 cœurs de processeur AMD EPYC 7742, de 4 Go de RAM par cœur de processeur, et d’aucun multithreading simultané. Chaque machine virtuelle HBv2 fournit jusqu’à 340 Go/s de bande passante de mémoire et jusqu’à 4 téraflops de calcul FP64.

Les machines virtuelles de la série HBv2 disposent d’un bus InfiniBand Mellanox HDR à 200 Gb/s, tandis que les machines virtuelles des séries HB et HC disposent d’un bus InfiniBand Mellanox EDR à 100 Gb/s. Tous ces types de machines virtuelles sont connectés dans une arborescence FAT non bloquante pour des performances RDMA optimisées et cohérentes. Les machines virtuelles HBv2 prennent en charge le routage adaptatif et le transport connecté dynamique (DCT, en plus des transports RC et UD standard). Ces fonctionnalités améliorent les performances, la scalabilité et la cohérence des applications, et leur utilisation est vivement recommandée.

Les machines virtuelles de la série HB sont optimisées pour des applications tributaires de la bande passante mémoire, par exemple la dynamique des fluides, l’analyse explicite par éléments finis et la modélisation du climat. Les machines virtuelles HB disposent de 60 cœurs de processeur AMD EPYC 7551, de 4 Go de RAM par cœur de processeur, et d’aucun hyperthreading. La plateforme AMD EPYC fournit plus de 260 Go/s de bande passante mémoire.

Les machines virtuelles de la série HC sont optimisées pour les applications tributaires d’un calcul dense, telles que l’analyse implicite par éléments finis, la dynamique moléculaire et la chimie numérique. Les machines virtuelles HC disposent de 44 cœurs de processeur Intel Xeon Platinum 8168, de 8 Go de RAM par cœur de processeur, et d’aucun hyperthreading. La plateforme Intel Xeon Platinum prend en charge le riche écosystème d’outils logiciels d’Intel, comme Intel Math Kernel Library.

Les machines virtuelles de la série HX sont optimisées pour des charges de travail qui nécessitent une capacité de mémoire importante grâce à une capacité de mémoire deux fois supérieure à HBv4. Par exemple, les charges de travail telles que la conception de silicium peuvent utiliser les VM de la série HX pour permettre aux clients EDA ciblant les processus de fabrication les plus avancés d’exécuter leurs charges de travail les plus gourmandes en mémoire. Les machines virtuelles HX offrent jusqu’à 176 cœurs de processeurs AMD EPYC™ 9V33X (GenoaX), 1408 Go de RAM et aucun multithreading simultané. Les machines virtuelles de la série HX offrent également 780 Go/s de bande passante de mémoire DDR5 et 2304 Mo de cache L3 par machine virtuelle, jusqu'à 12 Go/s (en lecture) et 7 Go/s (en écriture) de performances de dispositifs de blocs SSD, et des fréquences d’horloge allant jusqu'à 3,7 GHz.

Remarque

Toutes les machines virtuelles des séries HBv4, HBv3, HBv2, HB, HC et HX ont un accès exclusif aux serveurs physiques. Il n’y a qu’une seule machine virtuelle par serveur physique et aucune multilocation partagée avec d’autres machines virtuelles pour ces tailles de machine virtuelle.

Instances prenant en charge RDMA

La plupart des tailles de machines virtuelles HPC offrent une interface réseau pour la connectivité par accès direct à la mémoire à distance (RDMA). Les tailles sélectionnées de la série N désignées par « r » prennent également en charge la fonctionnalité RDMA. Cette interface s’ajoute à l’interface réseau Ethernet Azure standard disponible dans d’autres tailles de machine virtuelle.

Cette interface secondaire permet aux instances compatibles RDMA de communiquer sur un réseau InfiniBand (IB), opérant à des vitesses HDR pour les machines virtuelles HBv3 et HBv2, EDR pour les machines virtuelles HB, HC et NDv2, FDR pour les machines virtuelles H16r et H16mr, et autres machines virtuelles de la série N compatibles RDMA. Ces fonctionnalités RDMA peuvent améliorer la scalabilité et les performances des applications basées sur une interface de passage de messages (Message Passing Interface, MPI).

Notes

Prise en charge de SR-IOV : sans Azure HPC, il existe actuellement deux classes de machines virtuelles, selon qu’elles sont ou non compatibles avec SR-IOV pour InfiniBand. À l’heure actuelle, presque toutes les machines virtuelles les plus récentes prenant en charge RDMA ou InfiniBand sur Azure sont compatibles avec SR-IOV, à l’exception de H16r, H16mr et NC24r. RDMA est activé uniquement sur le réseau InfiniBand (IB) et est pris en charge pour toutes les machines virtuelles compatibles RDMA. IP over IB est uniquement pris en charge sur les machines virtuelles compatibles SR-IOV. RDMA n’est pas activé sur le réseau Ethernet.

  • Système d’exploitation : des distributions Linux telles que CentOS, RHEL, Ubuntu et SUSE sont couramment utilisées. Windows Server 2016 et versions ultérieures sont pris en charge sur toutes les machines virtuelles de la série HPC. Notez que Windows Server 2012 R2 n’est pas pris en charge sur les HBv2 et autres machines virtuelles dotées de plus de 64 cœurs (virtuels ou physiques). Pour obtenir la liste des images de machines virtuelles prises en charge sur la place de marché et savoir comment les configurer de manière appropriée, consultez Images de machine virtuelle. Les pages de taille de machine virtuelle respectives affichent également la prise en charge de la pile logicielle.

  • InfiniBand et pilotes : sur les machines virtuelles prenant en charge InfiniBand, certains pilotes sont requis pour activer la fonctionnalité RDMA. Pour obtenir la liste des images de machines virtuelles prises en charge sur la place de marché et savoir comment les configurer de manière appropriée, consultez Images de machine virtuelle. Consultez également Activation d’InfiniBand pour découvrir les extensions de machine virtuelle ou l’installation manuelle des pilotes InfiniBand.

  • MPI : les tailles des machines virtuelles SR-IOV activées sur Azure permettent d’utiliser presque tous les qualificateurs de MPI avec Mellanox OFED. Pour plus d’informations sur la configuration de l’interface de passage de messages sur des machines virtuelles HPC sur Azure, consultez Configurer MPI pour HPC.

    Notes

    Espace d'adressage réseau RDMA : le réseau RDMA dans Azure réserve l'espace d’adressage 172.16.0.0/16. Si vous exécutez des applications MPI sur des instances déployées dans un réseau virtuel Azure, assurez-vous que l’espace d’adressage du réseau virtuel ne chevauche pas le réseau RDMA.

Options de configuration de cluster

Azure fournit plusieurs options pour créer des clusters de machines virtuelles HPC pouvant communiquer via le réseau RDMA, notamment :

  • Machines virtuelles : déployez les machines virtuelles HPC compatibles RDMA dans le même groupe de machines virtuelles identiques ou groupe à haute disponibilité (quand vous utilisez le modèle de déploiement Azure Resource Manager). Si vous utilisez le modèle de déploiement classique, déployez les machines virtuelles dans le même service cloud.

  • Groupes de machines virtuelles identiques : dans un groupe de machines virtuelles identiques, veillez à limiter le déploiement à un seul groupe de placements pour la communication InfiniBand au sein du groupe identique. Par exemple, dans un modèle Resource Manager, définissez la propriété singlePlacementGroup avec la valeur true. Notez que la taille d’un groupe identique qui peut être lancé avec singlePlacementGroup=true est limitée par défaut à 100 machines virtuelles. Si vos besoins de mise à l’échelle des travaux HPC sont supérieurs à 100 machines virtuelles dans un seul locataire, vous pouvez demander une augmentation : ouvrez une demande de support client en ligne gratuitement. La limite du nombre de machines virtuelles dans un seul groupe identique peut être portée à 300. Notez que quand vous déployez des machines virtuelles à l’aide de groupes à haute disponibilité, la limite maximale est de 200 machines virtuelles par groupe à haute disponibilité.

    Notes

    MPI entre les machines virtuelles : si RDMA (par exemple en utilisant la communication MPI) est nécessaire entre les machines virtuelles, assurez-vous que les machines virtuelles figurent dans le même groupe de machines virtuelles identiques ou groupe à haute disponibilité.

  • Azure CycleCloud : Créez un cluster HPC utilisant Azure CycleCloud pour exécuter des travaux MPI.

  • Azure Batch : Créez un pool Azure Batch pour exécuter des charges de travail MPI. Pour utiliser des instances nécessitant beaucoup de ressources système lors de l’exécution d’applications MPI avec Azure Batch, consultez Utiliser les tâches multi-instances pour exécuter des applications MPI (Message Passing Interface) dans Azure Batch.

  • Microsoft HPC Pack - HPC Pack comprend un environnement d’exécution pour MS-MPI qui utilise le réseau RDMA Azure en cas de déploiement sur des machines virtuelles Linux compatibles RDMA. Pour des exemples de déploiement, voir Configuration d’un cluster RDMA Linux avec HPC Pack pour exécuter des applications MPI.

Points à prendre en considération pour le déploiement

  • Abonnement Azure : pour déployer un plus grand nombre d’instances de calcul intensif, envisagez de souscrire un abonnement de paiement à l’utilisation ou d’autres options d’achat. Si vous utilisez un compte gratuit Azure, vous pouvez seulement utiliser un nombre limité de cœurs de calcul Azure.

  • Tarification et disponibilité : vérifiez la tarification et la disponibilité des machines virtuelles par région Azure.

  • Quota de cœurs : vous devrez peut-être augmenter le quota de cœurs dans votre abonnement Azure à partir de la valeur par défaut. Votre abonnement peut également limiter le nombre de cœurs, que vous pouvez déployer dans certaines familles de taille de machine virtuelle, dont la série H. Pour demander une augmentation de quota, ouvrez une demande de service clientèle en ligne gratuitement. (Les limites par défaut peuvent varier en fonction de la catégorie de votre abonnement.)

    Notes

    Si vous avez des besoins de capacité à grande échelle, contactez le support Azure. Les quotas d’Azure sont des limites de crédit et non des garanties de capacité. Quel que soit votre quota, vous êtes facturé uniquement pour les cœurs que vous utilisez.

  • Réseau virtuel : un réseau virtuel Azure n’est pas requis pour utiliser les instances qui nécessitent beaucoup de ressources système. Cependant, pour bon nombre de scénarios de déploiement, vous avez besoin d’au moins un réseau virtuel Azure cloud ou d’une connexion de site à site si vous devez accéder à des ressources locales. Si nécessaire, créez un réseau virtuel avant de déployer les instances. L’ajout de machines virtuelles nécessitant beaucoup de ressources système à un réseau virtuel dans un groupe d’affinités n’est pas pris en charge.

  • Redimensionnement : en raison de leur matériel spécialisé, seules les instances nécessitant beaucoup de ressources système qui appartiennent à la même famille de taille (série H ou N) peuvent être redimensionnées. Par exemple, vous pouvez redimensionner une machine virtuelle de la série H uniquement d’une seule taille en une autre de cette même série. Des considérations supplémentaires concernant la prise en charge des pilotes InfiniBand et les disques NVMe peuvent se révéler nécessaires pour certaines machines virtuelles.

Autres tailles

Étapes suivantes