Fabrication du stockage HPC

Article
04/09/2024

L’accès au stockage est une partie importante de la planification des performances des charges de travail HPC. Les matériaux suivants permettent de faciliter le processus de décision et de réduire les malentendus concernant les fonctionnalités (ou l’absence de fonctionnalités) d’une solution de stockage particulière.

Remarques relatives à la conception

Il est important de garantir que les données nécessaires sont disponibles pour les machines du cluster HPC au bon moment. Vous souhaitez également garantir que les résultats provenant de ces machines individuelles sont enregistrés rapidement et sont disponibles pour une analyse plus approfondie.

Distribution du trafic des charges de travail

Prenez en compte les types de trafic qui sont générés et traités par votre environnement HPC. Cette étape est particulièrement importante si vous envisagez d’exécuter plusieurs types de charges de travail et que vous envisagez d’utiliser le stockage à d’autres fins. Examinez et enregistrez les types de trafic suivants :

Flux unique ou flux multiples
Rapport entre le trafic de lecture et le trafic d’écriture
Taille moyenne des fichiers et nombre moyen de fichiers
Modèles d’accès aléatoires ou séquentiels

Emplacement des données

La catégorie suivante rend compte de l’emplacement des données. La prise en compte de la localité vous aide à déterminer si vous pouvez utiliser la copie, la mise en cache ou la synchronisation comme stratégie de déplacement des données. Voici les éléments de localité à vérifier au préalable :

Données sources locales, dans Azure ou les deux ?
Données de résultats locales, dans Azure ou les deux ?
Les charges de travail HPC dans Azure sont-elles coordonnées avec les chronologies de modification des données sources ?
Données sensibles/HIPAA ?

Exigences en matière de performances

Les exigences de performances pour les solutions de stockage sont généralement résumées comme suit :

Débit à flux unique (en Go/s)
Débit à flux multiples (en Go/s)
Nombre maximal attendu d’IOPS
Latence moyenne (ms)

Chaque considération affecte les performances. Ces valeurs constituent donc un guide qu’une solution spécifique doit atteindre. Par exemple, vous pouvez avoir une charge de travail HPC qui effectue des créations et des suppressions intensives de fichiers dans le cadre du workflow. Ces opérations peuvent affecter le débit global.

Méthodes d’accès

Comptez le protocole d’accès client requis et soyez clair sur les fonctionnalités du protocole dont vous avez besoin. Il existe différentes versions de NFS et de SMB.

Voici quelques possibilités d’opérations à prendre en considération :

Versions NFS/SMB requises
Fonctionnalités de protocole attendues (ACL, chiffrement)
Solution avec système de fichiers parallèle

Capacité totale nécessaire

La capacité de stockage dans Azure est le point suivant à prendre en compte. Elle aide à déterminer le coût global de la solution. Si vous prévoyez de stocker une grande quantité de données pendant une longue période, vous souhaiterez peut-être envisager la hiérarchisation dans le cadre de la solution de stockage. La hiérarchisation offre des options de stockage à moindre coût associées à un stockage plus économique mais à plus hautes performances dans un niveau très chaud. Par conséquent, évaluez les besoins en capacité comme suit :

Capacité totale nécessaire
Capacité totale de niveau très chaud nécessaire
Capacité totale de niveau chaud nécessaire
Capacité totale de niveau froid nécessaire

Erreurs d’authentification et d’autorisation

En ce qui concerne les exigences d’authentification et d’autorisation, comme l’utilisation d’un serveur LDAP ou d’un environnement Active Directory, vous permet d’inclure les systèmes de prise en charge appropriés pour l’architecture. Si vous devez prendre en charge une fonctionnalité comme le mappage d’UID/GID aux utilisateurs Active Directory, confirmez que la solution de stockage prend en charge cette fonctionnalité.

Voici quelques possibilités d’opérations à prendre en considération :

Local (UID/GID sur le serveur de fichiers uniquement)
Annuaire (LDAP, Active Directory)
Mappage des UID/GID aux utilisateurs Active Directory ?

Comparaison des solutions de stockage Azure courantes

Category	Stockage Blob Azure	Azure Files	Azure Managed Lustre	Azure NetApp Files
Cas d'utilisation	Le service Stockage Blob Azure est celui qui convient le mieux aux charges de travail à accès séquentiel et à lecture intensive à grande échelle, où les données sont ingérées une fois avec peu ou pas de modifications ultérieures. Stockage Blob offre le coût total de possession le plus bas, si la maintenance est faible ou nulle. Exemples de scénarios : données analytiques à grande échelle, calcul haute performance sensible au débit, sauvegarde et archivage, conduite autonome, rendu multimédia ou séquençage génomique.	Azure Files est un service hautement disponible qui convient parfaitement aux charges de travail à accès aléatoire. Pour les partages NFS, Azure Files fournit une prise en charge complète du système de fichiers POSIX. Vous pouvez facilement l’utiliser à partir de plateformes de conteneurs telles qu'Azure Container Instance (ACI) et Azure Kubernetes Service (AKS) avec le pilote CSI intégré, et de plateformes basées sur les machines virtuelles. Exemples de scénarios : fichiers partagés, bases de données, répertoires personnels, applications traditionnelles, ERP, systèmes de gestion de contenu, migrations NAS ne nécessitant pas de gestion avancée, et applications personnalisées nécessitant un stockage de fichiers avec montée en puissance parallèle.	Azure Managed Lustre est un système de fichiers parallèles entièrement géré qui convient parfaitement aux charges de travail HPC moyennes à importantes. Permet des applications HPC dans le cloud sans rompre la compatibilité des applications en fournissant des fonctionnalités, des comportements et des performances familiers du système de fichiers parallèles Lustre, sécurisant ainsi les investissements à long terme dans les applications.	Service de fichiers complètement managé dans le cloud, avec NetApp et fonctionnalités de gestion avancées. NetApp Files convient aux charges de travail nécessitant un accès aléatoire, et offre une prise en charge étendue des protocoles ainsi que des fonctionnalités de protection des données. Exemples de scénarios : migration d'une solution NAS d'entreprise locale nécessitant des fonctionnalités de gestion enrichies, charges de travail sensibles à la latence comme SAP HANA, calcul haute performance sensible à la latence ou à forte intensité en termes d'IOPS, ou charges de travail nécessitant un accès multiprotocole simultané.
Protocoles disponibles	NFS 3.0 REST Data Lake Storage Gen2	SMB NFS 4.1 (Aucune interopérabilité entre les deux protocoles)	Lustre	NFS 3.0 et 4.1 SMB
Fonctionnalités clés	Intégré au cache HPC pour les charges de travail à faible latence. Gestion intégrée, notamment pour le cycle de vie, les objets blob immuables, le basculement des données et l'index des métadonnées.	Redondance interzone pour la haute disponibilité. Latence constante de quelques millisecondes. Performances et coûts prévisibles qui évoluent avec la capacité.	Capacité de stockage élevée, jusqu'à 2,5 Po. Faible latence (environ 2 ms). Démarrage de nouveaux clusters en quelques minutes. Prise en charge des charges de travail conteneurisées avec AKS.	Latence extrêmement faible (moins d'une milliseconde). Fonctionnalités de gestion NetApp ONTAP enrichies, telles que SnapMirror dans le cloud. Expérience cohérente en matière de cloud hybride.
Performances (par volume)	Jusqu'à 20 000 IOPS, jusqu'à 100 Gio/s de débit.	Jusqu'à 100 000 IOPS, jusqu'à 80 Gio/s de débit.	Jusqu’à 100 000 IOPS, jusqu’à 500 Gio/s de débit.	Jusqu'à 460 000 IOPS, jusqu'à 36 Gio/s de débit.
Tarifs	Tarifs Stockage Blob Azure	Tarifs Azure Files	Prix d'Azure Managed Lustre	Tarifs Azure NetApp Files

Système de fichiers parallèle Roll-your-own

Comme avec NFS, vous pouvez créer un système de fichiers BeeGFS ou Lustre à plusieurs nœuds. Les performances de ces systèmes dépendent en grande partie du type de Machines Virtuelles que vous sélectionnez. Vous pouvez utiliser des images trouvées dans le Place de marché Azure pour BeeGFS, ou une implémentation Lustre par DDN appelée Whamcloud. L’utilisation d’images tierces provenant de fournisseurs tels que BeeGFS ou DDN vous permet d’acheter leur support. Sinon, vous pouvez utiliser BeeGFS et Lustre par le biais de leurs licences GPL sans autres frais (au-delà des machines et disques). Ces outils sont faciles à déployer à l’aide des scripts Azure HPC avec des disques locaux éphémères (pour scratch) ou Premium/SSD Ultra pour le stockage persistant.

Cray ClusterStor

L’un des plus grands défis avec les charges de travail plus volumineuses est la réplication des performances « nues » pures des clusters de calcul volumineux travaillant avec des environnements Lustre volumineux (en termes de débit to/s, et peut-être de pétaoctets de stockage). Vous pouvez maintenant exécuter ces charges de travail avec la solution Azure Cray ClusterStor. Cette approche est un déploiement Lustre simple placé dans le centre de données Azure approprié. Les systèmes de fichiers parallèles tels que BeeGFS et Lustre offrent les performances les plus élevées en raison de leur architecture. Mais cette architecture s’accompagne d’un prix de gestion élevé, tout comme l’utilisation de ces technologies.

Étapes suivantes

Les articles suivants fournissent des conseils sur chaque étape du parcours d’adoption du cloud pour des environnements HPC de fabrication.

Partage via