صور الأجهزة الظاهرية للحوسبة عالية الأداء لـ Azure
ينطبق على: ✔️ أجهزة Linux الظاهرية ✔️ مجموعات المقياس المرنة ✔️ مجموعات المقياس الموحدة
تشارك هذه المقالة بعض المعلومات حول صور أجهزة HPC الظاهرية لاستخدامها لتشغيل الأجهزة الظاهرية لسلسلة H الممكنة من InfiniBand وسلسلة N الممكنة بواسطة وحدة معالجة الرسومات.
يقدم فريق Azure HPC صور Linux VM المحسنة والمكونة مسبقا لأحمال عمل HPC وأحمال العمل الذكاء الاصطناعي. صور الجهاز الظاهري هذه هي:
- استنادا إلى صور الجهاز الظاهري لسوق AlmaLinux وUbuntu الأولية.
- تم تكوينه مسبقا باستخدام برنامج تشغيل NVIDIA Mellanox OFED ل InfiniBand وبرامج تشغيل NVIDIA GPU ومكتبات MPI الشائعة ومكتبات HPC التي ضبطها المورد وتحسينات الأداء الموصى بها.
- بما في ذلك التحسينات والتكوينات الموصى بها لتقديم الأداء الأمثل والاتساق والموثوقية.
التوفر على Azure
يمكنك استخدام صور HPC عند إنشاء جهاز ظاهري إما من Azure Marketplace أو Azure CLI. بالنسبة لأساليب النشر الأخرى، راجع قسم نشر صور الأجهزة الظاهرية HPC.
Azure Marketplace
ابحث Ubuntu HPC
عن بواسطة الناشر Microsoft-DSVM
، أو AlmaLinux HPC
بواسطة الناشر AlmaLinux
.
Azure CLI
قم بتشغيل الأوامر التالية للعثور على URNs للصور الخاصة بصور HPC:
Ubuntu-HPC
az vm image list --publisher microsoft-dsvm --offer ubuntu-hpc --output table --all
تدعم جميع الصور أجهزة Gen 2 الظاهرية.
AlmaLinux-HPC
az vm image list --publisher almalinux --offer almalinux-hpc --output table --all
تدعم جميع الصور كلا من أجهزة Gen 1 وGen 2 الظاهرية.
أحجام الأجهزة الظاهرية المدعمة
تدعم صور HPC VM أحجام الجهاز الظاهري التالية:
- Standard_HB60rs
- Standard_HB120rs_v2
- Standard_HB120rs_v3
- Standard_HB120rs_v4
- Standard_HC44rs
- Standard_ND40rs_v2
- Standard_ND96asr_v4
- Standard_ND96amsr_A100_v4
- Standard_ND96isr_H100_v5
راجع أحجام Azure VM للحصول على أحدث مصفوفة دعم لحجم الجهاز الظاهري من السلسلة H وN.
حزم البرامج المثبتة
- ميلانوكس من 24.01-0.3.3.1
- IPoIB المكون مسبقا (IP-over-InfiniBand)
- مكتبات MPI المستندة إلى InfiniBand الشائعة
- HPC-X v2.18 مع/بدون PMIx-4
- Intel MPI 2021.12.0
- MVAPICH2 2.3.7-1
- OpenMPI 5.0.2 مع PMIx-4
- أوقات تشغيل الاتصالات
- Libfabric
- OpenUCX
- NCCL 2.21.5-1
- المكون الإضافي ل NCCL RDMA Sharp
- المكتبات المحسنة
- AMD Optimizing C/C++ و Fortran Compilers 4.0.0-1
- Intel MKL 2024.0.0.49673
- برامج تشغيل GPU
- NVIDIA GPU Driver 535.161.08
- ذاكرة نظير NVIDIA (GPU Direct RDMA)
- NVIDIA Fabric Manager
- CUDA 12.4
- GDRCopy 2.3
- Data Center GPU Manager 3.3.3
- أداة تشخيص Azure HPC
- التخصيصات المستندة إلى SKU
- ملفات المخطط
- تكوين NCCL
- Moby 24.0.7-ubuntu22.04u1
- حاوية NVIDIA Docker 24.0.7-1
- Azure Managed Lustre 2.15.4-42-gd6d405d
- Moneo v0.3.5
- Azure HPC Health Checks v0.4.2
يوجد فهرس إصدار مثبت داخل صورة الجهاز الظاهري في هذا الموقع: /opt/azurehpc/component_versions.txt
.
تتوفر مكتبات MPI وحزم البرامج كوحدات نمطية للبيئة. لتحميل مكتبة/حزمة MPI، قم بتشغيل:
module load mpi/<mpi-library-name>
module load <package-name>
التكوين والتحسين
راجع مستودع azhpc-images في GitHub للحصول على أحدث التفاصيل حول الحزم والتكوين المضمن في كل صورة جهاز ظاهري. تستند التكوينات المضمنة إلى توصيات التحسين من الموردين والشركاء، بالإضافة إلى التعلم من أحمال عمل HPC الشائعة وممارسات الاستخدام في أنظمة HPC التقليدية.
عامل Azure Linux (WAAgent)
- الحد من استخدام عامل waagent (VM الذي يعمل على كل جهاز ظاهري ل Azure Linux) لموارد وحدة المعالجة المركزية/الذاكرة.
- اختياريا، ضع في اعتبارك تعطيل waagent في بداية البرنامج النصي للوظيفة، وتمكينه مرة أخرى في النهاية، لأحمال العمل الحساسة لوحدة المعالجة المركزية على النحو التالي:
sudo systemctl stop waagent <HPC job> sudo systemctl restart waagent
حدود ذاكرة أعلى
- تعيين الحد الأقصى للذاكرة المؤمنة إلى غير محدود
- تعيين عدد حدود الملفات المفتوحة إلى 65535
وضع استعادة المنطقة
- تعيين zone_reclaim_mode إلى 1
تعطيل البرنامج الخفي لجدار الحماية لمساعدة مشغلي مهام MPI
نشر صور HPC VM
كما هو موضح، تتوفر صور HPC VM من Azure Marketplace وAzure CLI. يمكن نشرها من خلال مجموعة متنوعة من مركبات التوزيع على Azure (Azure CycleCloud وAzure Batch وقوالب ARM وما إلى ذلك). توفر البرامج النصية ل AzureHPC طريقة سهلة لنشر مجموعة HPC بسرعة باستخدام هذه الصور.