التشغيل السريع - نشر مساحة عمل Azure CycleCloud ل Slurm باستخدام Marketplace
مساحة عمل Azure CycleCloud ل Slurm عبارة عن تطبيق Marketplace مجاني يوفر طريقة بسيطة وآمنة وقابلة للتطوير لإدارة موارد الحوسبة والتخزين لأحمال عمل HPC وأحمال العمل الذكاء الاصطناعي. في هذا التشغيل السريع، ستقوم بتثبيت CycleCloud Workspace for Slurm باستخدام تطبيق Marketplace.
المتطلبات المسبقه
لهذا التشغيل السريع، ستحتاج إلى:
- حساب Azure مع اشتراك نشط
- أدوار المساهم
ومسؤول وصول المستخدم على مستوى الاشتراك
كيفية النشر؟
- سجل الدخول إلى مدخل Microsoft Azure.
- انقر فوق خيار
+ Create a Resource
العلوي الأيسر - في مربع
Search services and marketplace
، أدخل Slurm ثم حدد مساحة عمل Azure CycleCloud ل Slurm. - في صفحة Azure CycleCloud Workspace for Slurm، حدد Create.
لقطة شاشة
أساسيات
- في صفحة New Azure CycleCloud Workspace for Slurm account، أدخل التفاصيل التالية أو حددها.
- الاشتراك: حدد الاشتراك الذي تريد استخدامه إذا لم يكن محددا بالفعل.
- المنطقة: حدد منطقة Azure التي تريد نشر مساحة عمل CycleCloud لبيئة Slurm فيها.
- مجموعة الموارد: حدد مجموعة الموارد لمساحة عمل Azure CycleCloud لحساب Slurm، أو أنشئ حسابا جديدا.
- حجم الجهاز الظاهري CycleCloud: اختر حجم جهاز ظاهري جديد أو احتفظ بالحجم الافتراضي
- Admin User: أدخل اسما وكلمة مرور لحساب مسؤول CycleCloud.
- Admin SSH Public Key: حدد مفتاح SSH العام لحساب المسؤول مباشرة أو إذا تم تخزينه في مورد مفتاح SSH في Azure.
لقطة شاشة
نظام الملفات
الدليل الرئيسي للمستخدمين - إنشاء جديد
حدد مكان وجود الدليل الرئيسي للمستخدمين. إنشاء جديد سيستخدم NFS المضمن الجهاز الظاهري للمجدول كخادم NFS مع datadisk مرفق.
إنشاء Azure NetApp Files إنشاء حساب ANF وتجمع وحجم السعة المحددة ومستوى الخدمة.
الدليل الرئيسي للمستخدمين - استخدام موجود
إذا كانت لديك نقطة تحميل NFS موجودة، فحدد الخيار استخدام الموجودة وحدد الإعدادات لتحميلها.
تحميل نظام ملفات إضافي - إنشاء جديد
إذا كنت بحاجة إلى تحميل نظام ملفات إضافي لبيانات المشروع، يمكنك إما إنشاء نظام جديد أو تحديد نظام موجود. يمكنك إنشاء وحدة تخزين Azure NetApp Files جديدة أو نظام Azure Managed Lustre Filesystem.
Lustre جديد مدار من Azure
تحميل نظام ملفات إضافي - استخدام موجود
إذا كان لديك نقطة تحميل NFS خارجية موجودة أو نظام Azure Managed Lustre Filesystem، يمكنك تحديد خيارات التحميل.
NFS خارجي موجود
الشبكات
حدد هنا إذا كنت تريد إنشاء شبكة ظاهرية وشبكات فرعية جديدة أو استخدام شبكة موجودة.
إنشاء شبكة ظاهرية جديدة
جديد
- اختر CIDR الذي سيتطابق مع عدد عقد الحوسبة التي تستهدفها وحدد عنوان IP أساسي،
- من أفضل الممارسات إنشاء Bastion إذا لم يكن لديك اتصال مباشر يوفره لك تكنولوجيا المعلومات في شركتك،
- يلزم إنشاء بوابة NAT لتوفير اتصال صادر بالإنترنت. سيصبح هذا إلزاميا في عام 2025 ويتم بالفعل فرض سياسات التفكير من قبل بعض الشركات،
- نظير إلى شبكة ظاهرية موجودة إذا كان لديك بالفعل مركز تريد نظيره يمكنه تقديم خدمات مثل Bastion وبوابة VPN. كن حذرا لاختيار عنوان IP أساسي متوافق مع VNET الخاص بك. تحقق من السماح بعبور البوابة إذا كان VNET النظير يحتوي على بوابة.
استخدام الشبكة الظاهرية الموجودة
قبل استخدام شبكة ظاهرية موجودة، تحقق من المتطلبات المسبقة في تخطيط مساحة عمل CycleCloud لنشر Slurm
موجود
إعدادات Slurm
حدد حجم الجهاز الظاهري والصورة لاستخدامهما للجدول وعقد تسجيل الدخول. الصور هي صور HPC المتوفرة في Azure Marketplace مع عناوين URL المقترنة:
اسم الصورة | URI |
---|---|
Alma Linux 8.7 | almalinux:almalinux-hpc:8_7-hpc-gen2:latest |
Ubuntu 20.04 | microsoft-dsvm:ubuntu-hpc:2004:latest |
Ubuntu 22.04 | microsoft-dsvm:ubuntu-hpc:2204:latest |
صورة مخصصة | سيتعين عليك تحديد صورة URN أو معرف الصورة |
إذا اخترت Custom Image
يجب عليك بعد ذلك تحديد صورة URN لصورة سوق موجودة أو معرف صورة لصورة في معرض حساب Azure.
يمكنك أيضا التحقق من Use image on all nodes
إذا كنت تريد أن تستخدم عقد المجدول وعقد تسجيل الدخول والحوسبة نفس الصورة.
تعيين عدد عقد تسجيل الدخول التي تريد توفيرها في البداية والحد الأقصى للعدد. وأخيرا، سيؤدي تمكين عمليات التحقق من الصحة إلى تنفيذ عمليات التحقق من صحة العقدة لأقسام HPC و GPU لإزالة العقد غير السليمة تلقائيا عند بدء تشغيلها.
لقطة شاشة
إذا كنت تريد تمكين Slurm Job Accounting، فتحقق من خانة الاختيار لعرض خيارات الاتصال. يرجى ملاحظة أنك بحاجة إلى مورد خادم مرن ل Azure Database for MySQL تم نشره مسبقا. يتوفر الاتصال من خلال توفير FQDN أو IP خاص إذا اخترت توفير شبكتك الظاهرية الخاصة أو استخدام نظير VNET عند إنشاء شبكة ظاهرية جديدة كجزء من النشر. بالإضافة إلى ذلك، يتوفر الاتصال عبر نقطة النهاية الخاصة إذا اخترت إنشاء شبكة ظاهرية جديدة.
FQDN المباشر
إعدادات القسم
تأتي مساحة عمل Azure CycleCloud ل Slurm مع 3 أقسام Slurm محددة:
- HTC : لوظائف غير MPI بشكل مزخرف،
- HPC : لوظائف MPI المقترنة بإحكام في الغالب باستخدام أنواع الأجهزة الظاهرية مع دعم InfiniBand،
- GPU : لوظائف MPI وغير MPI GPU
يمكنك تعيين الصورة والحد الأقصى لعدد العقد التي سيتم توفيرها ديناميكيا بواسطة CycleCloud لكل قسم. سيسمح قسم HTC فقط باستخدام مثيلات Spot لأنه عادة ما لا يكون من أفضل الممارسات استخدام مثيلات Spot لمهام HPC وGPU. ومع ذلك، يمكن تجاوز هذه الإعدادات بعد النشر في واجهة مستخدم CycleCloud.
العلامات
تعيين العلامات ذات الصلة للموارد المطلوبة. سيتم تطبيق علامات Node Array
على الأجهزة الظاهرية التي يتم توفيرها ديناميكيا بواسطة CycleCloud.
Review+Create
راجع خياراتك. ستعالج هذه الخطوة أيضا بعض عمليات التحقق من الصحة. لقطة شاشة المراجعة
عند تمريرها، انقر فوق الزر Create لتهيئة التوزيع
اتبع حالة النشر والخطوات.
التحقق من التوزيع
اتصل ccw-cyclecloud-vm
باستخدام Bastion مع اسم المستخدم ومفاتيح SSH المحددة أثناء النشر.
عند الاتصال، تحقق من سجلات cloud-init للتحقق من صحة كل شيء.
$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group:
Cluster nodes:
scheduler: Off -- --
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0]. Up 754.29 seconds
ثم قم بإنشاء الاتصال بين جهاز العميل الخاص بك والجهاز الظاهري CycleCloud. يمكن أن يكون هذا من تكنولوجيا المعلومات لشركتك، وVPN، ونفق Bastion، وعنوان IP عام مرفق إذا كانت شركتك تسمح بذلك. اتصل بواجهة الويب عن طريق الاستعراض إلى https://<cycleccloud_ip>، وصادق باستخدام اسم المستخدم وكلمة المرور المقدمين أثناء النشر. تأكد من تشغيل كل من Scheduler وعقدة Login.
الاتصال بعقدة تسجيل الدخول
عند استخدام Bastion، استخدم أحد البرامج النصية للأداة المساعدة util/ssh_thru_bastion.sh أو util/tunnel_thru_bastion.sh للاتصال، بشرط هنا. إذا لم تكن تستخدم Bastion، يجب عليك إنشاء الاتصال المباشر بنفسك.