التشغيل السريع - نشر مساحة عمل Azure CycleCloud ل Slurm باستخدام Marketplace

مساحة عمل Azure CycleCloud ل Slurm عبارة عن تطبيق Marketplace مجاني يوفر طريقة بسيطة وآمنة وقابلة للتطوير لإدارة موارد الحوسبة والتخزين لأحمال عمل HPC وأحمال العمل الذكاء الاصطناعي. في هذا التشغيل السريع، ستقوم بتثبيت CycleCloud Workspace for Slurm باستخدام تطبيق Marketplace.

المتطلبات المسبقه

لهذا التشغيل السريع، ستحتاج إلى:

  1. حساب Azure مع اشتراك نشط
  2. أدوار المساهم ومسؤول وصول المستخدم على مستوى الاشتراك

كيفية النشر؟

  • سجل الدخول إلى مدخل Microsoft Azure.
  • انقر فوق خيار + Create a Resource العلوي الأيسر
  • في مربع Search services and marketplace، أدخل Slurm ثم حدد مساحة عمل Azure CycleCloud ل Slurm.
  • في صفحة Azure CycleCloud Workspace for Slurm، حدد Create.

لقطة شاشة لمساحة عمل Azure CycleCloud لشاشة سوق Slurm

أساسيات

  • في صفحة New Azure CycleCloud Workspace for Slurm account، أدخل التفاصيل التالية أو حددها.
    • الاشتراك: حدد الاشتراك الذي تريد استخدامه إذا لم يكن محددا بالفعل.
    • المنطقة: حدد منطقة Azure التي تريد نشر مساحة عمل CycleCloud لبيئة Slurm فيها.
    • مجموعة الموارد: حدد مجموعة الموارد لمساحة عمل Azure CycleCloud لحساب Slurm، أو أنشئ حسابا جديدا.
    • حجم الجهاز الظاهري CycleCloud: اختر حجم جهاز ظاهري جديد أو احتفظ بالحجم الافتراضي
    • Admin User: أدخل اسما وكلمة مرور لحساب مسؤول CycleCloud.
    • Admin SSH Public Key: حدد مفتاح SSH العام لحساب المسؤول مباشرة أو إذا تم تخزينه في مورد مفتاح SSH في Azure.

لقطة شاشة لشاشة خيارات الأساسيات

نظام الملفات

الدليل الرئيسي للمستخدمين - إنشاء جديد

حدد مكان وجود الدليل الرئيسي للمستخدمين. إنشاء جديد سيستخدم NFS المضمن الجهاز الظاهري للمجدول كخادم NFS مع datadisk مرفق. لقطة شاشة لتحميل نظام الملفات ل /shared و/home Builtin NFS إنشاء شاشة خيارات جديدة

إنشاء Azure NetApp Files إنشاء حساب ANF وتجمع وحجم السعة المحددة ومستوى الخدمة. لقطة شاشة لتحميل نظام الملفات لملفات /shared و/home Azure NetApp إنشاء شاشة خيارات جديدة

الدليل الرئيسي للمستخدمين - استخدام موجود

إذا كانت لديك نقطة تحميل NFS موجودة، فحدد الخيار استخدام الموجودة وحدد الإعدادات لتحميلها. لقطة شاشة لشاشة تحميل نظام الملفات ل /shared و/home، استخدم شاشة خيارات NFS الخارجية

تحميل نظام ملفات إضافي - إنشاء جديد

إذا كنت بحاجة إلى تحميل نظام ملفات إضافي لبيانات المشروع، يمكنك إما إنشاء نظام جديد أو تحديد نظام موجود. يمكنك إنشاء وحدة تخزين Azure NetApp Files جديدة أو نظام Azure Managed Lustre Filesystem.

لقطة شاشة لتحميل نظام الملفات الإضافي لإنشاء ملفات Azure NetApp جديدة

لقطة شاشة لتركيب نظام الملفات الإضافي لإنشاء Lustre جديد مدار من Azure

تحميل نظام ملفات إضافي - استخدام موجود

إذا كان لديك نقطة تحميل NFS خارجية موجودة أو نظام Azure Managed Lustre Filesystem، يمكنك تحديد خيارات التحميل.

لقطة شاشة لتحميل نظام ملفات إضافي NFS خارجي موجود

الشبكات

حدد هنا إذا كنت تريد إنشاء شبكة ظاهرية وشبكات فرعية جديدة أو استخدام شبكة موجودة.

إنشاء شبكة ظاهرية جديدة

لقطة شاشة لخيارات الشبكات لإنشاء جديد

  • اختر CIDR الذي سيتطابق مع عدد عقد الحوسبة التي تستهدفها وحدد عنوان IP أساسي،
  • من أفضل الممارسات إنشاء Bastion إذا لم يكن لديك اتصال مباشر يوفره لك تكنولوجيا المعلومات في شركتك،
  • يلزم إنشاء بوابة NAT لتوفير اتصال صادر بالإنترنت. سيصبح هذا إلزاميا في عام 2025 ويتم بالفعل فرض سياسات التفكير من قبل بعض الشركات،
  • نظير إلى شبكة ظاهرية موجودة إذا كان لديك بالفعل مركز تريد نظيره يمكنه تقديم خدمات مثل Bastion وبوابة VPN. كن حذرا لاختيار عنوان IP أساسي متوافق مع VNET الخاص بك. تحقق من السماح بعبور البوابة إذا كان VNET النظير يحتوي على بوابة.

استخدام الشبكة الظاهرية الموجودة

قبل استخدام شبكة ظاهرية موجودة، تحقق من المتطلبات المسبقة في تخطيط مساحة عمل CycleCloud لنشر Slurm

لقطة شاشة لخيارات الشبكات لاستخدام موجود

إعدادات Slurm

حدد حجم الجهاز الظاهري والصورة لاستخدامهما للجدول وعقد تسجيل الدخول. الصور هي صور HPC المتوفرة في Azure Marketplace مع عناوين URL المقترنة:

اسم الصورة URI
Alma Linux 8.7 almalinux:almalinux-hpc:8_7-hpc-gen2:latest
Ubuntu 20.04 microsoft-dsvm:ubuntu-hpc:2004:latest
Ubuntu 22.04 microsoft-dsvm:ubuntu-hpc:2204:latest
صورة مخصصة سيتعين عليك تحديد صورة URN أو معرف الصورة

إذا اخترت Custom Image يجب عليك بعد ذلك تحديد صورة URN لصورة سوق موجودة أو معرف صورة لصورة في معرض حساب Azure.

يمكنك أيضا التحقق من Use image on all nodes إذا كنت تريد أن تستخدم عقد المجدول وعقد تسجيل الدخول والحوسبة نفس الصورة.

تعيين عدد عقد تسجيل الدخول التي تريد توفيرها في البداية والحد الأقصى للعدد. وأخيرا، سيؤدي تمكين عمليات التحقق من الصحة إلى تنفيذ عمليات التحقق من صحة العقدة لأقسام HPC و GPU لإزالة العقد غير السليمة تلقائيا عند بدء تشغيلها.

لقطة شاشة لإعدادات Slurm

إذا كنت تريد تمكين Slurm Job Accounting، فتحقق من خانة الاختيار لعرض خيارات الاتصال. يرجى ملاحظة أنك بحاجة إلى مورد خادم مرن ل Azure Database for MySQL تم نشره مسبقا. يتوفر الاتصال من خلال توفير FQDN أو IP خاص إذا اخترت توفير شبكتك الظاهرية الخاصة أو استخدام نظير VNET عند إنشاء شبكة ظاهرية جديدة كجزء من النشر. بالإضافة إلى ذلك، يتوفر الاتصال عبر نقطة النهاية الخاصة إذا اخترت إنشاء شبكة ظاهرية جديدة.

لقطة شاشة لخيارات إعداد Slurm لقاعدة بيانات محاسبة الوظائف، FQDN المباشر

لقطة شاشة لخيارات إعداد Slurm لقاعدة بيانات محاسبة الوظائف مع نقطة النهاية الخاصة

إعدادات القسم

تأتي مساحة عمل Azure CycleCloud ل Slurm مع 3 أقسام Slurm محددة:

  • HTC : لوظائف غير MPI بشكل مزخرف،
  • HPC : لوظائف MPI المقترنة بإحكام في الغالب باستخدام أنواع الأجهزة الظاهرية مع دعم InfiniBand،
  • GPU : لوظائف MPI وغير MPI GPU

يمكنك تعيين الصورة والحد الأقصى لعدد العقد التي سيتم توفيرها ديناميكيا بواسطة CycleCloud لكل قسم. سيسمح قسم HTC فقط باستخدام مثيلات Spot لأنه عادة ما لا يكون من أفضل الممارسات استخدام مثيلات Spot لمهام HPC وGPU. ومع ذلك، يمكن تجاوز هذه الإعدادات بعد النشر في واجهة مستخدم CycleCloud.

لقطة شاشة لخيارات إعدادات القسم

العلامات

تعيين العلامات ذات الصلة للموارد المطلوبة. سيتم تطبيق علامات Node Array على الأجهزة الظاهرية التي يتم توفيرها ديناميكيا بواسطة CycleCloud.

لقطة شاشة لخيارات العلامات

Review+Create

راجع خياراتك. ستعالج هذه الخطوة أيضا بعض عمليات التحقق من الصحة. لقطة شاشة المراجعة

عند تمريرها، انقر فوق الزر Create لتهيئة التوزيع لقطة شاشة للنشر قيد التقدم

اتبع حالة النشر والخطوات.

التحقق من التوزيع

اتصل ccw-cyclecloud-vm باستخدام Bastion مع اسم المستخدم ومفاتيح SSH المحددة أثناء النشر.

لقطة شاشة لقائمة الاتصال مع Bastion لقطة شاشة لخيارات الاتصال مع Bastion

عند الاتصال، تحقق من سجلات cloud-init للتحقق من صحة كل شيء.

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

ثم قم بإنشاء الاتصال بين جهاز العميل الخاص بك والجهاز الظاهري CycleCloud. يمكن أن يكون هذا من تكنولوجيا المعلومات لشركتك، وVPN، ونفق Bastion، وعنوان IP عام مرفق إذا كانت شركتك تسمح بذلك. اتصل بواجهة الويب عن طريق الاستعراض إلى https://<cycleccloud_ip>، وصادق باستخدام اسم المستخدم وكلمة المرور المقدمين أثناء النشر. تأكد من تشغيل كل من Scheduler وعقدة Login.

الاتصال بعقدة تسجيل الدخول

عند استخدام Bastion، استخدم أحد البرامج النصية للأداة المساعدة util/ssh_thru_bastion.sh أو util/tunnel_thru_bastion.sh للاتصال، بشرط هنا. إذا لم تكن تستخدم Bastion، يجب عليك إنشاء الاتصال المباشر بنفسك.