Azure Well-Architected Framework ل HPC

تحدد منهجية الخطة لهذا السيناريو عملية لترشيد السيناريو الخاص بك، وتحديد أولويات الجهود التقنية، وتحديد أحمال العمل. بالنسبة للعديد من أحمال العمل المسماة، من المهم الالتزام بمجموعة من المبادئ المعمارية. تساعد هذه المبادئ على توجيه تطوير وتحسين أحمال العمل. يتم تفصيل البنيات المعمارية الخمس في Azure Well-Architected Framework. يوفر هذا التوجيه ملخصا لكيفية تطبيق هذه المبادئ على إدارة أحمال عمل البيانات.

الموثوقية

كل شيء لديه القدرة على كسر وخطوط أنابيب البيانات ليست استثناء. لهذا السبب، تم تصميم بنيات رائعة مع مراعاة التوفر والمرونة. الاعتبارات الرئيسية هي مدى سرعة اكتشاف التغيير، ومدى سرعة استئناف العمليات.

يجب أن تأخذ بيئة البيانات الخاصة بك في الاعتبار البنيات المرنة، والتكرار عبر المناطق، ومستوى الخدمة، واتفاقيات مستوى الخدمة (SLAs)، والدعم الهام. يجب أن تتضمن البيئة الحالية أيضا التدقيق والمراقبة والتنبيه باستخدام المراقبة المتكاملة وإطار عمل الإعلام.

علاوة على هذه الضوابط البيئية، يجب على فريق حمل العمل مراعاة ما يلي:

  • المزيد من تعديل البنية لتحسين اتفاقيات مستوى الخدمة
  • تكرار البنية الخاصة بحمل العمل
  • عمليات المراقبة والإخطار بما يتجاوز ما توفره فرق العمليات السحابية

الأمان

تطبيق مبادئ الأمان على بيئة HPC لتوفير ضمانات ضد الهجمات المتعمدة وإساءة استخدام بياناتك وأنظمتك القيمة. ابحث في تأمين صور نظام تشغيل المستخدم الخاص بك، ووصول المستخدم، واتبع إرشادات أمان Batch و CycleCloud. لمزيد من الاقتراحات، راجع مبادئ الركيزة الأمنية.

صور نظام التشغيل

يوفر Azure Marketplace صور HPC المستندة إلى Linux لاستخدامها في نظام المجموعة. تأتي هذه الصور مليئة بمكتبات MPI الشائعة المستندة إلى InfiniBand، و Mellanox OFED، وIP المكون مسبقا عبر InfiniBand، وأوقات تشغيل الاتصالات، ومكتبات Intel/AMD المحسنة، وأدوات تشخيص Azure HPC، وما إلى ذلك. يمكن للمستخدمين البدء بهذه الصور ثم تطبيق سياسات تقوية الأمان لمؤسستهم لتعزيز صور البرامج ضد الثغرات الأمنية والتهديدات الإلكترونية. عند التصلب، يمكن حفظ الصورة الجديدة في معرض الصور في Azure لاستخدامها لإنشاء الأجهزة الظاهرية داخل خدمة منسق نظام مجموعة HPC من Azure وAzure CycleCloud وخدمة Azure HPC وAzure Batch.

وصول المستخدم

  • تحديد خطوط واضحة للمسؤولية والفصل بين الواجبات لكل وظيفة.
  • تقييد الوصول استنادًا إلى أساس الحاجة إلى المعرفة والمبادئ الأمنية الأقل امتيازًا.
  • تعيين أذونات للمستخدمين والمجموعات والتطبيقات في نطاق معين من خلال Azure RBAC. استخدام الأدوار المضمنة عندما يكون ذلك ممكناً.
  • منع حذف أو تعديل مورد أو مجموعة موارد أو اشتراك من خلال تأمينات الإدارة.
  • استخدم الهويات المُدارة للوصول إلى الموارد في Azure.
  • دعم دليل مؤسسة واحدة. حافظ على مزامنة الدلائل السحابية والدلائل المحلية، باستثناء حسابات التأثيرات الحرجة.
  • إعداد الوصول الشرطي إلى Microsoft Azure AD. فرض وقياس سمات الأمان الرئيسية عند مصادقة كافة المستخدمين، خاصة بالنسبة لحسابات التأثيرات الحرجة.
  • يفضل استخدام أساليب بدون كلمة مرور أو اختيار أساليب كلمة المرور الحديثة.
  • حظر البروتوكولات القديمة وأساليب المصادقة.

أمان دفعة Azure

اتبع أفضل الممارسات لتمكين الأمان ل Azure batch

أمان Azure CycleCloud

اتبع أفضل الممارسات لتمكين الأمان ل Azure CycleCloud

تحسين التكلفة

لتحقيق أقصى استفادة من تشغيل بيئتك في Azure، يجب أولا تحديد أولويات إدارة التكلفة وتمارين التخطيط المسبق. هذه هي الأكثر محورية للترحيل السحابي الناجح والرحلة لأي مؤسسة تقريبا. تمنحك Azure Cost Management الأدوات اللازمة لتخطيط إنفاقك وتحليله وتقليله لزيادة استثمارك السحابي إلى أقصى حد. يمكن العثور على قائمة واسعة من الطرق التي يمكنك من خلالها تحسين السحابة التي تنفقها والتخطيط لها هنا ، ولكن لأغراض المناقشة، دعنا نستدعي بعض الطرق المهمة هنا:

ستكون التدابير التالية مفيدة في تحسين التكلفة لأحمال عمل HPC

اختيار نظام التشغيل

كان Linux نظام التشغيل المهيمن لأحمال عمل HPC. Linux مفتوح المصدر، مضبوط للأداء للاستفادة من البنية الأساسية للحوسبة عالية الأداء، وبالتالي تعمل مكتبات MPI وبرامج تشغيل Infiniband بشكل جيد على Linux مقابل Windows. وبالتالي فإن استخدام أجهزة Linux الظاهرية عبر Windows لإعداد نظام مجموعة HPC سيوفر بالتأكيد التكاليف. ومع ذلك، من المفهوم أن بعض المستخدمين قد يكون لديهم تفضيل قوي لبيئة Windows خاصة أثناء القيام بمهام المعالجة المسبقة/اللاحقة في حمل العمل مثل Dynamics السوائل الحسابية. في مثل هذه الحالة، التوصية هي أن يكون Windows Front End يرسل مهام إلى مضيف Linux (عقدة الرأس) الذي يمكنه استخدام عقد الحوسبة للمحاكاة.

التكلس التلقائي

التحجيم التلقائي هو القدرة على توفير الأجهزة الظاهرية واستخدامها فقط عند إرسال المهمة/تنشيطها. بمجرد اكتمال المهمة، يتم إيقاف تشغيل العقد تلقائيا. يسمح لك استخدام التحجيم التلقائي بضبط موارد الحوسبة التي يستخدمها تطبيقك، مما يوفر لك الوقت والمال. تم إنشاء Azure CycleCloud في التحجيم التلقائي قيد التشغيل في المجدولات الخاصة به بشكل افتراضي. الحد الزمني الافتراضي لإيقاف تشغيل العقد هو 15 دقيقة ويمكن تخصيصه. وهذا يضمن أن المستخدمين يدفعون فقط مقابل ما يستخدمونه. من ناحية أخرى، توفر دفعة Azure للمستخدم آلية لدمج صيغة التحجيم التلقائي مع اختيار المعلمات. لمزيد من التفاصيل، راجع هنا.

PAYG مقابل المثيل المحجوز مقابل المثيل الموضعي

يوفر Azure خيارات تسعير مختلفة، وهي الدفع حسب الاستخدام (PAYG)، والمثيل المحجوز مع خيارات سنة أو 3 سنوات، ومثيلات Spot الخاضعة للسعة المتوفرة في مركز البيانات. مثيلات PAYG فعالة من حيث التكلفة لتلبية الطلب المتقطع على السعة ويمكن أن تكون المثيلات المحجوزة فعالة من حيث التكلفة إذا كان هناك طلب مستمر على HPC أو هناك العديد من التطبيقات لتشغيلها على Azure HPC. كلاهما مناسب تماما لأحمال العمل الجاهزة للإنتاج. المثيلات الموضعية، من ناحية أخرى جيدة للاختبار القصير والتجريب أو إذا كان تطبيقك يناسب نقاط التحقق، على سبيل المثال، Genomics. تخضع المثيلات الموضعية للسعة المتوفرة في مركز البيانات وتغييرات الأسعار واستنادا إلى هذه العوامل يمكن إخلاء المثيلات الموضعية مع الحد الأدنى من الإشعار.

تصنيف البيانات

تستفيد أحمال عمل HPC من تخزين معدل النقل العالي، على سبيل المثال، Azure Managed Lustre وAzure Net App Files و BeeGFS Parallel File System وما إلى ذلك. تقدم خدمات التخزين هذه الأداء وقد تأتي بتكلفة. من المهم تصنيف البيانات مسبقا بحيث توجد البيانات الخاصة بالتطبيق فقط في هذه الأنظمة. يمكن أن تتواجد جميع البيانات الأخرى في حلول تخزين منخفضة التكلفة مثل Azure Data Lake أو Blob. علاوة على ذلك، قد يكون من المفيد توفير أنظمة تخزين HPC عند الطلب للتأكد من مزامنة البيانات مع خدمة التخزين منخفضة التكلفة مثل Azure Blob Storage. سيضمن ذلك الاحتفاظ بالبيانات في Azure Blob عند إيقاف تشغيل نظام التخزين عالي الأداء. تقدم Azure Managed Lustre وAzure Net App Files خدمة مزامنة.

تعيين الموازنات

يسمح لك Azure CycleCloud بتعيين الميزانيات لكل نظام مجموعة ويمكنه إرسال إعلامات إلى المستلمين إذا كانوا قريبين من استنفاد الميزانيات. بالنسبة إلى دفعة Azure، يمكنك إنشاء ميزانيات وتنبيهات إنفاق لتجمعات الدفعات أو حسابات الدفعات من مدخل Microsoft Azure. الميزانيات والتنبيهات مفيدة لإخطار أصحاب المصلحة بأي مخاطر تتعلق بالإنفاق الزائد، على الرغم من أنه من الممكن أن يكون هناك تأخير في تنبيهات الإنفاق وتجاوز الميزانية قليلاً.

التميز التشغيلي

عند الحفاظ على تشغيل تطبيقات HPC الخاصة بك في الإنتاج، يجب أن تكون عمليات التوزيع موثوقة ويمكن التنبؤ بها. تتكون عمليات النشر الموثوقة والقابلة للتنبؤ من أتمتة أحمال عمل HPC باستخدام حلول البنية الأساسية كتعليمية (IaC). يجب عليك أيضا إجراء فحوصات صحة العقدة لتحليل ومراقبة أحمال عمل HPC الخاصة بك.

لمزيد من اقتراحات التوزيع، راجع البنية الأساسية القابلة للتكرار. لمزيد من اقتراحات المراقبة، راجع قائمة الاختيار الموصى بها.

البنية الأساسية كتعليمة برمجية

تنشر HPC على Azure العديد من الموارد مثل Azure CycleCloud، نظام مجموعة HPC، التخزين، عقد المرئيات، خوادم الترخيص، إلخ. لأتمتة التوزيع، يوصى باستخدام أدوات الصناعة القياسية مثل Terraform و Ansible و Packer لتبسيط العملية.

التحقق من صحة العقدة

Azure Managed Grafana هي خدمة مدارة بالكامل للتحليات وحلول المراقبة. وهو مدعوم من قبل Grafana Enterprise، والذي يوفر مرئيات بيانات قابلة للتوسعة. يمكن دمج هذا في أحمال عمل HPC ويتم عرض مثال في Azure HPC OnDemand Platform.

كفاءة الأداء

تأكد من أن بيئة HPC الخاصة بك قادرة على التوسع من أجل تلبية الطلبات المفروضة عليها من قبل المستخدمين بطريقة فعالة. اختر النظام الأساسي المناسب لتطبيقات HPC الخاصة بك استنادا إلى توصيات موردي التطبيقات، واستثمر في تخطيط السعة إذا كانت هناك حاجة إلى بنية أساسية إضافية لتلبية الطلب، ومراقبة أداء البنية الأساسية HPC أثناء استخدام المستخدمين لنظامك.

لمزيد من المعلومات، راجع مواضيع كفاءة الأداء.

اختيار النظام الأساسي المناسب لتطبيق HPC

يقدم Azure مجموعة من الأنظمة الأساسية للأجهزة الظاهرية استنادا إلى Intel و AMD CPU و/أو NVIDIA و AMD GPU. في حين أن معظم التطبيقات متوافقة مع ما هو متاح، هناك بعض التطبيقات التي تستفيد فقط من نوع معين من وحدة المعالجة المركزية و/أو GPU. قبل نشر البنية الأساسية على السحابة، من المهم أن يكون لديك توصية من مورد التطبيق (ISV) لفهم

  • ما إذا كان التطبيق مرتبطا بالذاكرة أو مرتبطا بوحدة المعالجة المركزية أو مرتبطا بوحدة معالجة الرسومات.
  • ما إذا كان لديهم أي توصية بشأن أي نوع من بنية وحدة المعالجة المركزية/GPU للأداء
  • يمكن أن يستفيد نوع MPI وإصداره من تطبيقه
  • التوصية على نوع المجدول.
  • توصيتهم بشأن IOPS/معدل النقل من أنظمة الملفات المتوازية، إن وجدت.

الاستثمار في تخطيط السعة

استنادا إلى نوع التطبيق وشروط الترخيص الخاصة به، تحقق مما إذا كان الترخيص مؤمنا لاستخدام عدد معين من الذاكرات الأساسية ومن ثم تقييم استثمارك لتمكين الترخيص من تلبية احتياجات HPC والتخطيط للسعة وفقا لذلك.

مراقبة أداء البنية الأساسية

  • من المهم أن تكون قادرا على تتبع الطريقة التي يستخدم بها المستخدمون نظامك وتتبع استخدام الموارد ومراقبة صحة النظام وأدائه بشكل عام. يمكنك استخدام هذه المعلومات كمعونة تشخيصية للكشف عن المشكلات وتصحيحها، وللمساعدة في اكتشاف المشكلات المحتملة ومنع حدوثها. للحصول على نظرة عامة على مكونات وخدمات Azure المتوفرة لمراقبة موارد Azure، راجع هنا.
  • Azure Monitor هي أداة رائعة لتحديد ما إذا كانت هناك أي ازدحامات في مثيلات الجهاز الظاهري والتخزين.
  • يمكن أن يؤدي تقييد التخزين إلى إبطاء التطبيق بشكل كبير مما يؤثر على الأداء. يحدث هذا عندما تتجاوز عمليات إخراج الإدخال داخل التخزين حدود معدل النقل المعينة. تقدم خدمات تخزين Azure الرسوم البيانية لعمليات القراءة/الكتابة لمراقبة ما إذا كانت هناك أي مشكلات تتعلق بالتقييد.
  • يتكامل Azure CycleCloud مع خدمات Azure مثل Azure Monitor وأدوات Azure Cost Management. كما أنه يدعم مراقبة الخدمات الخارجية من خلال بنيتها القابلة للتوصيل. مزيد من التفاصيل هنا.
  • علاوة على ذلك، إذا كنت تستخدم Azure Batch، فإن Batch Explorer هو أداة عميل مجانية غنية الميزات ومميزة بذاتها للمساعدة في إنشاء تطبيقات Azure Batch وتصحيحها ومراقبتها

الخطوات التالية