منظور Azure Well-Architected Framework على التعلم الآلي من Microsoft Azure

التعلم الآلي من Microsoft Azure هي خدمة سحابية مدارة يمكنك استخدامها لتدريب نماذج التعلم الآلي وتوزيعها وإدارتها. هناك مجموعة واسعة من الخيارات والتكوينات لكل من نماذج التدريب والتوزيع، بما في ذلك وحدات SKU للحساب والتكوينات. يمكنك نشر نماذج التعلم الآلي إلى حساب التعلم الآلي أو إلى خدمات Azure الأخرى مثل خدمة Azure Kubernetes (AKS).

توفر هذه المقالة توصيات معمارية لاتخاذ قرارات مستنيرة عند استخدام التعلم الآلي لتدريب نماذج التعلم الآلي وتوزيعها وإدارتها. تستند الإرشادات إلى ركائز Azure Well-Architected Framework.

هام

كيفية استخدام هذا الدليل

يحتوي كل قسم على قائمة اختيار تصميم تعرض المجالات المعمارية المثيرة للقلق جنبا إلى جنب مع استراتيجيات التصميم المترجمة إلى نطاق التكنولوجيا.

وتشمل أيضا توصيات بشأن القدرات التكنولوجية التي يمكن أن تساعد في تحقيق هذه الاستراتيجيات. لا تمثل التوصيات قائمة شاملة بجميع التكوينات المتاحة للتعلم الآلي وتبعياته. بدلا من ذلك، يسردون التوصيات الرئيسية المعينة إلى وجهات نظر التصميم. استخدم التوصيات لإنشاء إثبات المفهوم الخاص بك أو لتحسين بيئاتك الحالية.

يوضح أساس البنية الأساسية OpenAI بنية مرجع الدردشة الشاملة للعديد من التوصيات الرئيسية.

نطاق التكنولوجيا

تركز هذه المراجعة على القرارات المترابطة لموارد Azure هذه:

  • التعلّم الآلي
  • مجموعات حساب التعلم الآلي
  • مثيلات حساب التعلم الآلي

لا تتناول المراجعة الموارد المتصلة مثل مخازن البيانات أو Key Vault Azure.

الموثوقية

الغرض من ركيزة الموثوقية هو توفير وظائف مستمرة من خلال بناء مرونة كافية والقدرة على التعافي بسرعة من حالات الفشل.

توفر مبادئ تصميم الموثوقية استراتيجية تصميم عالية المستوى تطبق على المكونات الفردية وتدفقات النظام والنظام ككل.

قائمة مراجعة التصميم

ابدأ استراتيجية التصميم الخاصة بك استنادا إلى قائمة التحقق من مراجعة التصميم للموثوقية وتحديد مدى صلتها بمتطلبات عملك. توسيع الاستراتيجية لتشمل المزيد من النهج حسب الحاجة.

  • المرونة: نشر النماذج في البيئات التي تدعم مناطق التوفر، مثل AKS. من خلال ضمان توزيع عمليات التوزيع عبر مناطق التوفر، فإنك تضمن توفر التوزيع حتى في حالة فشل مركز البيانات. لتحسين الموثوقية والتوافر، ضع في اعتبارك مخطط توزيع متعدد المناطق.

  • المرونة: تأكد من أن لديك حسابا كافيا لكل من التدريب والاستدلال. من خلال تخطيط الموارد، تأكد من أن SKU للحساب وإعدادات المقياس تفي بمتطلبات حمل العمل الخاص بك.

  • المرونة: فصل مساحات عمل التعلم الآلي المستخدمة للعمل الاستكشافي عن تلك المستخدمة للإنتاج.

  • المرونة: عند استخدام نقاط النهاية المدارة عبر الإنترنت للاستدلال، استخدم استراتيجية إصدار مثل عمليات النشر الزرقاء والأخضر لتقليل وقت التعطل وتقليل المخاطر المرتبطة بنشر إصدارات جديدة.

  • متطلبات العمل: حدد استخدامك لمجموعات الحوسبة ومثيلات الحوسبة ومضيفي الاستدلال الخارجيين استنادا إلى احتياجات الموثوقية، مع مراعاة اتفاقيات مستوى الخدمة (SLAs) كعامل.

  • الاسترداد: تأكد من أن لديك قدرات الإصلاح الذاتي، مثل ميزات نقاط التحقق التي يدعمها التعلم الآلي، عند تدريب نماذج كبيرة.

  • الاسترداد: تأكد من أن لديك استراتيجية استرداد محددة. لا يحتوي التعلم الآلي على تجاوز الفشل التلقائي. لذلك، يجب عليك تصميم استراتيجية تشمل مساحة العمل وجميع تبعياتها، مثل Key Vault وAzure Storage وAzure Container Registry.

التوصيات
التوصية الميزة
توزيع النموذج متعدد المناطق: لتحسين الموثوقية والتوافر، ضع في اعتبارك بيئة توزيع متعددة المناطق عندما يكون ذلك ممكنا. يضمن التوزيع متعدد المناطق استمرار تشغيل أحمال عمل التعلم الآلي حتى إذا واجهت منطقة واحدة انقطاعا. يعمل التوزيع متعدد المناطق على تحسين توزيع التحميل عبر المناطق، مما قد يعزز الأداء للمستخدمين الموجودين في مناطق جغرافية مختلفة. لمزيد من المعلومات، راجع تجاوز الفشل لاستمرارية الأعمال والإصلاح بعد كارثة.
مرونة تدريب النموذج: استخدم ميزات نقاط التحقق التي يدعمها التعلم الآلي بما في ذلك حاوية Azure ل PyTorch أو فئة TensorFlow Estimator أو عنصر Run وفئة FileDataset التي تدعم نقاط تفتيش النموذج. يحفظ فحص النموذج بشكل دوري حالة نموذج التعلم الآلي أثناء التدريب، بحيث يمكن استعادته في حالة الانقطاع أو الفشل أو الإنهاء. لمزيد من المعلومات، راجع تعزيز سرعة نقطة التحقق وتقليل التكلفة باستخدام Nebula.
استخدم طبقة الجهاز الظاهري المخصصة لمجموعات الحوسبة: استخدم طبقة الجهاز الظاهري المخصصة لمجموعات الحوسبة للاستدلال الدفعي لضمان عدم استباق مهمة الدفعة. تأتي الأجهزة الظاهرية ذات الأولوية المنخفضة بسعر مخفض ولكنها قابلة للاستباق. لا يتم استباق المجموعات التي تستخدم طبقة الجهاز الظاهري المخصصة.

الأمان

الغرض من ركيزة الأمان هو توفير ضمانات السرية والنزاهة والتوافر لحمل العمل.

توفر مبادئ تصميم الأمان استراتيجية تصميم عالية المستوى لتحقيق هذه الأهداف من خلال تطبيق النهج على التصميم التقني حول التعلم الآلي.

قائمة مراجعة التصميم

ابدأ استراتيجية التصميم الخاصة بك استنادا إلى قائمة التحقق من مراجعة التصميم للأمان وحدد الثغرات الأمنية وعناصر التحكم لتحسين وضع الأمان. توسيع الاستراتيجية لتشمل المزيد من النهج حسب الحاجة.

  • التوفر: تقليل سطح الهجوم لمساحة عمل التعلم الآلي عن طريق تقييد الوصول إلى مساحة العمل إلى الموارد داخل الشبكة الظاهرية.

  • السرية: الحماية من النقل غير المصرح للبيانات من مساحة عمل التعلم الآلي من خلال تنفيذ عزل الشبكة. تأكد من الموافقة على الوصول إلى جميع الموارد الخارجية بشكل صريح وعدم السماح بالوصول إلى جميع الموارد الخارجية الأخرى.

  • التكامل: تنفيذ عناصر التحكم في الوصول التي تقوم بمصادقة مساحة عمل التعلم الآلي وتخويلها للموارد الخارجية استنادا إلى مبدأ الامتياز الأقل.

  • التكامل: تنفيذ فصل حالة الاستخدام لمساحات عمل التعلم الآلي عن طريق إعداد مساحات العمل استنادا إلى حالات استخدام أو مشاريع محددة. يلتزم هذا النهج بمبدأ أقل الامتيازات من خلال ضمان أن مساحات العمل متاحة فقط للأفراد الذين يحتاجون إلى الوصول إلى البيانات وأصول التجريب لحالة الاستخدام أو المشروع.

  • التكامل: تنظيم الوصول إلى النماذج التأسيسية. تأكد من أن السجلات المعتمدة فقط لديها حق الوصول إلى النماذج في سجل النموذج.

  • التكامل: تنظيم الوصول إلى سجلات الحاويات المعتمدة. تأكد من أن حساب التعلم الآلي يمكنه الوصول فقط إلى السجلات المعتمدة.

  • التكامل: تنظيم حزم Python التي يمكن تشغيلها على حساب التعلم الآلي. يضمن تنظيم حزم Python تشغيل الحزم الموثوق بها فقط.

  • التكامل: طلب توقيع التعليمات البرمجية المستخدمة للتدريب في بيئات حساب التعلم الآلي. يضمن طلب توقيع التعليمات البرمجية أن التعليمات البرمجية قيد التشغيل من مصدر موثوق به ولم يتم العبث بها.

  • السرية: الالتزام بمبدأ الامتياز الأقل للتحكم في الوصول المستند إلى الدور (RBAC) إلى مساحة عمل التعلم الآلي والموارد ذات الصلة، مثل حساب تخزين مساحة العمل، لضمان حصول الأفراد على الأذونات الضرورية لدورهم فقط، وبالتالي تقليل المخاطر الأمنية المحتملة.

  • التكامل: إنشاء الثقة والوصول الذي تم التحقق منه من خلال تنفيذ التشفير للبيانات الثابتة والبيانات المتنقلة.

التوصيات
التوصية الميزة
أساس الأمان: لتحسين أمان وتوافق خدمة التعلم الآلي، قم بتطبيق أساس أمان Azure للتعلم الآلي. يوفر أساس الأمان إرشادات مخصصة حول جوانب الأمان الهامة مثل أمان الشبكة وإدارة الهوية وحماية البيانات والوصول المتميز. للحصول على الأمان الأمثل، استخدم Microsoft Defender للسحابة لمراقبة هذه الجوانب.
عزل الشبكة الظاهرية المدارة: تكوين عزل الشبكة الظاهرية المدارة للتعلم الآلي. عند تمكين عزل الشبكة الظاهرية المدارة، يتم إنشاء شبكة ظاهرية مدارة لمساحة العمل. تستخدم موارد الحوسبة المدارة التي تقوم بإنشائها لمساحة العمل هذه الشبكة الظاهرية المدارة تلقائيا. إذا لم تتمكن من تنفيذ عزل الشبكة الظاهرية المدارة، فيجب عليك اتباع توصيات تخطيط الشبكة لفصل الحساب إلى شبكة فرعية مخصصة بعيدا عن بقية الموارد في الحل، بما في ذلك نقاط النهاية الخاصة لموارد مساحة العمل. يحسن عزل الشبكة الظاهرية المدارة الأمان عن طريق عزل مساحة العمل الخاصة بك عن الشبكات الأخرى، ما يقلل من خطر الوصول غير المصرح به. في سيناريو يحدث فيه خرق في شبكة أخرى داخل مؤسستك، تظل الشبكة المعزولة لمساحة عمل التعلم الآلي غير متأثرة، ما يحمي أحمال عمل التعلم الآلي.
عزل شبكة التعلم الآلي: تكوين نقطة نهاية خاصة لمساحة عمل التعلم الآلي والاتصال بمساحة العمل عبر نقطة النهاية الخاصة هذه. يعمل عزل شبكة التعلم الآلي على تحسين الأمان من خلال التأكد من أن الوصول إلى مساحة العمل الخاصة بك آمن ويتم التحكم فيه. باستخدام نقطة نهاية خاصة تم تكوينها لمساحة العمل الخاصة بك، يمكنك بعد ذلك تقييد الوصول إلى مساحة العمل الخاصة بك ليحدث فقط عبر عناوين IP الخاصة.
السماح بالوصول الصادر المعتمد فقط: قم بتكوين الوضع الصادر على الوصول الصادر المدار لمساحة عمل التعلم الآلي لتقليل Allow only approved outbound مخاطر النقل غير المصرح للبيانات. تكوين نقاط النهاية الخاصة أو علامات الخدمة أو أسماء المجالات المؤهلة بالكامل (FQDNs) للموارد التي تحتاج إلى الوصول إليها. يقلل هذا التكوين من مخاطر النقل غير المصرح للبيانات، ما يحسن أمان البيانات. مع تمكين هذا التكوين، لا يمكن لمستخدم ضار يحصل على حق الوصول إلى النظام الخاص بك إرسال بياناتك إلى وجهة خارجية غير معتمدة.
عزل الشبكة الظاهرية للخدمات التابعة: تكوين الخدمات التابعة، مثل التخزين Key Vault وسجل الحاوية مع نقاط نهاية خاصة وتعطيل الوصول العام. يدعم عزل الشبكة الأمان عن طريق تقييد الوصول إلى حلول النظام الأساسي Azure كخدمة (PaaS) لعناوين IP الخاصة فقط.
الهوية المدارة: استخدم الهويات المدارة للمصادقة بين التعلم الآلي والخدمات الأخرى. تعمل الهويات المدارة على تحسين الأمان من خلال التخلص من الحاجة إلى تخزين بيانات الاعتماد وإدارة كيانات الخدمة وتدويرها يدويا.
تعطيل المصادقة المحلية: تعطيل المصادقة المحلية لمجموعات ومثيلات حساب التعلم الآلي. يؤدي تعطيل المصادقة المحلية إلى زيادة أمان حساب التعلم الآلي الخاص بك ويوفر تحكما مركزيا وإدارة الهويات وبيانات اعتماد الموارد.
تعطيل منفذ SSH العام: تأكد من إغلاق منفذ Secure Shell (SSH) العام على نظام مجموعة حساب التعلم الآلي عن طريق تعيين remoteLoginPortPublicAccess إلى Disabled. تطبيق تكوين مشابه إذا كنت تستخدم حسابا مختلفا. يساعد تعطيل وصول SSH على منع الأفراد غير المصرح لهم من الوصول ومن المحتمل أن يسبب ضررا لنظامك ويحميك من هجمات القوة الغاشمة.
لا تقم بتوفير عناوين IP العامة لحساب التعلم الآلي: قم بتعيين enableNodePublicIp إلى false عند توفير مجموعات حساب التعلم الآلي أو مثيلات الحساب. تطبيق تكوين مشابه إذا كنت تستخدم حسابا مختلفا. الامتناع عن توفير عناوين IP العامة لتحسين الأمان عن طريق الحد من احتمال الوصول غير المصرح به إلى مثيل الحساب أو المجموعات الخاصة بك.
احصل على أحدث صورة لنظام التشغيل: أعد إنشاء مثيلات الحساب للحصول على أحدث صورة لنظام التشغيل. يضمن استخدام أحدث الصور الحفاظ على بيئة متسقة ومستقرة وآمنة، بما في ذلك ضمان حصولك على أحدث تصحيحات الأمان.
عناصر تحكم صارمة في الوصول إلى مساحة عمل التعلم الآلي: استخدم مجموعات Microsoft Entra ID لإدارة الوصول إلى مساحة العمل والالتزام بمبدأ الامتياز الأقل ل RBAC. تعزز ضوابط الوصول الصارمة إلى مساحة العمل الأمان من خلال التأكد من أن الأفراد لديهم الأذونات اللازمة لدورهم فقط. على سبيل المثال، قد يكون لدى عالم البيانات حق الوصول لتشغيل التجارب ولكن ليس لتعديل إعدادات الأمان، ما يقلل من المخاطر الأمنية المحتملة.
تقييد عمليات توزيع كتالوج النموذج: تقييد عمليات توزيع النموذج إلى سجلات معينة. يضمن تقييد عمليات التوزيع من كتالوج النموذج إلى سجلات معينة نشر النماذج فقط إلى السجلات المعتمدة. يساعد هذا النهج على تنظيم الوصول إلى النماذج التأسيسية مفتوحة المصدر.
تشفير البيانات الثابتة: ضع في اعتبارك استخدام المفاتيح التي يديرها العميل مع التعلم الآلي. يعمل تشفير البيانات الثابتة على تحسين أمان البيانات من خلال التأكد من تشفير البيانات الحساسة باستخدام المفاتيح التي تديرها مباشرة. إذا كان لديك متطلبات تنظيمية لإدارة مفاتيح التشفير الخاصة بك، فاستخدم هذه الميزة للامتثال لهذا المطلب.
تقليل مخاطر النقل غير المصرح للبيانات: تنفيذ منع النقل غير المصرح للبيانات. على سبيل المثال، قم بإنشاء نهج نقطة نهاية خدمة لتصفية حركة مرور الشبكة الظاهرية الخارجة والسماح باختراق البيانات فقط إلى حسابات Azure Storage محددة. تقليل مخاطر النقل غير المصرح للبيانات عن طريق الحد من المتطلبات الواردة والصادرة.
Advisor

فيما يلي بعض الأمثلة على توصيات أفضل ممارسات الأمان Advisor للتعلم الآلي:

  • يجب تشفير مساحات العمل باستخدام مفتاح يديره العميل (CMK).
  • يجب أن تستخدم مساحات العمل Azure Private Link.
  • يجب أن تعطل مساحات العمل الوصول إلى الشبكة العامة.
  • يجب أن يكون الحساب في شبكة ظاهرية.
  • يجب إعادة إنشاء مثيلات الحساب للحصول على آخر تحديثات البرامج.
نهج Azure

فيما يلي أمثلة على تعريفات نهج Azure المضمنة لأمان التعلم الآلي :

تحسين التكلفة

يركز تحسين التكلفة على الكشف عن أنماط الإنفاق، وتحديد أولويات الاستثمارات في المجالات الهامة، والتحسين في مجالات أخرى لتلبية ميزانية المؤسسة مع تلبية متطلبات العمل.

اقرأ مبادئ تصميم Cost Optimization لفهم نهج تحقيق هذه الأهداف والمفاضلات الضرورية في خيارات التصميم التقني المتعلقة بتدريب النماذج وتوزيعها في بيئاتها.

قائمة مراجعة التصميم

ابدأ استراتيجية التصميم الخاصة بك استنادا إلى قائمة التحقق من مراجعة التصميم لتحسين التكلفة للاستثمارات وضبط التصميم بحيث يتوافق حمل العمل مع الميزانية المخصصة لحمل العمل. يجب أن يستخدم تصميمك إمكانات Azure المناسبة، ومراقبة الاستثمارات، والعثور على فرص لتحسينها بمرور الوقت.

  • تحسين الاستخدام: اختر الموارد المناسبة للتأكد من أنها تتوافق مع متطلبات حمل العمل. على سبيل المثال، اختر بين وحدات المعالجة المركزية أو وحدات معالجة الرسومات أو وحدات SKU المختلفة أو الأجهزة الظاهرية منخفضة مقابل الأجهزة الظاهرية ذات الأولوية العادية.

  • تحسين الاستخدام: تأكد من تقليص موارد الحوسبة التي لا يتم استخدامها أو إيقاف تشغيلها عند الخمول لتقليل النفايات.

  • تحسين الاستخدام: تطبيق النهج وتكوين الحصص النسبية للامتثال للحدود العليا والسفلى للتصميم.

  • تحسين الاستخدام: اختبر موازاة أحمال عمل التدريب لتحديد ما إذا كان يمكن تلبية متطلبات التدريب على وحدات SKU أقل تكلفة.

  • تحسين المعدل: قم بشراء مثيلات الجهاز الظاهري المحجوز من Azure إذا كان لديك تقدير جيد للاستخدام على مدى السنوات الثلاث التالية.

  • المراقبة والتحسين: مراقبة استخدام الموارد الخاصة بك مثل استخدام وحدة المعالجة المركزية ووحدة معالجة الرسومات عند تدريب النماذج. إذا لم يتم استخدام الموارد بالكامل، فعدل التعليمات البرمجية لاستخدام الموارد بشكل أفضل أو تقليص حجمها إلى أحجام أجهزة ظاهرية أصغر أو أرخص.

التوصيات
التوصية الميزة
تحسين موارد الحوسبة: تحسين موارد الحوسبة استنادا إلى متطلبات حمل العمل الخاص بك. اختر SKU الذي يناسب حمل العمل الخاص بك على أفضل نحو:
  • الغرض العام - نسبة وحدة المعالجة المركزية المتوازنة إلى الذاكرة، جيدة لجميع الأغراض.
  • Compute Optimized - نسبة عالية من وحدة المعالجة المركزية إلى الذاكرة، جيدة للحسابات الرياضية الثقيلة.
  • الذاكرة المحسنة - ذاكرة عالية لوحدة المعالجة المركزية، جيدة للحساب في الذاكرة أو تطبيقات قاعدة البيانات.
  • M Series - أجهزة كبيرة جدا تحتوي على كميات هائلة من الذاكرة ووحدة المعالجة المركزية.
  • GPU - أفضل للنماذج ذات العدد الكبير من المتغيرات التي يمكن أن تستفيد من التوازي العالي والتعليمات الأساسية المتخصصة. التطبيقات النموذجية هي التعلم العميق، ومعالجة الصور أو الفيديو، والمحاكاة العلمية، واستخراج البيانات، والاستفادة من أطر تطوير GPU. اختبر مع عائلات متعددة وقم بتوثيق النتائج كخط أساس. مع تطور النموذج والبيانات، قد يتغير مورد الحساب الأكثر ملاءمة. مراقبة أوقات التنفيذ وإعادة التقييم حسب الحاجة.
يعد تحديد الحساب الصحيح أمرا بالغ الأهمية لأنه يؤثر مباشرة على تكلفة تشغيل حمل العمل الخاص بك. يمكن أن يؤدي اختيار وحدة معالجة الرسومات أو وحدة SKU عالية الأداء دون الاستخدام المناسب إلى إنفاق هدر، بينما يمكن أن يؤدي اختيار الحوسبة ذات الحجم المنخفض إلى أوقات تدريب طويلة بشكل باهظ ومشاكل في الأداء.
تحسين تحجيم الحساب: قم بتكوين مجموعات الحوسبة الخاصة بك للتحجيم التلقائي للتأكد من أنك تستخدم ما تحتاجه فقط.

بالنسبة لمجموعات التدريب، قم بتعيين الحد الأدنى لعدد العقد إلى 0 وتكوين مقدار الوقت الذي تكون فيه العقدة الخامة إلى وقت مناسب. للتجريب الأقل تكرارا، قم بتقليل الوقت لتوفير التكاليف. لمزيد من التجريب التكراري، استخدم وقتا أعلى لمنع الدفع للتحجيم لأعلى أو لأسفل بعد كل تغيير.
قم بتكوين التحجيم التلقائي لمجموعات الحوسبة لتقليل حجمها عندما يكون استخدامها منخفضا.

قم بتعيين الحد الأدنى لعدد العقد إلى 0 لمجموعات التدريب لتقليل الحجم إلى 0 عندما لا تكون قيد الاستخدام.
تعيين نهج إنهاء التدريب: تعيين نهج الإنهاء المبكر للحد من مدة عمليات تشغيل التدريب أو إنهائها مبكرا. يمكن أن يساعدك تعيين نهج الإنهاء على توفير التكاليف عن طريق إيقاف عمليات التشغيل غير الأداء في وقت مبكر.
استخدام الأجهزة الظاهرية ذات الأولوية المنخفضة لأحمال العمل الدفعية: ضع في اعتبارك استخدام الأجهزة الظاهرية ذات الأولوية المنخفضة لأحمال العمل الدفعية غير الحساسة للوقت والتي يمكن فيها استرداد المقاطعات. تمكن الأجهزة الظاهرية ذات الأولوية المنخفضة من استخدام كمية كبيرة من طاقة الحوسبة بتكلفة منخفضة. وهي تستفيد من السعة الفائضة في Azure.
تمكين إيقاف التشغيل الخامل لمثيلات الحساب: تمكين إيقاف التشغيل الخامل لمثيلات الحساب أو جدولة وقت البدء والإيقاف إذا كان وقت الاستخدام معروفا. بشكل افتراضي، تتوفر مثيلات الحساب لك، وتتراكم التكلفة. تكوين مثيلات الحساب لإيقاف التشغيل عند الخمول أو تكوين جدول زمني لها يوفر التكلفة عندما لا تكون قيد الاستخدام.
موازاة أحمال عمل التدريب: ضع في اعتبارك موازاة أحمال عمل التدريب. اختبر تشغيلها بمساعدة المكونات المتوازية في التعلم الآلي. يمكن تشغيل أحمال العمل المتوازية على مثيلات أصغر متعددة، مما قد يؤدي إلى توفير في التكاليف.
مثيلات الأجهزة الظاهرية المحجوزة في Azure: قم بشراء مثيلات Azure المحجوزة للجهاز الظاهري إذا كان لديك تقدير جيد للاستخدام على مدى السنوات الثلاث التالية. استفد من خيارات السعة المحجوزة للخدمات عندما يكون لديك تقديرات جيدة للاستخدام. قم بشراء مثيلات الجهاز الظاهري المحجوزة من Azure للدفع المسبق لاستخدام الجهاز الظاهري وتوفير خصومات مع تسعير الدفع أولا بأول. يتم تطبيق الخصم تلقائيا لاستخدام الجهاز الظاهري الذي يطابق الحجز.

التميز التشغيلي

يركز التميز التشغيلي في المقام الأول على إجراءات ممارسات التطوير وإمكانية المراقبة وإدارة الإصدار.

توفر مبادئ تصميم التميز التشغيلي استراتيجية تصميم عالية المستوى لتحقيق تلك الأهداف نحو المتطلبات التشغيلية لحمل العمل.

قائمة مراجعة التصميم

ابدأ استراتيجية التصميم الخاصة بك استنادا إلى قائمة التحقق من مراجعة التصميم للتميز التشغيلي لتحديد عمليات إمكانية المراقبة والاختبار والتوزيع المتعلقة بالتعلم الآلي.

  • معايير التطوير: استفد من كتالوجات نموذج التعلم الآلي والسجلات لتخزين أصول التعلم الآلي وإصدارها ومشاركتها.

  • أتمتة لتحقيق الكفاءة: اتبع ممارسات عمليات التعلم الآلي الجيدة (MLOps ). عندما يكون ذلك ممكنا، قم بإنشاء مسارات تلقائية من طرف إلى طرف لعمليات إعداد البيانات والتدريب وتسجيل النقاط. في التطوير، استخدم البرامج النصية بدلا من دفاتر الملاحظات لنماذج التدريب، حيث يسهل دمج البرامج النصية في المسارات التلقائية.

  • التوزيع بثقة: تنفيذ البنية الأساسية كتعلم برمجي (IaC) لمساحات عمل التعلم الآلي ومجموعات الحوسبة ومثيلات الحوسبة وبيئات التوزيع الأخرى.

  • إمكانية الملاحظة: مراقبة أداء النماذج المنشورة بما في ذلك انحراف البيانات.

  • إمكانية الملاحظة: إذا تم نشر نماذجك في نقاط النهاية عبر الإنترنت، فمكن Application Insightsمن مراقبة نقاط النهاية والنشر عبر الإنترنت. مراقبة البنية الأساسية للتدريب للتأكد من أنك تفي بمتطلبات الأساس الخاصة بك.

  • البساطة: استخدم البيئات المنسقة المحسنة للتعلم الآلي، عند توفرها.

التوصيات
التوصية الميزة
تقليل مثيلات مساحة عمل التعلم الآلي: تقليل عدد مساحات العمل، عندما يكون ذلك ممكنا، لتقليل الصيانة. الحد من عدد مساحات العمل يقلل من جهود الصيانة وتكلفة التشغيل. بالنسبة للمتطلبات، مثل الأمان، قد تحتاج إلى مساحات عمل منفصلة متعددة. تقليل عدد مساحات العمل عندما يكون ذلك ممكنا.
الاستفادة من كتالوجات النماذج والسجلات: استفد من كتالوجات وسجلات نموذج التعلم الآلي لتخزين أصول التعلم الآلي وإصدارها ومشاركتها.

استخدم كتالوجات نماذج التعلم الآلي لمساعدتك على تنفيذ اختبار A/B ونشر النماذج.
استخدم سجلات نموذج التعلم الآلي لتخزين نماذج التعلم الآلي وإصدارها لتعقب التغييرات والحفاظ على دورة حياة البيانات باستخدام الوظيفة ومجموعات البيانات المستخدمة للتدريب.

باستخدام كتالوجات نموذج التعلم الآلي، يمكن لفرق علوم البيانات اكتشاف نماذج التعلم الآلي التأسيسية المدربة مسبقا وتقييمها وضبطها.

يدعم تخزين النماذج التي تم إصدارها في سجلات نماذج التعلم الآلي استراتيجيات النشر مثل إصدارات A/B وإصدارات الكناري والتراجع.
مراقبة أداء النموذج: مراقبة أداء النماذج المنشورة، واكتشاف انحراف البيانات على مجموعات البيانات. تضمن مراقبة النماذج المنشورة تلبية نماذجك لمتطلبات الأداء.

تساعدك مراقبة انحراف البيانات على اكتشاف التغييرات في بيانات الإدخال التي يمكن أن تؤدي إلى انخفاض في أداء النموذج الخاص بك. تساعدك إدارة انحراف البيانات على التأكد من أن نموذجك يوفر نتائج دقيقة بمرور الوقت.
مراقبة البنية الأساسية: إذا تم نشر نماذجك في نقاط النهاية عبر الإنترنت، فمكن Application Insightsمن مراقبة نقاط النهاية والنشر عبر الإنترنت.

مراقبة البنية الأساسية للتدريب للتأكد من أنك تفي بمتطلبات الأساس الخاصة بك.

تأكد من جمع سجلات الموارد للتعلم الآلي.
تمنحك نقاط النهاية المراقبة رؤية لمقاييس مثل زمن انتقال الطلب والطلبات في الدقيقة. يمكنك مقارنة أدائك مقابل خط الأساس الخاص بك واستخدام هذه المعلومات لإجراء تغييرات على موارد الحوسبة وفقا لذلك. يمكن أن تنبهك مقاييس المراقبة مثل وحدات بايت الشبكة إذا كنت تقترب من حدود الحصة النسبية وتمنع التقييد.

وبالمثل، توفر لك مراقبة بيئة التدريب الخاصة بك المعلومات لإجراء تغييرات على بيئة التدريب الخاصة بك. استخدم هذه المعلومات لاتخاذ قرار التوسيع أو التوسيع، أو التوسع أو التقليص باستخدام وحدات SKU مختلفة الأداء، أو الاختيار بين وحدات المعالجة المركزية أو وحدات معالجة الرسومات.
بيئات تدريب نموذج Curate: استخدم البيئات المنسقة المحسنة للتعلم الآلي، عند توفرها. البيئات المنسقة هي بيئات تم إنشاؤها مسبقا يوفرها التعلم الآلي وتسريع وقت النشر وتقليل زمن انتقال النشر والتدريب. يؤدي استخدام البيئات المنسقة إلى تحسين معدلات نجاح التدريب والتوزيع وتجنب إصدارات الصور غير الضرورية.

يمكن أيضا تحسين البيئات المنسقة، مثل حاوية Azure ل PyTorch، لتدريب النماذج الكبيرة على التعلم الآلي.

كفاءة الأداء

تتعلق كفاءة الأداء بالحفاظ على تجربة المستخدم حتى عندما تكون هناك زيادة في الحمل عن طريق إدارة السعة. تتضمن الاستراتيجية تحجيم الموارد، وتحديد وتحسين الازدحامات المحتملة، وتحسين أداء الذروة.

توفر مبادئ تصميم كفاءة الأداء استراتيجية تصميم عالية المستوى لتحقيق أهداف السعة هذه مقابل الاستخدام المتوقع.

قائمة مراجعة التصميم

ابدأ استراتيجية التصميم الخاصة بك استنادا إلى قائمة التحقق من مراجعة التصميم لكفاءة الأداء لتحديد أساس يستند إلى مؤشرات الأداء الرئيسية لأحمال عمل التعلم الآلي.

  • أهداف الأداء: حدد وقت التدريب المقبول وأعد تدريب تكرار النموذج الخاص بك. يساعدك تعيين هدف واضح لوقت التدريب، جنبا إلى جنب مع الاختبار، على تحديد موارد الحوسبة ووحدة المعالجة المركزية مقابل وحدة معالجة الرسومات ووحدات SKU لوحدة المعالجة المركزية المطلوبة لتحقيق هدف وقت التدريب.

  • أهداف الأداء: حدد أهداف الأداء المقبولة للنماذج المنشورة بما في ذلك وقت الاستجابة والطلبات في الثانية ومعدل الخطأ ووقت التشغيل. تعمل أهداف الأداء كمعيار لكفاءة النموذج المنشور. يمكن أن تساعدك الأهداف في تحديد وحدة المعالجة المركزية مقابل GPU وخيارات وحدة حفظ المخزون لوحدة المعالجة المركزية ومتطلبات التحجيم.

  • تلبية متطلبات السعة: اختر موارد الحوسبة المناسبة لتدريب النموذج.

  • تلبية متطلبات السعة: اختر موارد الحوسبة المناسبة لعمليات توزيع النموذج.

  • تلبية متطلبات السعة: اختر بيئات النشر ذات قدرات التحجيم التلقائي لإضافة السعة وإزالتها مع تقلب الطلب.

  • تحقيق الأداء والحفاظ عليه: راقب أداء النماذج المنشورة باستمرار، وراجع النتائج، واتخذ الإجراءات المناسبة.

  • تحقيق الأداء والحفاظ عليه: مراقبة أداء البنية الأساسية للنماذج المنشورة باستمرار، ومراجعة النتائج، واتخاذ الإجراءات المناسبة. مراقبة البنية الأساسية للتدريب للتأكد من تلبية متطلباتك لوقت التدريب.

التوصيات
التوصية الميزة
حدد خدمات الحوسبة المناسبة لتدريب النموذج: ضع في اعتبارك مجموعات حساب التعلم الآلي عبر مثيلات الحوسبة لتدريب النموذج إذا كنت بحاجة إلى التحجيم التلقائي.

تحسين موارد الحوسبة الخاصة بك استنادا إلى متطلبات التدريب. اختر أولا بين وحدات المعالجة المركزية ووحدات معالجة الرسومات. افتراضيا لوحدات المعالجة المركزية، ولكن ضع في اعتبارك وحدات معالجة الرسومات لأحمال العمل مثل التعلم العميق أو معالجة الصور أو الفيديو أو كميات كبيرة من البيانات. بعد ذلك، اختر صورة SKU التي تناسب حمل العمل الخاص بك على أفضل نحو.

استخدم الاختبار لاختيار خيار الحساب الذي يحسن التكلفة مقابل وقت التدريب عند تحديد الأساس الخاص بك.
يعد تحديد الحساب الصحيح أمرا بالغ الأهمية لأنه يؤثر مباشرة على وقت التدريب. يضمن اختيار SKU المناسب ووحدة المعالجة المركزية مقابل GPU أن تدريب النموذج الخاص بك يمكن أن يلبي متطلباتك وأهداف الأداء. يمكن أن يؤدي اختيار SKU منخفض الأداء والمفرط في الاستخدام إلى أوقات تدريب طويلة للغاية ومشاكل في الأداء.

توفر مجموعات الحوسبة القدرة على تحسين الأداء عن طريق توسيع نطاق أحمال العمل التي تدعم التحجيم الأفقي. يوفر هذا الأسلوب مرونة للتعامل مع أحمال العمل مع متطلبات مختلفة ويسمح لك بإضافة الأجهزة أو إزالتها حسب الحاجة.
تحجيم بيئة توزيع النموذج: استخدم إمكانات التحجيم التلقائي لبيئة التوزيع. بالنسبة لبيئات نشر AKS، استخدم مقياس نظام المجموعة التلقائي للتحجيم لتلبية الطلب. بالنسبة لنقاط النهاية عبر الإنترنت، قم بالتحجيم تلقائيا عبر التكامل مع ميزة التحجيم التلقائي ل Azure Monitor. يضبط التحجيم التلقائي عدد مثيلات النموذج المنشور لمطابقة الطلب.
مراقبة أداء النموذج: مراقبة أداء النماذج المنشورة. تعقب أداء النماذج في الإنتاج ينبهك إلى المشاكل المحتملة مثل انحراف البيانات وانحراف التنبؤ وجودة البيانات وانحراف إسناد الميزات.

تساعدك مراقبة انحراف البيانات على اكتشاف التغييرات في بيانات الإدخال التي يمكن أن تؤدي إلى انخفاض في أداء النموذج الخاص بك. تساعدك إدارة انحراف البيانات على التأكد من أن نموذجك يوفر نتائج دقيقة بمرور الوقت.
مراقبة البنية الأساسية: مراقبة نقاط النهاية عبر الإنترنت والتكامل مع Monitor لتعقب ومراقبة المقاييس والسجلات المناسبة. تمكين Application Insights عند إنشاء عمليات التوزيع عبر الإنترنت.

مراقبة البنية الأساسية للتدريب ومراجعة استخدام الموارد مثل الذاكرة واستخدام وحدة المعالجة المركزية أو GPU عند نماذج التدريب للتأكد من تلبية متطلبات الأساس الخاصة بك.
تمنحك نقاط النهاية المراقبة رؤية لمقاييس مثل زمن انتقال الطلب والطلبات في الدقيقة. يمكنك مقارنة أدائك مقابل خط الأساس الخاص بك واستخدام هذه المعلومات لإجراء تغييرات على موارد الحوسبة وفقا لذلك. يمكن أن تنبهك مقاييس المراقبة مثل وحدات بايت الشبكة إذا كنت تقترب من حدود الحصة النسبية وتمنع التقييد.

وبالمثل، توفر لك مراقبة بيئة التدريب الخاصة بك المعلومات لإجراء تغييرات على بيئة التدريب الخاصة بك. استخدم هذه المعلومات لاتخاذ قرار التوسيع أو التوسيع، أو التوسع أو التقليص باستخدام وحدات SKU مختلفة الأداء، أو الاختيار بين وحدات المعالجة المركزية أو وحدات معالجة الرسومات.

سياسات Azure

يوفر Azure مجموعة واسعة من النهج المضمنة المتعلقة بالتعلم الآلي وتبعياته. يمكن تدقيق بعض التوصيات السابقة من خلال نهج Azure. ضع في اعتبارك النهج التالية المتعلقة بالأمان:

ضع في اعتبارك النهج التالي المرتبط بتحسين التكلفة:

ضع في اعتبارك النهج التالية المتعلقة بالتميز التشغيلي:

للحصول على إدارة شاملة، راجع تعريفات نهج Azure المضمنة للتعلم الآلي.

توصيات Advisor

Advisor هو مستشار سحابة مخصص يساعدك على اتباع أفضل الممارسات بهدف تحسين عمليات التوزيع في Azure التي تجريها. يمكن أن تساعدك توصيات Advisor على تحسين الموثوقية والأمان وفعالية التكلفة والأداء والتميز التشغيلي للتعلم الآلي.

ضع في اعتبارك توصيات Advisor التالية للأمان:

  • يجب تشفير مساحات العمل باستخدام مفتاح يديره العميل (CMK).
  • يجب أن تستخدم مساحات العمل رابطا خاصا.
  • يجب أن تعطل مساحات العمل الوصول إلى الشبكة العامة.
  • يجب أن يكون الحساب في شبكة ظاهرية.
  • يجب إعادة إنشاء مثيلات الحساب للحصول على آخر تحديثات البرامج.

ضع في اعتبارك توصية Advisor التالية للتميز التشغيلي:

  • يجب تمكين سجلات الموارد في مساحات عمل التعلم الآلي.

الخطوات التالية

ضع في اعتبارك هذه المقالات كموارد توضح التوصيات المميزة في هذه المقالة.