إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
توضح هذه المقالة نمطين شائعين لنقل عناصر التعلم الآلي من خلال التقسيم المرحلي وإلى الإنتاج. تعني الطبيعة غير المتزامنة للتغييرات في النماذج والرمز أن هناك أنماطا محتملة متعددة قد تتبعها عملية تطوير التعلم الآلي.
يتم إنشاء النماذج بواسطة التعليمات البرمجية، ولكن يمكن أن تعمل عناصر النموذج الناتجة والرمز الذي أنشأها بشكل غير متزامن. أي أن إصدارات النموذج الجديدة وتغييرات التعليمات البرمجية قد لا تحدث في نفس الوقت. على سبيل المثال ، ضع في اعتبارك السيناريوهات التالية:
- للكشف عن المعاملات الاحتيالية، يمكنك تطوير مسار التعلم الآلي الذي يعيد تدريب نموذج أسبوعيا. قد لا تتغير التعليمات البرمجية في كثير من الأحيان، ولكن قد تتم إعادة تدريب النموذج كل أسبوع لدمج بيانات جديدة.
- يمكنك إنشاء شبكة عصبية كبيرة وعميقة لتصنيف المستندات. في هذه الحالة، يكون تدريب النموذج مكلفا حسابيا ويستغرق وقتا طويلا، ومن المحتمل أن تحدث إعادة تدريب النموذج بشكل غير متكرر. ومع ذلك، يمكن تحديث التعليمات البرمجية التي تنشر هذا النموذج وتخدمه وتراقبه دون إعادة تدريب النموذج.

يختلف النمطان في ما إذا كان يتم الترويج للبيانات الاصطناعية للنموذج أو التعليمات البرمجية للتدريب التي تنتج البيانات الاصطناعية للنموذج نحو الإنتاج.
نشر التعليمات البرمجية (مستحسن)
في معظم الحالات، توصي Databricks بنهج "توزيع التعليمات البرمجية". يتم دمج هذا الأسلوب في سير عمل MLOps الموصى به.
في هذا النمط، يتم تطوير التعليمات البرمجية لتدريب النماذج في بيئة التطوير. تنتقل نفس التعليمات البرمجية إلى التقسيم المرحلي ثم الإنتاج. يتم تدريب النموذج في كل بيئة: في البداية في بيئة التطوير كجزء من تطوير النموذج، وفي التقسيم المرحلي (على مجموعة فرعية محدودة من البيانات) كجزء من اختبارات التكامل، وفي بيئة الإنتاج (على بيانات الإنتاج الكاملة) لإنتاج النموذج النهائي.
الميزات:
- في المؤسسات التي يتم فيها تقييد الوصول إلى بيانات الإنتاج، يسمح هذا النمط بتدريب النموذج على بيانات الإنتاج في بيئة الإنتاج.
- إعادة تدريب النموذج التلقائي أكثر أمانا، حيث تتم مراجعة تعليمة التدريب البرمجية واختبارها والموافقة عليها للإنتاج.
- تتبع التعليمات البرمجية الداعمة نفس نمط التعليمات البرمجية لتدريب النموذج. يمر كلاهما باختبارات التكامل في التقسيم المرحلي.
العيوب:
- يمكن أن يكون منحنى التعلم لعلماء البيانات لتسليم التعليمات البرمجية للمتعاونين حادا. تعد قوالب المشاريع وسير العمل المعرفة مسبقا مفيدة.
أيضا في هذا النمط، يجب أن يكون علماء البيانات قادرين على مراجعة نتائج التدريب من بيئة الإنتاج، حيث لديهم المعرفة لتحديد وإصلاح المشكلات الخاصة بالML.
إذا كان موقفك يتطلب تدريب النموذج على التقسيم المرحلي عبر مجموعة بيانات الإنتاج الكاملة، يمكنك استخدام نهج مختلط عن طريق نشر التعليمات البرمجية في التقسيم المرحلي وتدريب النموذج ثم نشر النموذج في الإنتاج. يوفر هذا النهج تكاليف التدريب في الإنتاج ولكنه يضيف تكلفة تشغيل إضافية في التقسيم المرحلي.
توزيع الوحدات
في هذا النمط، يتم إنشاء نموذج البيانات الاصطناعية من خلال التعليمات البرمجية للتدريب في بيئة التطوير. ثم يتم اختبار الأداة في بيئة التقسيم المرحلي قبل نشرها في الإنتاج.
ضع في اعتبارك هذا الخيار عند تطبيق واحد أو أكثر مما يلي:
- تدريب النموذج مكلف جدا أو يصعب إعادة إنتاجه.
- يتم تنفيذ جميع الأعمال في مساحة عمل Azure Databricks واحدة.
- لا تعمل مع المستودعات الخارجية أو عملية CI/CD.
الميزات:
- تسليم أبسط لعلماء البيانات
- في الحالات التي يكون فيها تدريب النموذج مكلفا، يتطلب تدريب النموذج مرة واحدة فقط.
العيوب:
- إذا لم يمكن الوصول إلى بيانات الإنتاج من بيئة التطوير (والتي قد تكون صحيحة لأسباب أمنية)، فقد لا تكون هذه البنية قابلة للتطبيق.
- إعادة تدريب النموذج التلقائي صعبة في هذا النمط. يمكنك أتمتة إعادة التدريب في بيئة التطوير، ولكن الفريق المسؤول عن نشر النموذج في الإنتاج قد لا يقبل النموذج الناتج على أنه جاهز للإنتاج.
- يجب نشر التعليمات البرمجية الداعمة، مثل المسارات المستخدمة لهندسة الميزات والاستدلال والمراقبة، للإنتاج بشكل منفصل.
عادة ما تتوافق البيئة (التطوير أو التقسيم المرحلي أو الإنتاج) مع كتالوج في كتالوج Unity. للحصول على تفاصيل حول كيفية تنفيذ هذا النمط، راجع دليل الترقية.
يتباين الرسم التخطيطي أدناه دورة حياة التعليمات البرمجية لأنماط النشر أعلاه عبر بيئات التنفيذ المختلفة.
البيئة المعروضة في الرسم التخطيطي هي البيئة النهائية التي يتم فيها تشغيل خطوة. على سبيل المثال، في نمط نماذج التوزيع، يتم إجراء الوحدة النهائية واختبار التكامل في بيئة التطوير. في نمط التعليمات البرمجية للنشر، يتم تشغيل اختبارات الوحدة واختبارات التكامل في بيئات التطوير، ويتم إجراء الوحدة النهائية واختبار التكامل في بيئة التقسيم المرحلي.
