ما مسارات التعلم الآلي من Microsoft Azure

مسار التعلم الآلي من Microsoft Azure هو سير عمل قابل للتنفيذ بشكل مستقل لمهمة التعلم الآلي الكاملة. يساعد مسار التعلم الآلي من Microsoft Azure في توحيد أفضل الممارسات لإنتاج نموذج التعلم الآلي، ويمكن الفريق من التنفيذ على نطاق واسع، ويحسن كفاءة بناء النموذج.

ما مسارات التعلم الآلي من Microsoft Azure اللازمة؟

يتمثل جوهر مسار التعلم الآلي في تقسيم مهمة التعلم الآلي الكاملة إلى سير عمل متعدد الخطوات. كل خطوة تمثل مكوناً قابلاً للإدارة يمكن تطويره وتحسينه وتكوينه وأتمتته بشكل فردي. يتم توصيل الخطوات من خلال واجهات محددة جيداً. تنسق خدمة البنية الأساسية للتعلم الآلي من Microsoft Azure تلقائياً جميع التبعيات بين خطوات البنية الأساسية. يجلب هذا النهج المعياري ميزتين رئيسيتين:

توحيد ممارسة MLOps ودعم تعاون الفريق القابل للتطوير

تعمل عملية التعلم الآلي (MLOps) على أتمتة عملية بناء نماذج التعلم الآلي وأخذ النموذج إلى الإنتاج. هذه عملية معقدة. وعادةً ما يتطلب التعاون من فرق مختلفة ذات مهارات مختلفة. يمكن لمسار التعلم الآلي المحدد جيداً تجريد هذه العملية المعقدة إلى سير عمل خطوات متعددة، وتعيين كل خطوة إلى مهمة معينة بحيث يمكن لكل فريق العمل بشكل مستقل.

على سبيل المثال، يتضمن مشروع التعلم الآلي النموذجي خطوات جمع البيانات وإعداد البيانات وتدريب النموذج وتقييم النموذج وتوزيع النموذج. عادة ما يركز مهندسو البيانات على خطوات البيانات، ويقضي علماء البيانات معظم الوقت في تدريب النموذج وتقييمه، ويركز مهندسو التعلم الآلي على توزيع النموذج وأتمتة سير العمل بأكمله. من خلال الاستفادة من مسار التعلم الآلي، يحتاج كل فريق فقط إلى العمل على بناء خطواته الخاصة. أفضل طريقة لبناء الخطوات هي استخدام مكون Azure التعلم الآلي (v2)، وهو جزء مكتف ذاتيا من التعليمات البرمجية يقوم بخطوة واحدة في مسار التعلم الآلي. يتم أخيراً دمج جميع هذه الخطوات التي أنشأها مستخدمون مختلفون في سير عمل واحد من خلال تعريف البنية الأساسية. البنية الأساسية تمثل أداة تعاون للجميع في المشروع. يمكن توحيد عملية تحديد البنية الأساسية وجميع خطواتها من خلال ممارسة DevOps المفضلة لكل شركة. يمكن إصدار البنية الأساسية وأتمتتها بشكل أكبر. إذا تم وصف مشاريع التعلم الآلي على أنها بنية أساسية، فسيتم تطبيق أفضل ممارسة MLOps بالفعل.

كفاءة التدريب وخفض التكلفة

بالإضافة إلى كونه أداة لوضع MLOps موضع التنفيذ، فإن مسار التعلم الآلي يحسن أيضا كفاءة تدريب النموذج الكبير ويقلل من التكلفة. أخذ تدريب نموذج اللغة الطبيعية الحديث كمثال. يتطلب المعالجة المسبقة كميات كبيرة من البيانات وتدريب نموذج المحول المكثف لوحدة معالجة الرسومات. يستغرق الأمر من ساعات إلى أيام لتدريب نموذج في كل مرة. عند بناء النموذج، يريد عالم البيانات اختبار تعليمة برمجية مختلفة للتدريب أو المعلمات الفائقة وتشغيل التدريب عدة مرات للحصول على أفضل أداء للنموذج. بالنسبة لمعظم هذه التدريبات، عادة ما تكون هناك تغييرات صغيرة من تدريب إلى آخر. سيكون مضيعة كبيرة إذا تم التدريب الكامل في كل مرة من معالجة البيانات إلى التدريب النموذجي. باستخدام البنية الأساسية للتعلم الآلي، يمكنها تلقائياً حساب نتيجة الخطوات التي لم تتغير وإعادة استخدام المخرجات من التدريب السابق. بالإضافة إلى ذلك، تدعم البنية الأساسية للتعلم الآلي تشغيل كل خطوة على موارد حسابية مختلفة. بحيث يمكن تشغيل عمل معالجة البيانات الثقيلة للذاكرة وأجهزة وحدة المعالجة المركزية ذات الذاكرة العالية، والتدريب الحسابي المكثف على أجهزة GPU باهظة الثمن. من خلال اختيار الخطوة التي سيتم تشغيلها على أي نوع من الأجهزة بشكل صحيح، يمكن تقليل تكلفة التدريب بشكل كبير.

أفضل ممارسات البدء

اعتمادا على ما يمتلكه مشروع التعلم الآلي بالفعل، قد تختلف نقطة البداية لبناء مسار التعلم الآلي. هناك بعض الأساليب النموذجية لإنشاء البنية الأساسية.

عادة ما ينطبق النهج الأول على الفريق الذي لم يستخدم البنية الأساسية لبرنامج ربط العمليات التجارية من قبل ويريد الاستفادة من البنية الأساسية لبرنامج ربط العمليات التجارية مثل MLOps. في هذه الحالة، عادة ما طور علماء البيانات بعض نماذج التعلم الآلي على بيئتهم المحلية باستخدام أدواتهم المفضلة. يحتاج مهندسو التعلم الآلي إلى نقل إخراج علماء البيانات إلى الإنتاج. يتضمن العمل تنظيف بعض التعليمات البرمجية غير الضرورية من دفتر الملاحظات الأصلي أو تعليمة Python البرمجية، وتغيير مدخلات التدريب من البيانات المحلية إلى قيم ذات معلمات، وتقسيم التعليمات البرمجية للتدريب إلى خطوات متعددة حسب الحاجة، وإجراء اختبار الوحدة لكل خطوة، وأخيرا تضمين جميع الخطوات في البنية الأساسية لبرنامج ربط العمليات التجارية.

بمجرد أن تتعرف الفرق على البنية الأساسية وترغب في تنفيذ المزيد من مشاريع التعلم الآلي باستخدام هذه البنية الأساسية، سيجدون أن النهج الأول يصعب توسيع نطاقه. يتم إعداد النهج الثاني لعدد قليل من قوالب البنية الأساسية، كل منها يحاول حل مشكلة واحدة محددة في التعلم الآلي. يعرف القالب مسبقا بنية البنية الأساسية لبرنامج ربط العمليات التجارية بما في ذلك عدد الخطوات ومدخلات كل خطوة ومخرجاتها واتصالها. لبدء مشروع تعلم آلي جديد، يقوم الفريق أولاً بإنشاء مستودع قالب واحد. يقوم قائد الفريق بعد ذلك بتعيين الأعضاء بالخطوة التي يحتاجون إلى العمل عليها. يقوم علماء البيانات ومهندسو البيانات بعملهم العادي. عندما يكونون راضين عن نتائجهم، فإنهم يقومون ببناء التعليمات البرمجية الخاصة بهم لتناسب الخطوات المحددة مسبقاً. بمجرد إيداع التعليمات البرمجية المهيكلة، يمكن تنفيذ البنية الأساسية أو تشغيلها تلقائياً. إذا كان هناك أي تغيير، يحتاج كل عضو فقط إلى العمل على جزء من التعليمات البرمجية الخاصة به دون لمس بقية التعليمات البرمجية للبنية الأساسية.

بمجرد أن يقوم الفريق ببناء مجموعة من البنيات الأساسية للتعلم الآلي والمكونات القابلة لإعادة الاستخدام، يمكنه البدء في إنشاء البنية الأساسية للتعلم الآلي من استنساخ البنية الأساسية السابقة أو ربط المكون الحالي القابل لإعادة الاستخدام معاً. في هذه المرحلة، سيتم تحسين الإنتاجية الإجمالية للفريق بشكل كبير.

يقدم التعلم الآلي من Microsoft Azure طرقاً مختلفة لإنشاء البنية الأساسية. بالنسبة للمستخدمين الذين هم على دراية بممارسات DevOps، نوصي باستخدام CLI. بالنسبة لعلماء البيانات الذين هم على دراية ب python، نوصي بكتابة مسارات باستخدام Azure التعلم الآلي SDK v2. بالنسبة للمستخدمين الذين يفضلون استخدام واجهة المستخدم، يمكنهم استخدام المصمم لإنشاء البنية الأساسية لبرنامج ربط العمليات التجارية باستخدام المكونات المسجلة.

ما تقنية بنية Azure الأساسية التي يجب استخدامها؟

توفر سحابة Azure عدة أنواع من البنية الأساسية، ولكل منها غرض مختلف. يسرد الجدول التالي المسارات المختلفة وما تستخدم من أجله:

السيناريو الشخصية الأساسية عرض Azure عرض برنامج مفتوح المصدر بنية أساسية متعارف عليها نقاط القوة
تنسيق النموذج (التعلم الآلي) عالم البيانات مسارات التعلم الآلي من Microsoft Azure البنية الأساسية لـ Kubeflow البيانات -النموذج > التوزيع والتخزين المؤقت والتعليمة البرمجية أولاً وإعادة الاستخدام
تنسيق البيانات (إعداد البيانات) مهندس البيانات مسارات Azure Data Factory Apache Airflow البيانات -> البيانات حركة مكتوبة بقوة، أنشطة تركز على البيانات
تنسيق التعليمات البرمجية والتطبيق (CI/CD) مطور التطبيقات / العمليات مسارات Azure Jenkins التعليمة البرمجية + النموذج -> الحساب / الخدمة دعم النشاط الأكثر انفتاحاً ومرونة، وقوائم انتظار الموافقة، والمراحل مع إعداد البوابة

الخطوات التالية

البنية الأساسية للتعلم الآلي من Azure هي منشأة قوية تبدأ في تقديم القيمة في مراحل التطوير المبكرة.