تحسين النماذج باستخدام الانخفاض المتدرج

مكتمل

لقد رأينا كيف تُقيّم دوال التكلفة مدى جودة أداء النماذج باستخدام البيانات. المحسن هو الجزء الأخير من اللغز.

دور المحسن هو تغيير النموذج بطريقة تحسن أدائه. يقوم بهذا التغيير عن طريق فحص مخرجات النموذج والتكلفة واقتراح معلمات جديدة للنموذج.

على سبيل المثال، في سيناريو المزرعة لدينا، يحتوي نموذجنا الخطي على معلمتين: تقاطع الخط وانحدار الخط. إذا كان تقاطع الخط خاطئا، فإن النموذج يقلل من تقدير درجات الحرارة أو يزيد من تقديرها في المتوسط. إذا تم تعيين المنحدر بشكل خاطئ، فلن يقوم النموذج بعمل جيد لإظهار كيف تغيرت درجات الحرارة منذ الخمسينيات. يغير المحسن هاتين المعلمتين بحيث تقومان بعمل مثالي لنمذجة درجات الحرارة بمرور الوقت.

Diagram that shows the optimizer part of the machine-learning lifecycle.

الانخفاض المتدرج

خوارزمية التحسين الأكثر شيوعًا اليوم هي الانخفاض المتدرج. توجد العديد من المتغيرات لهذه الخوازميات، لكن كلهم يستخدمون نفس المفاهيم الأساسية.

يستخدم الانخفاض المتدرج حساب التفاضل والتكامل لتقدير كيفية تغيير كل معلمة للتكلفة. على سبيل المثال، يمكن التنبؤ بزيادة معلمة لتقليل التكلفة.

تتم تسمية الانخفاض المتدرج على هذا النحو لأنه يحسب التدرج (المنحدر) للعلاقة بين كل معلمة نموذج والتكلفة. ثم يتم تغيير المعلمات للانتقال أسفل هذا المنحدر.

هذه الخوارزمية بسيطة وفعالة، ومع ذلك فإنها غير مضمونة العثور على معلمات النموذج المُثلى التي تقلل من التكلفة. المصدران الرئيسيان للخطأ هما الحد الأدنى المحلي للتكلفة وعدم الاستقرار.

الحد الأدنى المحلي للتكلفة

بدا مثالنا السابق أنه يقوم بعمل جيد، بافتراض أن التكلفة كانت ستستمر في الزيادة عندما تكون المعلمة أصغر من 0 أو أكبر من 10:

Plot of cost versus model parameter, with a minima for cost when the model parameter is five.

لن تكون هذه المهمة كبيرة جدا إذا كانت المعلمات الأصغر من الصفر أو أكبر من 10 ستؤدي إلى انخفاض التكاليف، كما هو الحال في هذه الصورة:

Plot of cost versus model parameter, with a local minima for cost when the model parameter is five but a lower cost when the model parameter is at negative six.

في الرسم البياني السابق، كانت قيمة المعلمة للسبعة السالبة تمثل حلا أفضل من خمسة، لأنه يحتوي على تكلفة أقل. لا يعرف الانخفاض المتدرج العلاقة الكاملة بين كل معلمة والتكلفة - التي يمثلها الخط المنقط - مُسبقًا. لذلك، فإنه عرضة للعثور على الحد الأدنى المحلي: تقديرات المعلمات التي ليست الحل الأفضل، ولكن التدرج هو صفر.

عدم الاستقرار

وهناك مشكلة ذات صلة هي أن الانخفاض المتدرج يؤدي في بعض الأحيان إلى عدم الاستقرار. يحدث عدم الاستقرار هذا عادة عندما يكون حجم الخطوة أو معدل التعلم — القيمة التي يتم ضبط كل معلمة من خلالها مع كل تكرار — كبيرًا جدًا. يتم بعد ذلك ضبط المعلمات كثيرًا في كل خطوة، ويزداد النموذج سوءًا مع كل تكرار:

Plot of cost versus model parameter, which shows cost moving in large steps with minimal decrease in cost.

يمكن أن يؤدي وجود معدل تعلم أبطأ إلى حل هذه المشكلة، ولكن قد يؤدي أيضا إلى حدوث مشكلات. أولًا، يمكن أن تعني معدلات التعلم الأبطأ أن التدريب يستغرق وقتًا طويلًا، حيث يلزم إجراء المزيد من الخطوات. ثانيا، يجعل اتخاذ خطوات أصغر من المرجح أن يستقر التدريب على الحد الأدنى المحلي:

Plot of cost versus model parameter, showing small movements in cost.

على النقيض من ذلك، يمكن أن يسهل معدل التعلم الأسرع تجنب الوصول إلى الحد الأدنى للتكلفة المحلي، لأن الخطوات الأكبر يمكن أن تتخطى الحد الأقصى المحلي:

Plot of cost versus model parameter, with regular movements in cost until a minima is reached.

كما سنرى في التمرين التالي، هناك حجم خطوة مثالي لكل مشكلة. إن العثور على هذا الوضع الأمثل هو شيء يتطلب في كثير من الأحيان التجربة.