تراجع خطي متعدد و R-تربيع

4 دقائق

في هذه الوحدة، سنقارن التراجع الخطي المتعدد مع الانحدار الخطي البسيط. سننظر أيضاً في مقياس يسمى R²، والذي يستخدم عادةً لتقييم جودة نموذج التراجع الخطي.

تراجع خطي متعدد

نموذج الانحدار الخطي المتعدد العلاقة بين عدة ميزات ومتغير واحد. رياضياً، هو نفس التراجع الخطي البسيط، وعادةً ما يكون مناسباً باستخدام نفس دالة التكلفة، ولكن مع المزيد من الميزات.

بدلا من نمذجة علاقة واحدة، تقوم هذه التقنية في نفس الوقت بنمذجة علاقات متعددة، والتي تتعامل معها على أنها مستقلة عن بعضها البعض. على سبيل المثال، إذا كنا نتنبأ بمدى مرض الكلب بناء على عمره body_fat_percentage، يتم العثور على علاقتين:

كيف يزيد العمر أو يقل المرض
كيف تزيد نسبة_الدهون_في_الجسم من المرض أو تقلله

إذا كنا نعمل فقط مع ميزتين، يمكننا تصور نموذجنا كوحدة - سطح مسطح ثنائي الأبعاد - تماما كما يمكننا تصميم انحدار خطي بسيط كخط. سنفعل هذا في التمرين القادم.

التراجع الخطي المتعدد له افتراضات

يُطلق على حقيقة أن النموذج يتوقع أن تكون الميزات مستقلة افتراض النموذج. عندما لا تكون افتراضات النموذج صحيحة، يمكن للنموذج إجراء تنبؤات مضللة.

على سبيل المثال، من المحتمل أن العمر يتوقع كيف تصبح الكلاب المريضة، مع تزايد مرض الكلاب الأكبر سنا، جنبا إلى جنب مع ما إذا كان قد تم تعليم الكلاب كيفية لعب الفريزب؛ ربما تعرف الكلاب الأكبر سنا كيفية لعب الفريزب. إذا قمنا بتضمين العمر knows_frisbee إلى نموذجنا كميزات، فمن المحتمل أن يخبرنا knows_frisbee هو تنبؤ جيد للمرض ويقلل من أهمية العمر. هذا أمر سخيف بعض الشيء، لأن معرفة الفريزب ليس من المرجح أن يسبب المرض. وعلى النقيض من ذلك، قد يكون dog_breed أيضا مؤشرا جيدا للمرض، ولكن ليس هناك سبب للاعتقاد بأن العمر يتوقع dog_breed، لذلك سيكون من الآمن تضمين كليهما في النموذج.

الجيد في الملائمة: R²

نحن نعلم أنه يمكن استخدام وظائف التكلفة لتقييم مدى ملاءمة النموذج للبيانات التي تم تدريبه عليها. تحتوي نماذج الانحدار الخطي على مقياس خاص ذي صلة يسمى R² (R-squared). R² هي قيمة بين 0 و 1 تخبرنا بمدى ملاءمة نموذج التراجع الخطي للبيانات. عندما يتحدث الناس عن الارتباطات كونها قوية، فإنها غالباً ما تعني أن قيمة R² كانت كبيرة.

R² يستخدم الرياضيات بما يتجاوز ما ننوي تناوله في هذه الدورة، ولكن يمكننا التفكير في الأمر بشكل حدسي. دعونا ننظر في التمرين السابق، حيث نظرنا إلى العلاقة بين العمر core_temperature. إن R² من 1 يعني أنه يمكن استخدام السنوات للتنبؤ تماما بمن لديه درجة حرارة عالية ومن لديه درجة حرارة منخفضة. وعلى النقيض من ذلك، فإن 0 يعني ببساطة عدم وجود علاقة بين السنوات ودرجة الحرارة.

Diagram showing a goodness of fit graph with many plot points.

الواقع في مكانٍ ما بينهما. يمكن لنموذجنا التنبؤ بدرجة حرارة إلى حد ما (لذلك فهو أفضل من R² = 0)، ولكن النقاط تختلف عن هذا التنبؤ إلى حد ما (لذلك فهي أقل من R² =1).

R² هو فقط نصف القصة.

قيم R² مقبولة على نطاق واسع، ولكنها ليست مقياسا مثاليا يمكننا استخدامه بمعزل عن غيرها. فالقيم تعاني أربعة قيود:

بسبب كيفية حساب R^2، كلما زادت العينات لدينا، ارتفع R². وهذا يمكن أن يقودنا إلى التفكير في أن نموذج واحد هو أفضل من نموذج آخر (متطابق)، وذلك ببساطة لأن قيم R² تُحسب باستخدام كميات مختلفة من البيانات.
لا تخبرنا قيم R² بمدى نجاح النموذج في العمل مع البيانات الجديدة غير المرئية من قبل. يتغلب الإحصائيون على ذلك عن طريق حساب مقياس تكميلي، يسمى قيمة p، والتي لن نغطيها هنا. في التعلم الآلي، غالباً ما نختبر نموذجنا صراحةً على مجموعة بيانات أخرى بدلاً من ذلك.
قيم R² لا تخبرنا باتجاه العلاقة. على سبيل المثال، لا تخبرنا قيمة R² التي تبلغ 0.8 ما إذا كان الخط مائلاً لأعلى أم لأسفل. كما أنه لا يخبرنا مقدار انحدار الخط.

من الجدير أيضا أن نضع في اعتبارنا أنه لا توجد معايير عالمية لما يجعل قيمة R² "جيدة بما فيه الكفاية". على سبيل المثال، في معظم الفيزياء، من غير المحتمل أن تعتبر الارتباطات التي ليست قريبة جدا من 1 مفيدة، ولكن عند نمذجة الأنظمة المعقدة، قد تعتبر قيم R² منخفضة 0.3 ممتازة.

متابعة