ما هو التراجع؟

مكتمل

الانحدار هو تقنية بسيطة شائعة ومفيدة للغاية لتحليل البيانات، غالبا ما يشار إليها بالعامية باسم "ملاءمة خط". في أبسط أشكاله، يلائم الانحدار خطا مستقيما بين متغير واحد (ميزة) وآخر (تسمية). في النماذج الأكثر تعقيداً، يمكن أن يجد التراجع علاقات غير خطية بين تسمية واحدة وميزات متعددة.

تراجع خطي بسيط

نموذج الانحدار الخطي البسيط علاقة خطية بين ميزة واحدة وتسمية مستمرة عادة، ما يسمح للميزة بتوقع التسمية. وقد يبدو كما يلي:

Diagram of a simple linear regression graph on the relationship between age and body temperature.

يحتوي الانحدار الخطي البسيط على معلمتين: التقاطع (ج)، والذي يشير إلى القيمة التي تكون عليها التسمية عند تعيين الميزة إلى الصفر؛ ومنحدر (m)، ما يشير إلى مقدار زيادة التسمية لكل زيادة بمقدار نقطة واحدة في الميزة.

إذا كنت ترغب في التفكير رياضياً، فهذا هو ببساطة:

y=mx+c

حيث y هو التسمية الخاصة بك وx هي الميزة الخاصة بك.

على سبيل المثال، في السيناريو خاصتنا، إذا حاولنا التنبؤ بالمرضى الذين يعانون ارتفاعاً في درجة حرارة الجسم بناءً على أعمارهم، فسنحصل على النموذج:

درجة الحرارة = m * العمر + c

وتحتاج إلى العثور على قيم m وc أثناء الإجراء المناسب. إذا وجدنا أن m = 0.5 وc = 37، قد نتصوره كما يلي:

Diagram showing a simple linear regression graph, of the relationship between age and body temperature with a sharper line.

وهذا يعني أن كل سنة من العمر ترتبط مع زيادة درجة حرارة الجسم بمقدار 0.5 درجة مئوية، علماً بأن نقطة الانطلاق هي 37 درجة مئوية.

تراجع خطي ملائم

نحن عادةً ما نستخدم المكتبات الموجودة لملائمة نماذج التراجع بالنسبة لنا. يهدف التراجع عادة إلى العثور على السطر الذي ينتج أقل قدر من الخطأ، حيث يعني الخطأ هنا الفرق بين قيمة نقطة البيانات الفعلية والقيمة المتوقعة. على سبيل المثال، في الصورة التالية، يشير الخط الأسود إلى الخطأ بين التنبؤ والخط الأحمر وقيمة فعلية واحدة: النقطة.

Diagram showing fitting a linear regression graph with plot points and a black line to indicate error.

من خلال النظر إلى هاتين النقطتين على محور y، يمكننا أن نرى أن التنبؤ كان 39.5، ولكن القيمة الفعلية كانت 41.

Diagram showing fitting a linear regression graph with plot points and a dotted black line to measure error.

لذلك، كان النموذج خاطئاً بنسبة 1.5 لنقطة البيانات هذه.

الأكثر شيوعاً، أننا نلائم النموذج عن طريق تقليل المجموع المتبقي من المربعات. وهذا يُعني أن حساب دالة التكلفة كما يلي:

  1. حساب الفرق بين القيم الفعلية والمتوقعة (كما كان سابقا) لكل نقطة بيانات.
  2. تربيع هذه القيم.
  3. جمع (أو متوسط) هذه القيم التربيعية.

تعني خطوة الترهل هذه أنه ليس كل النقاط تساهم بالتساوي في الخط: القيم الخارجية - وهي نقاط لا تقع في النمط المتوقع - لها خطأ أكبر بشكل غير متناسب، مما يمكن أن يؤثر على موضع الخط.

نقاط القوة في التراجع

تقنيات التراجع لديها العديد من نقاط القوة التي لا تملكها نماذج أكثر تعقيداً.

يمكن التنبؤ به وسهل التفسير

من السهل تفسير التراجعات لأنها تصف المعادلات الرياضية البسيطة، والتي يمكننا رسمها بيانياً في كثيرٍ من الأحيان. غالبا ما يشار إلى النماذج الأكثر تعقيدا باسم حلول الصندوق الأسود، لأنه من الصعب فهم كيفية إجراء التنبؤات أو كيفية تصرفها مع مدخلات معينة.

سهل الاستقراء

إن التراجعات تجعل من السهل الاستقراء؛ لإجراء تنبؤات للقيم خارج نطاق مجموعة البيانات الخاصة بنا. على سبيل المثال، من السهل التقدير في مثالنا السابق أن الكلب البالغ من العمر تسع سنوات سيكون له درجة حرارة 40.5 درجة مئوية. يجب عليك دائما توخي الحذر في الاستقراء: يتوقع هذا النموذج أن يكون لدى البالغ من العمر 90 عاما درجة حرارة ساخنة بما يكفي لغلي الماء.

عادةً ما تكون الملائمة الأمثل مضمونةً

تستخدم معظم نماذج التعلم الآلي الانحدار المتدرج لملائمة النماذج، وذلك يتضمن ضبط خوارزمية الانحدار المتدرج دون توفير أي ضمان لإيجاد الحل الأمثل. وعلى النقيض من ذلك، لا يحتاج الانحدار الخطي الذي يستخدم مجموع المربعات كدالة تكلفة إلى إجراء متدرج متكرر. بدلاً من ذلك، يمكن استخدام الرياضيات الذكية لحساب الموقع الأمثل للخط المراد وضعه. تقع الرياضيات خارج نطاق هذه الوحدة النمطية، ولكن من المفيد معرفة أن الانحدار الخطي (طالما أن حجم العينة ليس كبيرا جدا) لا يحتاج إلى اهتمام خاص ليتم دفعه لعملية الملائمة، والحل الأمثل مضمون.