المقاييس الفائقة في التصنيف

مكتمل

يمكنك التفكير في المعلمات الفائقة كإعدادات تستخدم للتدريب. على سبيل المثال، قد نختار التدريب ببطء أو بسرعة. تؤثر المعلمات الفائقة على التدريب، لذلك تؤثر على أداء النموذج النهائي. تعتمد أي المقاييس الفائقة متاحة على نوع النموذج الذي ندرب. نحن عادة نجرب مع المقاييس الفائقة في تحسين أداء نموذجنا.

الغابات العشوائية كمثال،

الغابات العشوائية لديها أنواع مختلفة من المقاييس الفائقة المتاحة. مع الغابات العشوائية على وجه التحديد، يمكن أن يكون الخط الفاصل بين قرارات البنية والمقاييس الفائقة ضبابيًا. هذا لأن المقاييس الفائقة لا تؤثر فقط على المقاييس داخل النموذج لكن كيفية تصميم الشجر والغابة.

أذكر أنه في بداية التدريب تُوفر كل شجرة قرار عينات عديدة، مثل 100 لاعب جمباز، وبعضهم فاز بالميداليات. يجب أن نبني شجرة تقسم هذه العينات تدريجيا إلى مجموعات فرعية أصغر من الرياضيين. والهدف من ذلك هو أن هذه المجموعات الفرعية تحتوي على الرياضيين على حد سواء، مثل داخل كل مجموعة فرعية فاز جميع الرياضيين بالميداليات، أو لم يفوزوا جميعا. دعونا نستكشف بعض المقاييس الفائقة التي يمكن أن تؤثر على هذه العملية التدريبية.

معايير لتقسيمها

يجب أثناء التدريب أن يقرر الُمحسن عند تقسيم عقدة. هناك طرق مختلفة لاتخاذ قرارات مثل هذه، والأسلوب الذي يتم اختياره يسمى المقياس الفائق. تشير الأساليب المختلفة في جوهرها إلى طرق مختلفة لتقييم مدى تشابه العينة.

تستند الأساليب الشائعة لتقسيم العقد إلى نظرية المعلومات. يمكنك التفكير في هذا تقريبا على أنه تقسيم عينة بحيث يكون الطابعان الفرعيان الناتجان "أنقى" من النموذج الأصلي. تختلف الطرق المتاحة قليلًا ويمكن أن تؤدي إلى اختلافات طفيفة في الشجرة الناتجة النهائية على نحو مشابه جدًا لإمكانية اختلاف نتائج وظائف التكلفة المستخدمة في الهبوط المتدرج. سنجرب معيارين في المجموعة التالية من التدريبات.

انخفاض الحد الأدنى من الشوائب.

يمكنك تخصيص المعيار المستخدم لتقسيم العقد. على سبيل المثال، تعيين الحد الأدنى من انخفاض النقاء يعني أنه لا يمكن تقسيم العقدة إلا إذا كانت ستحسن النموذج بمقدار معين أو أكثر. هناك العديد من المقاييس الفائقة ذات الصلة التي يمكن أن تمنع العقد الجديدة التي يتم إنشاؤها، مثل العمق الأقصى أو الحد الأدنى لعدد العينات في العقدة.

السبب في أننا نرفض شجرة تنمو بعيدًا جدًا هو تجنب الملائمة المفرطة. الأشجار الأكبر أفضل في مطابقة مجموعة بيانات التدريب، لكنها يمكن أن تصبح مضبوطة على مجموعة التدريب هذه لدرجة أنها تتوقف عن العمل للحصول على بيانات أخرى، وبعبارة أخرى، فإن تقييد مدى تعقيد الشجرة يمكن أن يقلل من ميلها إلى الملائمة المفرطة.

الحد الأقصى لعدد الميزات.

عند إنشاء أشجار في غابة عشوائية، يتم تزويدها بمجموعة فرعية من بيانات التدريب لتناسبها وقائمة بالميزات التي يجب استخدامها. الأهم من ذلك، يمكن أن تتلقى كل شجرة مجموعات مختلفة من الميزات، على سبيل المثال، قد تستخدم في شجرة واحدة الوزن والطول، بينما تستخدم في شجرة أخرى الطول والعمر.

من المحتمل أن تؤدي زيادة الحد الأقصى لعدد الميزات التي قد تتلقاها كل شجرة إلى تحسين مدى ملاءمة كل شجرة لمجموعة التدريب مع توفير مزيد من المعلومات. ما إذا كان هذا يساعد أو يضعف قدراته على مجموعة الاختبار يمكن أن تتطلب التجريب. وذلك لأن توفير العديد من الميزات دائما يمكن أن يعني أن الأشجار في الغابة في نهاية المطاف أكثر مماثلة لأحدها البعض، ما يقلل من ميزة غابة عشوائية على شجرة قرار بسيطة. العثور على التوازن بين هذه الأطراف عادة ما يتطلب بعض التجريب.

بذر

النموذج المناسب يعتمد عادة، في مرحلة ما على أرقام عشوائية. لا تنتج أجهزة الكمبيوتر أرقاما عشوائية حقا، بل تحتوي على قواعد توضح كيفية إنتاج قائمة بالأرقام العشوائية، نظرا إلى رقم أولي يسمى البذور العشوائية .

على سبيل المثال، إذا كانت قيمة البذور لدينا 10، وتُؤخذ الأرقام الثلاثة الأولى "عشوائيًا"، فقد ينتج الكمبيوتر 0.75، 0.13، 0.68. في حين أن هذه الأرقام تبدو عشوائية، في كل مرة نزرع من 10، سوف نحصل على نفس المجموعة من الأرقام.

في التعلم الآلي، نستخدم أرقامًا عشوائية لتهيئة مقاييس النموذج و/أو لتقسيم مجموعات البيانات إلى مجموعات تدريب واختبار. إذا تم تعيين البذور العشوائية، فإن القيم العشوائية المستخدمة أثناء عملية التدريب ستكون هي نفسها في كل مرة نقوم فيها بإعادة تشغيل التعليمات البرمجية الخاصة بنا، مما يعني أنه في كل مرة نقوم فيها بإعادة تشغيل التعليمات البرمجية الخاصة بنا، نقوم بتعيين نفس البيانات لاختبار أو مجموعات التدريب وتدريب النماذج التي لها نفس حالة التهيئة (المعلمات الأولية).

وعلى النقيض من ذلك، إذا لم نقم بتعيين البذور، فسيختار الكمبيوتر واحدا لنا (على سبيل المثال، استنادا إلى الوقت)، مما يعني أن تشغيل تدريبنا مرتين يمكن أن يعطي نتائج مختلفة قليلا.

البذور العشوائية ليست مقياس فائق، لكننا نقدمها هنا لتسليط الضوء على أن هذا المقياس الخارجي يمكن أن يلعب دورًا في فعالية التدريب. في حين أن هذا عادة ما يكون طفيفًا، إذا كان النموذج معقد جدا و / أو كمية البيانات المتاحة صغيرة، يمكن أن يكون أداء مجموعة الاختبار للنموذج مختلفًا بشكل ملحوظ إذا اُستُخدم اثنين من البذور المختلفة. في مثل هذه الحالات، غالبا ما يدفع لتشغيل التدريب ببذور مختلفة متعددة لتقييم درجة ملاءمة تصميم النموذج الخاص بك، وإلى أي درجة يكون أداؤك ببساطة "الحظ الأعمى".