الفروق الدقيقة في مجموعات الاختبار

مكتمل

تعتبر مجموعات الاختبار من أفضل الممارسات لمعظم جوانب التعلم الآلي، على الرغم من أن المجال لا يزال صغيرًا نسبيًا، وبالتالي بالضبط كيف ومتى تتم مناقشته في كثير من الأحيان. فلنستعرض بعض الأشياء التي يجب وضعها في الاعتبار.

يمكن أن تكون مجموعات الاختبار مضللة

على الرغم من أن مجموعات الاختبار مفيدة لتحديد التدريب المفرط، إلا أنها يمكن أن توفر لنا ثقة زائفة. وعلى وجه التحديد، فإن مجموعات الاختبار لا تكون مفيدة إلا إذا كانت تعكس البيانات التي نتوقع أن نراها في العالم الحقيقي. على سبيل المثال، مجموعة الاختبار الخاصة بنا صغيرة جدا، لذلك لن تكون ممثلة لمجموعة متنوعة من البيانات التي من المحتمل أن نراها في العالم الحقيقي. تكون مجموعات بيانات الاختبار جيدة وفقًا لمصدرها. إذا كانت مجموعة بيانات الاختبار الخاصة بنا تأتي من مصدر متحيز، فلن تعكس مقاييسنا كيف ستتصرف الأشياء في العالم الحقيقي.

على سبيل المثال، لنفترض أننا نحاول العثور على العلاقة بين عدد عمليات الإنقاذ والعمر الذي بدأ فيه الكلب التدريب. إذا كانت مجموعة الاختبار الخاصة بنا عبارة عن ثلاثة كلاب فقط، فمن المحتمل أن هذه الكلاب ليست تمثيلًا جيدًا لمجموعة متنوعة من الكلاب العاملة في العالم الحقيقي. تخيل أيضا أننا حصلنا على مجموعة الاختبار الخاصة بنا من مربي واحد لا يعرف كيفية العمل مع الجراء. قد يتنبأ نموذجنا بأن الكلاب الأكبر سنًا هي الأفضل للتدريب، وستؤكد مجموعة بيانات الاختبار لدينا ذلك، بينما في الواقع قد يحقق المدربون الآخرون نجاحًا هائلاً مع الكلاب الأصغر سنًا.

مجموعات الاختبار ليست مجانية

لقد رأينا بالفعل أنه كلما زاد عدد بيانات التدريب لدينا، قل احتمال أن يكون نموذجنا أكثر احتواء. وبالمثل، كلما كانت مجموعات الاختبار أكبر، كلما شعرنا بالثقة في نتائج اختباراتنا. ومع ذلك، عادة ما نعمل مع كميات محدودة من البيانات، ولا يمكن أن تكون نقطة البيانات في كل من التدريب ومجموعة الاختبار. وهذا يعني أنه كلما حصلنا على مجموعات اختبار أكبر، نحصل على مجموعات بيانات تدريبية أصغر والعكس صحيح. يعتمد مقدار البيانات التي يجب التضحية بها بالضبط لتظهر في مجموعة بيانات الاختبار على الظروف الفردية، مع أي شيء بين 10-50٪ يكون شائعا نسبيا، اعتمادا على حجم البيانات المتاحة.

التدريب والاختبار ليس النهج الوحيد

تجدر الإشارة إلى أن التدريب والاختبار شائعان، ولكن ليس النهج الوحيد المستخدم على نطاق واسع. وهناك بديلان أكثر شيوعا هما نهج التقييع وأساليب النهج الإحصائي .

نهج الصمود

يشبه نهج الانتظار التدريب والاختبار، ولكن بدلا من تقسيم مجموعة البيانات إلى اثنين، يتم تقسيمها إلى ثلاثة: التدريبوالاختبار (المعروف أيضا باسم التحقق من الصحة) والإيقاف. مجموعات بيانات التدريب والاختبار كما وصفنا سابقا. مجموعة البيانات المحتفظ بها هي نوع من مجموعة الاختبار التي يتم استخدامها مرة واحدة فقط، عندما نكون مستعدين لنشر نموذجنا للاستخدام في العالم الحقيقي. بمعنى آخر، لا يتم استخدامه حتى ننتهي من تجربة أنواع مختلفة من أنظمة التدريب، وأنواع مختلفة من النماذج، وما إلى ذلك.

يعالج هذا النهج حقيقة أننا عادة ما نجرب نماذج وأنظمة تدريب مختلفة. على سبيل المثال، نحن نلائم النموذج، ونجد أنه لا يعمل بشكل جيد مع مجموعة بيانات الاختبار، وتغيير بعض جوانب النموذج الذي يتم تدريبه، والمحاولة مرة أخرى حتى نحصل على نتيجة جيدة. وهذا يعني أننا نغير نموذجنا عن قصد للعمل على مجموعة معينة من البيانات، تماما كما يفعل التدريب العادي مع مجموعة بيانات التدريب. من خلال القيام بذلك، يمكننا أن ينتهي بنا المطاف بنموذج مدرب بشكل أساسي أكثر من اللازم للعمل على مجموعة بيانات الاختبار الخاصة بنا.

فكرة مجموعة البيانات الثالثة هي أنه يمكننا اختبار هذا أيضا. يعني هذا النهج تقسيم البيانات بثلاث طرق، مما يعني أننا نبدأ ببيانات تدريب أقل. إذا لم يكن لدينا الكثير من البيانات للعمل معها، فإن هذا النهج يمكن أن يقلل من قدرتنا على الحصول على نموذج جيد.

النهج الإحصائية

غالبًا ما لا تحتاج النماذج الأبسط التي نشأت في الإحصائيات إلى مجموعات بيانات اختبار. بدلا من ذلك، يمكننا حساب الدرجة التي يفرط فيها النموذج مباشرة كأهمية إحصائية: قيمة p.

هذه الأساليب الإحصائية قوية وراسخة وتشكل أساس العلم الحديث. الميزة هي أن مجموعة التدريب لا تحتاج أبدا إلى الانقسام، ونحصل على فهم أكثر دقة لمدى ثقةنا في النموذج. على سبيل المثال، تعني قيمة p البالغة 0.01 أن هناك فرصة ضئيلة جدا أن يكون نموذجنا قد وجد علاقة غير موجودة في الواقع في العالم الحقيقي. وعلى النقيض من ذلك، فإن قيمة p البالغة 0.5 تعني أنه في حين أن نموذجنا قد يبدو جيدا مع بيانات التدريب الخاصة بنا، فإنه لن يكون أفضل من قلب عملة معدنية في العالم الحقيقي.

الجانب السلبي لهذه الأساليب هو أنه يتم تطبيقها بسهولة فقط على أنواع نماذج معينة، مثل نماذج الانحدار الخطي التي كنا نتدرب عليها. بالنسبة لجميع النماذج باستثناء أبسطها، يمكن أن تكون هذه الحسابات معقدة للغاية لتؤدى بشكل صحيح، وبالتالي فهي خارج نطاق المسار الحالي. كما أنها تعاني من نفس القيد فيما يتعلق باختيار البيانات؛ إذا كانت بيانات التدريب الخاصة بنا متحيزة، فإن قيم p لدينا ستكون مضللة.