مقاييس تقييم

تنقسممجموعة البيانات إلى قسمين: مجموعة التدريب ومجموعة الاختبار. تُستخدم مجموعة التدريب لتدريب النموذج، بينما تُستخدم مجموعة الاختبار كاختبار للنموذج بعد التدريب لحساب أداء النموذج وتقييمه. لم يتم تقديم مجموعة الاختبار إلى النموذج من خلال عملية التدريب، للتأكد من اختبار النموذج على بيانات جديدة.

يُشغل تقييم النموذج تلقائياً بعد إكمال التدريب بنجاح. تبدأ عملية التقييم باستخدام النموذج المدرب للتنبؤ بالفئات المعرفة من قبل المستخدم للمستندات في مجموعة الاختبار، ومقارنتها بعلامات البيانات المقدمة (التي تنشئ خط أساس للحقيقة). تُعاد النتائج حتى تتمكن من مراجعة أداء النموذج. لأغراض التقييم، يستخدم تصنيف النص المخصص المقاييس التالية:

  • الدقة: يقيس مدى دقة / صحة نموذجك. وتعد النسبة بين الإيجابيات المحددة بشكل صحيح (الإيجابيات الحقيقية) وجميع الإيجابيات المحددة. يكشف مقياس الدقة عن عدد الفئات المتوقعة التي تم تصنيفها بشكل صحيح.

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • الاسترجاع: يقيس قدرة النموذج على توقع الفئات الإيجابية الفعلية. تعد النسبة بين الإيجابيات الحقيقية المتوقعة وما تم وضع علامة عليه بالفعل. يكشف مقياس الاسترجاع عن مدى صحة عدد الفئات المتوقعة.

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • درجة F1: درجة F1 هي وظيفة تُعنى بالدقة والاسترجاع. وهناك حاجة إليها عند البحث عن إحداث توازن بين الدقة والاسترجاع.

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

إشعار

يتم حساب الدقة والتذكر ودرجة F1 لكل فئة على حدة (تقييممستوى الفئة) وللنموذج بشكل جماعي (تقييمعلى مستوى النموذج).

مقاييس التقييم على مستوى النموذج ومستوى الفئة

تعريفات الدقة، والاسترجاع، والتقييم هي نفسها بالنسبة للتقييمات على مستوى الكيان وعلى مستوى النموذج. ومع ذلك، يختلف عدد الإيجابيات الصحيحة، الإيجابيات الكاذبة، والسلبيات الكاذبة كما هو موضح في المثال التالي.

تستخدم المقاطع أدناه مجموعة البيانات التالية:

المستند الفئات الفعلية الفئات المتوقعة
1 عمل, كوميديا كوميديا
2 إجراء إجراء
3 الرومانسية الرومانسية
4 رومانسية، كوميديا الرومانسية
5 كوميديا إجراء

التقييم على مستوى الطبقة لفئة الإجراء.

مفتاح عدد الشرح
إيجابي صحيح 1 صُنّف المستند 2 بشكل صحيح على أنه إجراء.
إيجابي خاطئ 1 صُنّف المستند 5 خطأ على أنه إجراء.
سلبي خاطئ 1 لم يُصنف المستند 1 على أنه إجراء على الرغم من كونه كذلك.

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

التقييم على مستوى الطبقة لفئة الكوميديا.

مفتاح عدد الشرح
نتيجة إيجابية صحيحة 1 صُنّف المستند 1 بشكل صحيح على أنه كوميدي.
النتائج الإيجابية الخاطئة 1 لم تُصنف أي مستندات عن طريق الخطأ على أنها كوميديا.
النتائج السلبية الخاطئة 2 لم يُصنف المستندان 5 و4 على أنهما كوميديّان على الرغم من كونهما كذلك.

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 0) = 1

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 2) = 0.33

F1 Score = 2 * Precision * Recall / (Precision + Recall) = (2 * 1 * 0.67) / (1 + 0.67) = 0.80

التقييم على مستوى النموذج للنموذج الجماعي

مفتاح عدد الشرح
إيجابي صحيح 4 أعطيت المستندات 1 و2 و3 و4 الفئات الصحيحة عند التوقع.
إيجابي خاطئ 1 أُعطي المستند 5 فئة خاطئة عند التنبؤ.
سلبي خاطئ 2 لم يُعط المستندان 1 و4 فئتين صحيحتين عند التنبؤ.

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 4 / (4 + 1) = 0.8

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 4 / (4 + 2) = 0.67

F1 Score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.8 * 0.67) / (0.8 + 0.67) = 0.73

إشعار

بالنسبة لنماذج التصنيف أحادية التسمية، فإن عدد السلبيات الزائفة والإيجابيات الزائفة متساوي دائما. تتنبأ نماذج التصنيف أحادية التسمية المخصصة دائماً بفئة واحدة لكل مستند. إذا كان التنبؤ غير صحيح، فإن عدد FP للفئة المتوقعة يزيد بمقدار واحد، بينما يزيد FN للفئة الفعلية بمقدار واحد، وهو ما يعني أن العدد الإجمالي لـ FP و FN للنموذج سيكون متساويا دائما. وليس هذا هو الحال بالنسبة للتصنيف متعدد التسمية، لأن الفشل في التنبؤ بإحدى فئات مستند يُحسب سلبية كاذبة.

تفسير مقاييس التقييم على مستوى الفئة

فماذا يعني في الواقع أن يكون مقياس نموذج معين عالي الدقة أو الاسترجاع؟

الاستدعاء الدقة الترجمة
عالي عالي يتم التعامل مع هذه الفئة تماما من قبل النموذج.
منخفض مرتفع لا يمكن للنموذج دائماً استخراج هذه الفئة، ولكنه عندما يفعل ذلك، فإنما يقوم به بثقة عالية. قد يكون هذا بسبب نقص تمثيل هذه الفئة في مجموعة البيانات، لذا خذ الاتزان في توزيع البيانات بعين الاعتبار.
عالي منخفض يتنبؤ النموذج بهذه الفئة بشكل جيد، ولكنه يفعل ذلك مع قلة الثقة. قد يكون هذا بسبب نقص تمثيل هذه الفئة في مجموعة البيانات، لذا خذ الاتزان في توزيع البيانات بعين الاعتبار.
منخفض منخفض يتم التعامل مع هذه الفئة بشكل سيئ من قبل النموذج حيث لا يتنبؤ بها عادة. وحتى عندما يتنبؤ بها، فإن ذلك لا يكون بثقة عالية.

ومن المتوقع أن تواجه نماذج تصنيف النص المخصص كلاً من السلبيات الكاذبة والإيجابيات الكاذبة. تحتاج إلى النظر في كيفية تأثير كل منها على النظام العام، والتفكير بعناية من خلال السيناريوهات التي يتجاهل فيها النموذج التنبؤات الصحيحة، ويتعرف على التنبؤات غير الصحيحة. اعتمادًا على السيناريو الخاص بك، يمكن أن تكون الدقة أو الاسترجاع أكثر ملائمة لتقييم أداء نموذجك.

على سبيل المثال، إذا كان السيناريو يتضمن معالجة تذاكر الدعم الفني، فإن التنبؤ بالفئة الخاطئة قد يؤدي إلى إعادة توجيهها إلى القسم/الفريق الخطأ. في هذا المثال، يجب أن تُفكر في جعل النظام أكثر حساسية للإيجابيات الكاذبة، وأن تكون الدقة مقياسا أكثر ملائمة للتقييم.

وكمثال آخر، إذا كان السيناريو يتضمن تصنيف البريد الإلكتروني على أنه"مهم"أو"مزعج"، يمكن أن يتسبب التنبؤ غير الصحيح لك بتفويت رسالة بريد إلكتروني مفيدة إذا جاءت تحت عنوان"البريد المزعج". ومع ذلك، إذا وُصِفت رسالة البريد الإلكتروني المزعجة على أنها"مهمة"، فيمكنك تجاهلها. في هذا المثال، يجب أن تفكر في جعل نظامك أكثر حساسية للسلبيات الكاذبة، وأن يكون الاسترجاع مقياسا أكثر ملائمة للتقييم.

إذا كنت ترغب في تحسين سيناريوهات الأغراض العامة أو عندما يكون كل من الدقة والاسترجاع مهمين، فيمكنك الاستفادة من نتيجة F1. درجات التقييم ذاتيةٌ بناءً على السيناريو ومعايير القبول. لا يوجد مقياس مطلق يعمل لجميع السيناريوهات.

الإرشادات

بعد تدريب النموذج الخاص بك، سترى بعض الإرشادات والتوصية حول كيفية تحسين النموذج. من المستحسن أن يكون لديك نموذج يغطي جميع النقاط في قسم التوجيه.

  • تحتوي مجموعة التدريب على بيانات كافية: عندما يحتوي نوع الفئة على أقل من 15 مثيلًا مسمى في بيانات التدريب، يمكن أن يؤدي ذلك إلى دقة أقل بسبب عدم تدريب النموذج بشكل كاف على هذه الحالات.

  • جميع أنواع الفئات موجودة في مجموعة الاختبار: عندما تفتقر بيانات الاختبار إلى مثيلات مسماة لنوع فئة، قد يصبح أداء اختبار النموذج أقل شمولًا بسبب السيناريوهات غير المختبرة.

  • يتم موازنة أنواع الفئات ضمن مجموعات التدريب والاختبار: عندما يتسبب تحيز أخذ العينات في تمثيل غير دقيق لتردد نوع الفئة، يمكن أن يؤدي ذلك إلى دقة أقل بسبب توقع النموذج أن يحدث نوع الفئة في كثير من الأحيان أو قليلًا جدًا.

  • يتم توزيع أنواع الفئات بالتساوي بين مجموعات التدريب والاختبار: عندما لا يتطابق مزيج أنواع الفئات بين مجموعات التدريب والاختبار، يمكن أن يؤدي ذلك إلى انخفاض دقة الاختبار بسبب تدريب النموذج بشكل مختلف عن كيفية اختباره.

  • تختلف أنواع الفئات في مجموعة التدريب بوضوح: عندما تكون بيانات التدريب متشابهة لأنواع متعددة من الفئات، يمكن أن تؤدي إلى دقة أقل لأن أنواع الفئات قد يتم تصنيفها بشكل خاطئ على أنها بعضها البعض.

مقياس الالتباس

هام

لا تتوفر مصفوفة الإرباك لمشاريع التصنيف متعددة التسميات. مصفوفة الخطأ هي مصفوفة N x N المستخدمة لتقييم أداء النموذج، حيث N هو عدد الفئات. تقارن المصفوفة التسميات المتوقعة مع التسميات المتوقعة من قبل النموذج. وهو ما يعطي نظرة شاملة لمدى أداء النموذج وأنواع الأخطاء التي يقوم بها.

يمكنك استخدام مصفوفة الخطأ لتحديد الفئات القريبة جداً من بعضها، والتي غالباً ما تكون عرضة للخطأ (الغموض). في هذه الحالة، ضع في اعتبارك دمج هذه الفئات معاً. إذا لم يكن ذلك ممكناً، ففكر في تسمية المزيد من المستندات بكلتا الفئتين لمساعدة النموذج على التمييز بينهما.

توجد جميع التنبؤات الصحيحة في قطري الجدول، لذلك من السهل فحص الجدول بصرياً بحثاً عن أخطاء التنبؤ، حيث سيتم تمثيلها بقيم خارج القطر.

A screenshot of an example confusion matrix.

يمكنك حساب مقاييس التقييم على مستوى الفئة ومستوى النموذج من مصفوفة الخطأ:

  • القيم في القطر هي القيم الإيجابية الصحيحة لكل فئة.
  • مجموع القيم في صفوف الفئة (باستثناء القطر) هو إيجابي خطأ للنموذج.
  • مجموع القيم في أعمدة الفئة (باستثناء القطر) هو سلبي خاطئ للنموذج.

بطريقة مماثلة،

  • الإيجابي الصحيح للنموذج هو مجموع الإيجابيات الصحيحة لجميع الفئات.
  • الإيجابي الخطأ للنموذج هو مجموع الإيجابيات الخطأ لجميع الفئات.
  • السلبية الكاذبة للنموذج هي مجموع السلبيات الكاذبة لجميع الفئات.

الخطوات التالية