مقاييس التقييم لنماذج سير عمل التنسيق

تنقسممجموعة البيانات إلى قسمين: مجموعة التدريب ومجموعة الاختبار. تُستخدم مجموعة التدريب لتدريب النموذج، بينما تُستخدم مجموعة الاختبار كاختبار للنموذج بعد التدريب لحساب أداء النموذج وتقييمه. لم يتم تقديم مجموعة الاختبار إلى النموذج من خلال عملية التدريب، للتأكد من اختبار النموذج على بيانات جديدة.

يُشغل تقييم النموذج تلقائياً بعد إكمال التدريب بنجاح. تبدأ عملية التقييم باستخدام النموذج المدرب للتنبؤ بأهداف المستخدم المحددة للألفاظ في مجموعة الاختبار، ومقارنتها بالعلامات المتوفرة (التي تحدد خط الأساس للحقيقة). تُعاد النتائج حتى تتمكن من مراجعة أداء النموذج. بالنسبة للتقييم، يستخدم سير عمل التنسيق المقاييس التالية:

  • الدقة: يقيس مدى دقة / صحة نموذجك. وهي النسبة بين الإيجابيات المحددة بشكل صحيح (الإيجابيات الحقيقية) وجميع الإيجابيات المحددة. يعمل مقياس الدقة على كشف عدد الفئات المتوقعة التي وُضعت عليها العلامات بشكل صحيح.

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • الاسترجاع: يقيس قدرة النموذج على توقع الفئات الإيجابية الفعلية. إنها النسبة بين الإيجابيات الحقيقية المتوقعة وما تم تحديده بالفعل. يكشف مقياس الاسترجاع عن مدى صحة عدد الفئات المتوقعة.

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • درجة F1: درجة F1 هي وظيفة تُعنى بالدقة والاسترجاع. وهناك حاجة إليها عند البحث عن إحداث توازن بين الدقة والاسترجاع.

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

يتم حساب الدقة والاستدعاء ودرجة F1 من أجل:

  • كل هدف بشكل منفصل (تقييم على مستوى الهدف)
  • للنموذج بشكل جماعي (تقييم على مستوى النموذج).

إن تعريفات الدقة والاستدعاء والتقييم هي نفسها بالنسبة للتقييمات على مستوى الهدف وعلى مستوى النموذج. ومع ذلك، قد تختلف أعداد الإيجابيات الصحيحة، والإيجابيات الخاطئة، والسلبيات الكاذبة. على سبيل المثال، خذ النص التالي بعين الاعتبار.

مثال

  • تقديم رد مع عبارة شكراً جزيلاً لك
  • الاتصال بصديقي
  • مرحباً
  • صباح الخير

هذه هي الأهداف المستخدمة: CLUEmail والتحيات

يمكن أن يقوم النموذج بالتنبؤات التالية:

التعبير الهدف المتوقع الهدف الفعلي
تقديم رد مع عبارة شكراً جزيلاً لك CLUEmail CLUEmail
الاتصال بصديقي الترحيب CLUEmail
مرحباً CLUEmail الترحيب
صباح الخير الترحيب الترحيب

تقييم مستوى الهدف لهدف CLUEmail

المفتاح العدد التفسير
إيجابي صحيح 1 تم التنبؤ بالألفاظ 1 بشكل صحيح على أنها CLUEmail.
إيجابية كاذبة 1 تم التنبؤ بالألفاظ 3 عن طريق الخطأ على أنها CLUEmail.
سلبية كاذبة 1 تم التنبؤ بالألفاظ 2 عن طريق الخطأ على أنها تحية.

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

تقييم مستوى الهدف لهدف التحية

المفتاح العدد التفسير
إيجابي صحيح 1 تم التنبؤ بالألفاظ 4 بشكل صحيح كتحية.
إيجابية كاذبة 1 تم التنبؤ بالألفاظ 2 عن طريق الخطأ على أنها تحية.
سلبية كاذبة 1 تم التنبؤ بالألفاظ 3 عن طريق الخطأ على أنها CLUEmail.

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

التقييم على مستوى النموذج للنموذج الجماعي

المفتاح العدد التفسير
إيجابي صحيح 2 مجموع TP لجميع الأهداف
إيجابية كاذبة 2 مجموع FP لجميع الأهداف
سلبية كاذبة 2 مجموع FN لجميع الأهداف

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

مصفوفة الخطأ

مصفوفة الخطأ هي مصفوفة N x N المستخدمة لتقييم أداء النموذج، حيث N هو عدد الأهداف. تقارن المصفوفة العلامات الفعلية بتلك التي تنبأ بها النموذج. وهو ما يعطي نظرة شاملة لمدى أداء النموذج وأنواع الأخطاء التي يقوم بها.

يمكنك استخدام مصفوفة الخطأ لتحديد الأهداف القريبة جداً من بعضها، والتي غالباً ما تكون عرضة للخطأ (الغموض). في هذه الحالة، ضع في اعتبارك دمج هذه الأهداف معاً. إذا لم يكن ذلك ممكنًا، ففكر في إضافة المزيد من الأمثلة الموسومة لكلا الغرضين لمساعدة النموذج على التمييز بينهما.

يمكنك حساب مقاييس التقييم على مستوى النموذج من مصفوفة الخطأ:

  • الإيجابي الصحيح للنموذج هو مجموع الإيجابيات الصحيحة لجميع الأهداف.
  • الإيجابي الخطأ للنموذج هو مجموع الإيجابيات الخطأ لجميع الأهداف.
  • السلبية الكاذبة للنموذج هي مجموع السلبيات الكاذبة لجميع الأهداف.

الخطوات التالية

تدريب نموذج في استوديو اللغة