مقاييس التقييم لنماذج فهم لغة المحادثة

تنقسممجموعة البيانات إلى قسمين: مجموعة التدريب ومجموعة الاختبار. تُستخدم مجموعة التدريب لتدريب النموذج، بينما تُستخدم مجموعة الاختبار كاختبار للنموذج بعد التدريب لحساب أداء النموذج وتقييمه. لم يتم تقديم مجموعة الاختبار إلى النموذج من خلال عملية التدريب، للتأكد من اختبار النموذج على بيانات جديدة.

يُشغل تقييم النموذج تلقائياً بعد إكمال التدريب بنجاح. تبدأ عملية التقييم باستخدام النموذج المدرب للتنبؤ بالكيانات والأهداف المعرفة من قبل المستخدم للمستندات في مجموعة الاختبار، ومقارنتها بعلامات البيانات المقدمة (التي تنشئ خط أساس للحقيقة). تُعاد النتائج حتى تتمكن من مراجعة أداء النموذج. للتقييم، يستخدم فهم لغة المحادثة المقاييس التالية:

  • الدقة: يقيس مدى دقة / صحة نموذجك. وهي النسبة بين الإيجابيات المحددة بشكل صحيح (الإيجابيات الحقيقية) وجميع الإيجابيات المحددة. يعمل مقياس الدقة على كشف عدد الفئات المتوقعة التي وُضعت عليها العلامات بشكل صحيح.

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • الاسترجاع: يقيس قدرة النموذج على توقع الفئات الإيجابية الفعلية. إنها النسبة بين الإيجابيات الحقيقية المتوقعة وما تم تحديده بالفعل. يكشف مقياس الاسترجاع عن مدى صحة عدد الفئات المتوقعة.

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • درجة F1: درجة F1 هي وظيفة تُعنى بالدقة والاسترجاع. وهناك حاجة إليها عند البحث عن إحداث توازن بين الدقة والاسترجاع.

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

يتم حساب الدقة والاستدعاء ودرجة F1 من أجل:

  • كل كيان على حدة (تقييم على مستوى الكيان)
  • كل هدف بشكل منفصل (تقييم على مستوى الهدف)
  • للنموذج بشكل جماعي (تقييم على مستوى النموذج).

تعريفات الدقة، والاسترجاع، والتقييم هي نفسها بالنسبة للتقييمات على مستوى الكيان وعلى مستوى الهدف وعلى مستوى النموذج. ومع ذلك، قد تختلف أعداد الإيجابيات الصحيحة، والإيجابيات الخاطئة، والسلبيات الكاذبة. على سبيل المثال، خذ النص التالي بعين الاعتبار.

مثال

  • قدم ردا مع شكرا جزيلا لك.
  • الرد بقول نعم.
  • تحقق من بريدي الإلكتروني من فضلك.
  • البريد الإلكتروني إلى سينثيا أن العشاء الأسبوع الماضي كان رائع.
  • إرسال بريد إلكتروني إلى مايك

هذه هي الأهداف المستخدمة: رد، sendEmail، readEmail. هذه هي الكيانات: contactName، الرسالة.

يمكن أن يقوم النموذج بالتنبؤات التالية:

التعبير الهدف المتوقع الهدف الفعلي الكيان المتوقع الكيان الفعلي
تقديم رد مع شكرا جزيلا لك الرد الرد thank you very much كـ message thank you very much كـ message
الرد بقول نعم sendEmail الرد -- yes كـ message
تحقق من بريدي الإلكتروني من فضلك readEmail readEmail -- --
البريد الإلكتروني إلى سينثيا أن العشاء الأسبوع الماضي كان رائع الرد sendEmail dinner last week was splendid كـ message cynthia كـ contactName، dinner last week was splendid كـ message
إرسال بريد إلكتروني إلى مايك sendEmail sendEmail mike كـ message mike كـ contactName

تقييم مستوى الهدف لهدف الرد

المفتاح العدد التفسير
إيجابي صحيح 1 تم التنبؤ بالكلام 1 بشكل صحيح على أنها رد.
إيجابية كاذبة 1 تم التنبؤ بالكلمة 4 عن طريق الخطأ على أنها رد.
سلبية كاذبة 1 تم التنبؤ بالكلمة 2 عن طريق الخطأ على أنها sendEmail.

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

تقييم مستوى الهدف للهدف sendEmail

المفتاح العدد التفسير
إيجابي صحيح 1 تم التنبؤ بالكلام 5 بشكل صحيح على أنها sendEmail
إيجابية كاذبة 1 تم التنبؤ بالكلمة 2 عن طريق الخطأ على أنها sendEmail.
سلبية كاذبة 1 تم التنبؤ بالكلمة 4 عن طريق الخطأ على أنها رد.

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

تقييم مستوى الهدف لهدف readEmail

المفتاح العدد التفسير
إيجابي صحيح 1 تم التنبؤ بالكلام 3 بشكل صحيح على أنها readEmail.
إيجابية كاذبة 0 --
سلبية كاذبة 0 --

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 0) = 1

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 0) = 1

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 1 * 1) / (1 + 1) = 1

تقييم مستوى الكيان للكيان contactName

المفتاح العدد التفسير
إيجابي صحيح 1 cynthia تم التنبؤ به بشكل صحيح كما contactName في الكلام 4
إيجابية كاذبة 0 --
سلبية كاذبة 1 mike تم التنبؤ به عن طريق الخطأ كما message في الكلمة 5

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 0) = 1

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 1 * 0.5) / (1 + 0.5) = 0.67

تقييم مستوى الكيان لكيان الرسالة

المفتاح العدد التفسير
إيجابي صحيح 2 thank you very much تم التنبؤ به بشكل صحيح كما هو الحال message في الكلام 1 وتم dinner last week was splendid التنبؤ به بشكل صحيح كما هو الحال message في الكلام 4
إيجابية كاذبة 1 mike تم التنبؤ به عن طريق الخطأ كما message في الكلمة 5
سلبية كاذبة 1 yes لم يتم التنبؤ به كما message في الكلام 2

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 1) = 0.67

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 1) = 0.67

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.67) / (0.67 + 0.67) = 0.67

التقييم على مستوى النموذج للنموذج الجماعي

المفتاح العدد التفسير
إيجابي صحيح 6 مجموع TP لجميع الأهداف والكيانات
إيجابية كاذبة 3 مجموع FP لجميع الأهداف والكيانات
سلبية كاذبة 4 مجموع FN لجميع الأهداف والكيانات

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 6 / (6 + 3) = 0.67

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 6 / (6 + 4) = 0.60

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.60) / (0.67 + 0.60) = 0.63

مصفوفة الخطأ

مصفوفة الخطأ هي مصفوفة N x N المستخدمة لتقييم أداء النموذج، حيث N هو عدد الكيانات أو الأهداف. تقارن المصفوفة التسميات المتوقعة مع التسميات المتوقعة من قبل النموذج. وهو ما يعطي نظرة شاملة لمدى أداء النموذج وأنواع الأخطاء التي يقوم بها.

يمكنك استخدام مصفوفة الخطأ لتحديد الكيانات أو الأهداف القريبة جدا من بعضها البعض، والتي غالبا ما تكون عرضة للخطأ (الغموض). في هذه الحالة، ضع في اعتبارك دمج هذه الأهداف أو الكيانات معا. إذا لم يكن ذلك ممكنا، ففكر في إضافة المزيد من الأمثلة المعلمة لكلا الكيانين أو الأهداف لمساعدة النموذج على التفريق بينهما.

القطر المميز في الصورة أدناه هو الكيانات المتوقعة بشكل صحيح، حيث العلامة المتوقعة هي نفس العلامة الفعلية.

لقطة شاشة لمثال على مصفوفة الخطأ

يمكنك حساب مقاييس التقييم على مستوى الهدف أو مستوى الكيان ومستوى النموذج من مصفوفة الخطأ:

  • القيم في القطر هي القيم الإيجابية الصحيحة لكل هدف أو كيان.
  • مجموع القيم في صفوف الهدف أو الكيانات (باستثناء القطر) هو إيجابي خطأ للنموذج.
  • مجموع القيم في أعمدة الهدف أو الكيانات (باستثناء القطر) هو سلبي خاطئ للنموذج.

وبالمثل، فإن

  • الإيجابي الصحيح للنموذج هو مجموع الإيجابيات الصحيحة لجميع الأهداف والكيانات.
  • الإيجابي الخطأ للنموذج هو مجموع الإيجابيات الخطأ لجميع الكيانات والأهداف.
  • السلبية الكاذبة للنموذج هي مجموع السلبيات الكاذبة لجميع الكيانات والأهداف.

الإرشاد

بعد تدريب النموذج الخاص بك، سترى بعض الإرشادات والتوصيات حول كيفية تحسين النموذج. يوصى بأن يكون لديك نموذج يغطي كل نقطة في قسم التوجيه.

  • تحتوي مجموعة التدريب على بيانات كافية: عندما يحتوي الهدف أو الكيان على أقل من 15 مثيلا مسمى في بيانات التدريب، يمكن أن يؤدي ذلك إلى دقة أقل بسبب عدم تدريب النموذج بشكل كاف على هذا الهدف. في هذه الحالة، ضع في اعتبارك إضافة المزيد من البيانات المسماة في مجموعة التدريب. يجب أن تفكر فقط في إضافة المزيد من البيانات المسماة إلى الكيان الخاص بك إذا كان الكيان الخاص بك يحتوي على مكون تم تعلمه. إذا تم تعريف الكيان الخاص بك فقط بواسطة مكونات القائمة والمنشأ مسبقا و regex، فإن هذه التوصية غير قابلة للتطبيق.

  • جميع الأهداف أو الكيانات موجودة في مجموعة الاختبار: عندما تفتقر بيانات الاختبار إلى مثيلات مسماة لهدف أو كيان، يكون تقييم النموذج أقل شمولا بسبب السيناريوهات غير المختبرة. ضع في اعتبارك وجود بيانات اختبار لكل هدف وكيان في نموذجك لضمان اختبار كل شيء.

  • التمييز غير الواضح بين الأهداف أو الكيانات: عندما تكون البيانات متشابهة للأهدف أو الكيانات المختلفة، يمكن أن يؤدي ذلك إلى دقة أقل لأنه قد يتم تصنيفها بشكل خاطئ بشكل متكرر مثل بعضها البعض. راجع الأهداف والكيانات التالية وفكر في دمجها إذا كانت متشابهة. وإلا، أضف المزيد من الأمثلة لتمييزها بشكل أفضل عن بعضها البعض. يمكنك التحقق من علامة تبويب مصفوفة الارتباك لمزيد من الإرشادات. إذا كنت ترى كيانين يتم التنبؤ بهم باستمرار لنفس الامتدادات لأنهما يشتركان في نفس القائمة أو المكونات التي تم إنشاؤها مسبقا أو regex، فتأكد من إضافة مكون متعلم لكل كيان وجعله مطلوبا. تعرف على المزيد حول مكونات الكيان.

الخطوات التالية

تدريب نموذج في استوديو اللغة