مقاييس التقييم لنماذج فهم لغة المحادثة

مقالة
12/19/2023

تنقسممجموعة البيانات إلى قسمين: مجموعة التدريب ومجموعة الاختبار. تُستخدم مجموعة التدريب لتدريب النموذج، بينما تُستخدم مجموعة الاختبار كاختبار للنموذج بعد التدريب لحساب أداء النموذج وتقييمه. لم يتم تقديم مجموعة الاختبار إلى النموذج من خلال عملية التدريب، للتأكد من اختبار النموذج على بيانات جديدة.

يُشغل تقييم النموذج تلقائياً بعد إكمال التدريب بنجاح. تبدأ عملية التقييم باستخدام النموذج المدرب للتنبؤ بالكيانات والأهداف المعرفة من قبل المستخدم للمستندات في مجموعة الاختبار، ومقارنتها بعلامات البيانات المقدمة (التي تنشئ خط أساس للحقيقة). تُعاد النتائج حتى تتمكن من مراجعة أداء النموذج. للتقييم، يستخدم فهم لغة المحادثة المقاييس التالية:

الدقة: يقيس مدى دقة / صحة نموذجك. وهي النسبة بين الإيجابيات المحددة بشكل صحيح (الإيجابيات الحقيقية) وجميع الإيجابيات المحددة. يعمل مقياس الدقة على كشف عدد الفئات المتوقعة التي وُضعت عليها العلامات بشكل صحيح.

Precision = #True_Positive / (#True_Positive + #False_Positive)
الاسترجاع: يقيس قدرة النموذج على توقع الفئات الإيجابية الفعلية. إنها النسبة بين الإيجابيات الحقيقية المتوقعة وما تم تحديده بالفعل. يكشف مقياس الاسترجاع عن مدى صحة عدد الفئات المتوقعة.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
درجة F1: درجة F1 هي وظيفة تُعنى بالدقة والاسترجاع. وهناك حاجة إليها عند البحث عن إحداث توازن بين الدقة والاسترجاع.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

يتم حساب الدقة والاستدعاء ودرجة F1 من أجل:

كل كيان على حدة (تقييم على مستوى الكيان)
كل هدف بشكل منفصل (تقييم على مستوى الهدف)
للنموذج بشكل جماعي (تقييم على مستوى النموذج).

تعريفات الدقة، والاسترجاع، والتقييم هي نفسها بالنسبة للتقييمات على مستوى الكيان وعلى مستوى الهدف وعلى مستوى النموذج. ومع ذلك، قد تختلف أعداد الإيجابيات الصحيحة، والإيجابيات الخاطئة، والسلبيات الكاذبة. على سبيل المثال، خذ النص التالي بعين الاعتبار.

مثال

قدم ردا مع شكرا جزيلا لك.
الرد بقول نعم.
تحقق من بريدي الإلكتروني من فضلك.
البريد الإلكتروني إلى سينثيا أن العشاء الأسبوع الماضي كان رائع.
إرسال بريد إلكتروني إلى مايك

هذه هي الأهداف المستخدمة: رد، sendEmail، readEmail. هذه هي الكيانات: contactName، الرسالة.

يمكن أن يقوم النموذج بالتنبؤات التالية:

التعبير	الهدف المتوقع	الهدف الفعلي	الكيان المتوقع	الكيان الفعلي
تقديم رد مع شكرا جزيلا لك	الرد	الرد	`thank you very much` كـ `message`	`thank you very much` كـ `message`
الرد بقول نعم	sendEmail	الرد	--	`yes` كـ `message`
تحقق من بريدي الإلكتروني من فضلك	readEmail	readEmail	--	--
البريد الإلكتروني إلى سينثيا أن العشاء الأسبوع الماضي كان رائع	الرد	sendEmail	`dinner last week was splendid` كـ `message`	`cynthia` كـ `contactName`، `dinner last week was splendid` كـ `message`
إرسال بريد إلكتروني إلى مايك	sendEmail	sendEmail	`mike` كـ `message`	`mike` كـ `contactName`

تقييم مستوى الهدف لهدف الرد

المفتاح	العدد	التفسير
إيجابي صحيح	1	تم التنبؤ بالكلام 1 بشكل صحيح على أنها رد.
إيجابية كاذبة	1	تم التنبؤ بالكلمة 4 عن طريق الخطأ على أنها رد.
سلبية كاذبة	1	تم التنبؤ بالكلمة 2 عن طريق الخطأ على أنها sendEmail.

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

تقييم مستوى الهدف للهدف sendEmail

المفتاح	العدد	التفسير
إيجابي صحيح	1	تم التنبؤ بالكلام 5 بشكل صحيح على أنها sendEmail
إيجابية كاذبة	1	تم التنبؤ بالكلمة 2 عن طريق الخطأ على أنها sendEmail.
سلبية كاذبة	1	تم التنبؤ بالكلمة 4 عن طريق الخطأ على أنها رد.

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

تقييم مستوى الهدف لهدف readEmail

المفتاح	العدد	التفسير
إيجابي صحيح	1	تم التنبؤ بالكلام 3 بشكل صحيح على أنها readEmail.
إيجابية كاذبة	0	--
سلبية كاذبة	0	--

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 0) = 1

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 0) = 1

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 1 * 1) / (1 + 1) = 1

تقييم مستوى الكيان للكيان contactName

المفتاح	العدد	التفسير
إيجابي صحيح	1	`cynthia` تم التنبؤ به بشكل صحيح كما `contactName` في الكلام 4
إيجابية كاذبة	0	--
سلبية كاذبة	1	`mike` تم التنبؤ به عن طريق الخطأ كما `message` في الكلمة 5

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 0) = 1

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 1 * 0.5) / (1 + 0.5) = 0.67

تقييم مستوى الكيان لكيان الرسالة

المفتاح	العدد	التفسير
إيجابي صحيح	2	`thank you very much` تم التنبؤ به بشكل صحيح كما هو الحال `message` في الكلام 1 وتم `dinner last week was splendid` التنبؤ به بشكل صحيح كما هو الحال `message` في الكلام 4
إيجابية كاذبة	1	`mike` تم التنبؤ به عن طريق الخطأ كما `message` في الكلمة 5
سلبية كاذبة	1	`yes` لم يتم التنبؤ به كما `message` في الكلام 2

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 1) = 0.67

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 1) = 0.67

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.67) / (0.67 + 0.67) = 0.67

التقييم على مستوى النموذج للنموذج الجماعي

المفتاح	العدد	التفسير
إيجابي صحيح	6	مجموع TP لجميع الأهداف والكيانات
إيجابية كاذبة	3	مجموع FP لجميع الأهداف والكيانات
سلبية كاذبة	4	مجموع FN لجميع الأهداف والكيانات

الدقة = #True_Positive / (#True_Positive + #False_Positive) = 6 / (6 + 3) = 0.67

الاسترجاع = #True_Positive / (#True_Positive + #False_Negatives) = 6 / (6 + 4) = 0.60

نتيجة F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.60) / (0.67 + 0.60) = 0.63

مصفوفة الخطأ

مصفوفة الخطأ هي مصفوفة N x N المستخدمة لتقييم أداء النموذج، حيث N هو عدد الكيانات أو الأهداف. تقارن المصفوفة التسميات المتوقعة مع التسميات المتوقعة من قبل النموذج. وهو ما يعطي نظرة شاملة لمدى أداء النموذج وأنواع الأخطاء التي يقوم بها.

يمكنك استخدام مصفوفة الخطأ لتحديد الكيانات أو الأهداف القريبة جدا من بعضها البعض، والتي غالبا ما تكون عرضة للخطأ (الغموض). في هذه الحالة، ضع في اعتبارك دمج هذه الأهداف أو الكيانات معا. إذا لم يكن ذلك ممكنا، ففكر في إضافة المزيد من الأمثلة المعلمة لكلا الكيانين أو الأهداف لمساعدة النموذج على التفريق بينهما.

القطر المميز في الصورة أدناه هو الكيانات المتوقعة بشكل صحيح، حيث العلامة المتوقعة هي نفس العلامة الفعلية.

يمكنك حساب مقاييس التقييم على مستوى الهدف أو مستوى الكيان ومستوى النموذج من مصفوفة الخطأ:

القيم في القطر هي القيم الإيجابية الصحيحة لكل هدف أو كيان.
مجموع القيم في صفوف الهدف أو الكيانات (باستثناء القطر) هو إيجابي خطأ للنموذج.
مجموع القيم في أعمدة الهدف أو الكيانات (باستثناء القطر) هو سلبي خاطئ للنموذج.

وبالمثل، فإن

الإيجابي الصحيح للنموذج هو مجموع الإيجابيات الصحيحة لجميع الأهداف والكيانات.
الإيجابي الخطأ للنموذج هو مجموع الإيجابيات الخطأ لجميع الكيانات والأهداف.
السلبية الكاذبة للنموذج هي مجموع السلبيات الكاذبة لجميع الكيانات والأهداف.

الإرشاد

بعد تدريب النموذج الخاص بك، سترى بعض الإرشادات والتوصيات حول كيفية تحسين النموذج. يوصى بأن يكون لديك نموذج يغطي كل نقطة في قسم التوجيه.

تحتوي مجموعة التدريب على بيانات كافية: عندما يحتوي الهدف أو الكيان على أقل من 15 مثيلا مسمى في بيانات التدريب، يمكن أن يؤدي ذلك إلى دقة أقل بسبب عدم تدريب النموذج بشكل كاف على هذا الهدف. في هذه الحالة، ضع في اعتبارك إضافة المزيد من البيانات المسماة في مجموعة التدريب. يجب أن تفكر فقط في إضافة المزيد من البيانات المسماة إلى الكيان الخاص بك إذا كان الكيان الخاص بك يحتوي على مكون تم تعلمه. إذا تم تعريف الكيان الخاص بك فقط بواسطة مكونات القائمة والمنشأ مسبقا و regex، فإن هذه التوصية غير قابلة للتطبيق.
جميع الأهداف أو الكيانات موجودة في مجموعة الاختبار: عندما تفتقر بيانات الاختبار إلى مثيلات مسماة لهدف أو كيان، يكون تقييم النموذج أقل شمولا بسبب السيناريوهات غير المختبرة. ضع في اعتبارك وجود بيانات اختبار لكل هدف وكيان في نموذجك لضمان اختبار كل شيء.
التمييز غير الواضح بين الأهداف أو الكيانات: عندما تكون البيانات متشابهة للأهدف أو الكيانات المختلفة، يمكن أن يؤدي ذلك إلى دقة أقل لأنه قد يتم تصنيفها بشكل خاطئ بشكل متكرر مثل بعضها البعض. راجع الأهداف والكيانات التالية وفكر في دمجها إذا كانت متشابهة. وإلا، أضف المزيد من الأمثلة لتمييزها بشكل أفضل عن بعضها البعض. يمكنك التحقق من علامة تبويب مصفوفة الارتباك لمزيد من الإرشادات. إذا كنت ترى كيانين يتم التنبؤ بهم باستمرار لنفس الامتدادات لأنهما يشتركان في نفس القائمة أو المكونات التي تم إنشاؤها مسبقا أو regex، فتأكد من إضافة مكون متعلم لكل كيان وجعله مطلوبا. تعرف على المزيد حول مكونات الكيان.

الخطوات التالية

تدريب نموذج في استوديو اللغة

مشاركة عبر

مقاييس التقييم لنماذج فهم لغة المحادثة

مثال

تقييم مستوى الهدف لهدف الرد

تقييم مستوى الهدف للهدف sendEmail

تقييم مستوى الهدف لهدف readEmail

تقييم مستوى الكيان للكيان contactName

تقييم مستوى الكيان لكيان الرسالة

التقييم على مستوى النموذج للنموذج الجماعي

مصفوفة الخطأ

الإرشاد

الخطوات التالية

الملاحظات

الملاحظات

الموارد الإضافية