اختيار أساليب التقييم

عند إنشاء مجموعات اختبار، اختر من بين أساليب اختبار مختلفة لتقييم استجابات وكيلك. كل أسلوب اختبار له نقاط قوته الخاصة ويناسب أنواعا مختلفة من التقييمات.

أسلوب الاختبار المقاييس نوع مجموعة الاختبار التقييم تكوينات
جودة عامة ما مدى جودة استجابات حالة الاختبار بناءً على الصفات المحددة استجابة واحدة أو محادثة واحدة تم التقيم على أساس 100% بلا
مقارنة المعنى مدى تطابق معنى إجابة حالة الاختبار مع الإجابة المتوقعة استجابة واحدة تم التقيم على أساس 100% درجة النجاح، الإجابة المتوقعة
استخدام القدرة ما إذا كانت حالة الاختبار تستخدم جميع الموارد المتوقعة أو أي موارد متوقعة استجابة واحدة تمرير/فشل القدرات المتوقعة
مطابقة الكلمة الأساسية ما إذا كانت حالة الاختبار تستخدم كل الكلمات الأساسية أو العبارات المتوقعة أو أي منها استجابة واحدة أو محادثة واحدة تمرير/فشل الكلمات الأساسية أو العبارات المتوقعة
تشابه النص مدى تطابق نص إجابة حالة الاختبار مع الإجابة المتوقعة استجابة واحدة تم التقيم على أساس 100% درجة النجاح، الإجابة المتوقعة
مطابقة تامة ما إذا كانت إجابة حالة الاختبار تطابق الإجابة المتوقعة بالضبط استجابة واحدة تمرير/فشل الإجابة المتوقعة
مخصص ما إذا كانت استجابة حالة الاختبار تفي بمعاييرك أو توقعاتك المحددة. استجابة واحدة أو محادثة واحدة اجتياز/رسوب (استيفاء معايير التسمية المحددة) الاسم، إرشادات التقييم، التسميات

إضافة أسلوب اختبار

  1. عند إنشاء مجموعة اختبار أو تحريرها ، حدد إضافة أسلوب اختبار.

  2. حدد جميع الطرق التي تريد الاختبار بها، ثم حدد موافق. يمكنك إضافة أساليب متعددة.

    1. تتطلب بعض الطرائق درجة اجتياز. تحدد درجة النجاح المعايير التي تؤدي إلى نجاح أو فشل. قم بتعيين النتيجة، ثم حدد موافق.

    2. تتطلب بعض أساليب الاختبار المزيد من المعايير.

  3. حدد حفظ لحفظ التغييرات التي أجريتها على مجموعة الاختبار.

حدد أسلوب اختبار موجود لتحرير معايير هذا الأسلوب أو حذف هذا الأسلوب.

جودة عامة

متوفر لمجموعات اختبار المحادثات والاستجابة الفردية. تساعدك الجودة العامة على تحديد ما إذا كانت استجابات وكيلك تفي بمعاييرك. ويستخدم نموذج لغة كبير (LLM) لتقييم مدى فعالية العامل في الإجابة على أسئلة المستخدم.

الجودة العامة مفيدة بشكل خاص عندما لا تكون هناك إجابة دقيقة متوقعة. وهو يوفر طريقة مرنة وقابلة للتطوير لتقييم الاستجابات استنادا إلى المستندات المستردة وتدفق المحادثة.

ويستخدم هذه المعايير الرئيسية ويطبق إرشادات متسقة لتقييم الدليل.

  • الصلة: إلى أي مدى تعالج استجابة العامل السؤال. على سبيل المثال، هل تظل إجابة الوكيل على الموضوع وتجيب مباشرة على السؤال؟

  • الأرضية: إلى أي مدى يستند رد الوكيل إلى السياق المقدم. على سبيل المثال، هل يشير العامل إلى استجابة أو يعتمد على المعلومات الواردة في السياق، بدلا من تقديم معلومات غير مرتبطة أو غير مدعومة؟

  • الاكتمال: إلى أي مدى توفر استجابة العامل جميع المعلومات الضرورية. على سبيل المثال، هل تغطي استجابة الوكيل جميع جوانب السؤال وتقدم تفاصيل كافية؟

  • الامتناع عن التصويت: ما إذا كان الوكيل حاول الإجابة عن السؤال.

لكي تعتبر الاستجابة عالية الجودة، يجب أن تفي بجميع هذه المعايير الرئيسية. إذا لم يتم استيفاء معيار واحد، يتم وضع علامة على الاستجابة للتحسين. يضمن أسلوب التسجيل هذا أن الاستجابات الكاملة والمدعمة جيدا فقط تتلقى العلامات العليا. وعلى النقيض من ذلك، فإن الإجابات غير المكتملة أو التي تفتقر إلى الأدلة الداعمة تتلقى درجات أقل.

عند إضافة أساليب الاختبار أو تحريرها، حدد General quality. تبدأ جميع مجموعات الاختبار بهذه الطريقة بشكل افتراضي.

لا تحتاج إلى إضافة إجابات متوقعة لحالات الاختبار لإكمال تقييم الجودة العامة.

ملاحظة

لا يضمن تقليل عدد مصادر المعرفة للعامل تحسين تصنيف الجودة العامة في تقييم العامل. هذا القيد موجود لأن المعرفة المستردة (المعرفة التي يعتقد النموذج أنها ذات صلة بحالة اختبار معينة) قد تكون كبيرة جدا.

مقارنة المعنى

متوفر لمجموعات اختبار استجابة واحدة. مقارنة المعنى تقيم مدى جودة إجابة العامل التي تعكس المعنى المقصود للاستجابة المتوقعة. بدلا من التركيز على الصياغة الدقيقة، فإنه يستخدم تشابه الهدف، مما يعني أنه يقارن الأفكار والمعنى وراء الكلمات، للحكم على مدى محاذاة الاستجابة مع ما كنت تتوقعه.

مثل الجودة العامة، فإن مقارنة المعنى مفيدة بشكل خاص عندما لا تكون هناك إجابة دقيقة متوقعة. وهو يوفر طريقة مرنة وقابلة للتطوير لتقييم الاستجابات استنادا إلى المستندات المستردة وتدفق المحادثة.

يمكنك تعيين حد درجة النجاح لتحديد ما يشكل درجة النجاح للإجابة. درجة النجاح الافتراضية هي 50. تعد طريقة اختبار المعنى المقارنة مفيدة عندما يمكن صياغة إجابة بطرق صحيحة مختلفة، ولكن المعنى أو الهدف العام لا يزال يحتاج إلى أن يأتي من خلال.

  1. عند إضافة أساليب اختبار أو تحريرها، حدد مقارنة المعنى.

  2. تعيين درجة النجاح لهذا الأسلوب.

  3. أضف الإجابات المتوقعة. ينتج عن أي حالة اختبار بدون إجابات متوقعة نتيجة غير صالحة لأسلوب الاختبار هذا.

    1. حدد حالة اختبار.

    2. أضف الإجابة التي تتوقعها.

    3. حدد تطبيق لحفظ الإجابة المتوقعة.

    4. كرر جميع حالات الاختبار التي تريد اختبارها باستخدام هذا الأسلوب.

استخدام الأدوات

متوفر لمجموعات اختبار استجابة واحدة. استخدام القدرة لاختبار ما إذا كان الوكيل قد استخدم أدوات أو مواضيع محددة لإنشاء إجابة. إذا كان الأمر كذلك، فإنه يمر. إذا لم يحدث ذلك، فإنه يفشل.

  1. عند إضافة أساليب اختبار أو تحريرها، حدد استخدام الأداة.

  2. أضف الأدوات أو الموضوعات المتوقعة. ينتج عن أي حالة اختبار بدون إجابات متوقعة نتيجة غير صالحة لأسلوب الاختبار هذا.

    1. حدد حالة اختبار. لإضافة نفس الأدوات والموضوعات المتوقعة لجميع حالات الاختبار، حدد الأيقونة Edit في عنوان العمود Tool use.

    2. في جزء تحرير حالة الاختبار ، حدد الأدوات التي تتوقع أن يستخدمها الوكيل لحالة الاختبار هذه.

    3. حدد موافق.

    4. حدد تطبيق لحفظ التغييرات.

    5. كرر ذلك لجميع حالات الاختبار التي تريد اختبارها لاستخدام الأدوات.

مطابقة الكلمة الأساسية

متوفر لمجموعات اختبار المحادثات والاستجابة الفردية. تتحقق مطابقة الكلمة الأساسية مما إذا كانت إجابة العامل تحتوي على بعض الكلمات أو العبارات أو كلها من الاستجابة المتوقعة التي تحددها. إذا كان الأمر كذلك، فإنه يمر. إذا لم يحدث ذلك، فإنه يفشل.

يمكنك تحديد ما إذا كان المرور يتطلب أي من الكلمات الأساسية أو جميعها . اختيار أي يعني أنه إذا تطابقت كلمة واحدة أو عبارة واحدة على الأقل، يتم تمرير حالة الاختبار. اختيار الكل يعني أن جميع الكلمات أو العبارات المتوقعة يجب أن تتطابق مع حالة اختبار لتمريرها.

  1. عند إضافة أساليب اختبار أو تحريرها، حدد مطابقة الكلمة الأساسية.

  2. حدد ما إذا كانت حالة الاختبار تحتاج إلى تطابق أي أو كافة الكلمات الأساسية.

  3. أضف الكلمات الأساسية المتوقعة. تنتج أي حالة اختبار بدون كلمات أساسية متوقعة نتيجة غير صالحة لأسلوب الاختبار هذا.

    1. حدد حالة اختبار.

    2. في جزء تحرير حالة الاختبار ، أضف كلمة أساسية أو عبارة تتوقع أن تحتوي عليها إجابة هذه الحالة.

    3. حدد + إضافة لإضافة المزيد من الكلمات الأساسية أو العبارات. لإزالة كلمة أساسية أو عبارة، حدد أيقونة حذف .

    4. حدد تطبيق لحفظ الكلمات الأساسية المتوقعة.

    5. كرر ذلك لجميع حالات الاختبار التي تريد اختبارها لمطابقة الكلمة الأساسية.

تشابه النص

متوفر لمجموعات اختبار استجابة واحدة. يقارن أسلوب اختبار تشابه النص تشابه استجابات العامل مع الاستجابات المتوقعة التي تحددها في مجموعة الاختبار الخاصة بك. من المفيد عندما يمكن صياغة إجابة بطرق صحيحة مختلفة، ولكن لا يزال المعنى العام أو الهدف يحتاج إلى أن يأتي من خلال.

ويستخدم مقياس التشابه المشترك لتقييم مدى تشابه إجابة العامل مع صياغة ومعنى الاستجابة المتوقعة وتحديد درجة. تتراوح النتيجة بين 0 و1، حيث يشير 1 إلى تطابق الإجابة عن كثب ويشير 0 إلى أنها لا تتطابق. يمكنك تعيين حد درجة النجاح لتحديد ما يشكل درجة النجاح للإجابة.

  1. عند إضافة أساليب اختبار أو تحريرها، حدد تشابه النص.

  2. تعيين درجة النجاح لهذا الأسلوب.

  3. أضف الإجابات المتوقعة. ينتج عن أي حالة اختبار بدون إجابات متوقعة نتيجة غير صالحة لأسلوب الاختبار هذا.

    1. حدد حالة اختبار.

    2. أضف الإجابة التي تتوقعها.

    3. حدد تطبيق لحفظ الإجابة المتوقعة.

    4. كرر جميع حالات الاختبار التي تريد اختبارها باستخدام هذا الأسلوب.

تطابق تام

متوفر لمجموعات اختبار استجابة واحدة. تتحقق المطابقة الدقيقة من تطابق إجابة العامل تماما مع الاستجابة المتوقعة في الاختبار: حرف للحرف، وكلمة لكلمة. إذا كان هو نفسه، فإنه يمر. إذا كان هناك أي شيء يختلف، فإنه يفشل. المطابقة الدقيقة مفيدة لإجابات قصيرة ودقيقة مثل الأرقام أو الرموز أو العبارات الثابتة. لا يناسب الإجابات التي يمكن للأشخاص صياغتها بطرق صحيحة متعددة.

  1. عند إضافة أساليب اختبار أو تحريرها، حدد مطابقة تامة.

  2. أضف الإجابات المتوقعة. ينتج عن أي حالة اختبار بدون إجابات متوقعة نتيجة غير صالحة لأسلوب الاختبار هذا.

    1. حدد حالة اختبار.

    2. أضف الإجابة التي تتوقعها.

    3. حدد تطبيق لحفظ الإجابة المتوقعة.

    4. كرر جميع حالات الاختبار التي تريد اختبارها باستخدام هذا الأسلوب.

مخصص

مخصص هو أسلوب اختبار قابل للتخصيص. يتيح لك اختبار وتسمية إجابات عامل باستخدام المعايير الخاصة بك. على سبيل المثال، يمكنك إنشاء اختبار توافق لعامل الموارد البشرية لوصف إجابات الاختبار إما بأنها متوافقة أو غير متوافقة مع وصف توافق الموارد البشرية.

يحتوي الاختبار المخصص على مكونين لتكوينهما:

إرشادات التقييم: توضح الهدف الذي تريد تحقيقه باستخدام هذا الاختبار. ما الذي تريد أن يكتشفه الاختبار حول إجابات وكيلك؟

يجب أن تكون تعليمات التقييم الجيدة:

  • كن موجها نحو الهدف.

  • استخدم الأحرف المسموح بها فقط.

  • استخدم نقاط التعداد النقطي والعناوين للتنظيم.

على سبيل المثال:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

التسميات: تصف النتيجة المعينة لكل إجابة باستخدام الاختبار المخصص. تحتوي التسميات أيضًا على مهام النجاح/الفشل، والتي تُؤخذ في الاعتبار في معدل نجاح مجموعة الاختبار لطريقة الاختبار هذه.

التسميات لها اسم ووصف. وصف جيد:

  • موجز.

  • يحتوي على السمات التي تبحث عنها في إجابات مطابقة.

تتمثل إحدى الاستراتيجيات للتسميات في الحصول على اثنتين: واحدة هي الإجابات التي تفي بالمعايير التي تبحث عنها بنجاح، والأخرى للإجابات التي لا تفي بها. على سبيل المثال، قد يحتوي اختبار التوافق المخصص لنهج الموارد البشرية على متوافقوغير متوافق كتسميات.

  1. عند إضافة أساليب اختبار أو تحريرها، حدد مخصص.

  2. أدخل اسما لهذا الاختبار المخصص.

  3. إضافة إرشادات التقييم.

  4. إضافة تسميتين أو أكثر. كل تسمية لها اسم ووصف.

    لإضافة المزيد من التسميات، حدد إضافة تسمية.

    يمكن أن تستخدم عناوين التسميات فقط الأحرف والأرقام والمسافة والواصلة -والتسطير السفلي _والشرطة /المائلة للأمام والعلامة العطفية &وعلامة +الجمع والنقطة ..

  5. تعيين النتيجة كـنجح أو فشل لكل تسمية.

  6. حدد موافق.