أتمتة الاختبار مع تقييم العامل

مع تولي وكلاء الذكاء الاصطناعي أدوارا بالغة الأهمية في العمليات التجارية، تصبح الحاجة إلى اختبار موثوق به وقابل للتكرار أمرا ضروريا. يتيح لك تقييم العامل إنشاء اختبارات تحاكي سيناريوهات العالم الحقيقي لوكيلك. تغطي هذه الاختبارات المزيد من الأسئلة والمحادثات بشكل أسرع من الاختبار اليدوي كل حالة على حدة. بعد ذلك، يمكنك قياس دقة إجابات تفاعلات وكيلك ومدى أهميتها وجودتها، استنادا إلى المعلومات التي يمكن للعامل الوصول إليها. باستخدام النتائج من مجموعة الاختبار، يمكنك تحسين سلوك وكيلك والتحقق من أن وكيلك يلبي متطلبات عملك وجودتك.

لماذا تستخدم الاختبار التلقائي؟

يوفر تقييم العامل اختبارا آليا ومنظما. يساعد على التقاط المشاكل في وقت مبكر، ويقلل من مخاطر الإجابات السيئة، ويحافظ على الجودة مع تطور العامل. تجلب هذه العملية شكلا تلقائيا وقابلا للتكرار لضمان الجودة لاختبار العامل. فهو يتأكد من أن الوكيل يلبي معايير الدقة والموثوقية الخاصة بعملك ويمنح الشفافية في كيفية أدائه. له نقاط قوة مختلفة عن الاختبار باستخدام دردشة الاختبار.

يمكنك تشغيل التقييمات ورؤية النتائج باستخدام واجهة Copilot Studio، من خلال واجهات برمجة تطبيقات REST Power Platform، أو من خلال إضافة الإجراءات في الأدوات أو التدفقات أو Power Automate.

يقيس تقييم العامل الصحة والأداء، وليس أخلاقيات الذكاء الاصطناعي أو مشاكل السلامة. قد يجتاز العامل جميع اختبارات التقييم ولكن لا يزال، على سبيل المثال، ينتج إجابة غير مناسبة على سؤال. يجب على العملاء استخدام مراجعات الذكاء الاصطناعي المسؤولة وعوامل تصفية أمان المحتوى؛ لا تحل التقييمات محل تلك المراجعات وعوامل التصفية.

قيود السحابة الحكومية المجتمعية

تقييم العامل في بيئات سحابة المجتمع الحكومي (GCC) له القيود التالية:

لا يمكن للواضعي إضافة ملف تعريف مستخدم إلى مجموعات الاختبار الخاصة بهم. ومع ذلك، لا يزال بإمكان صانعي التقييمات تشغيل التقييمات دون ملف تعريف المستخدم.
لا يمكن للواضعي استخدام أسلوب اختبار التشابه للتقييمات. تتوفر جميع أساليب الاختبار الأخرى.

كيف يعمل تقييم الوكيل

يستخدم Copilot Studio حالة test لكل تقييم عامل. حالة الاختبار هي تفاعل واحد يحاكي كيفية تفاعل المستخدم مع وكيلك. يمكن أن يكون التفاعل سؤالا واحدا أو محادثة كاملة.

يمكن أن تتضمن حالة الاختبار أيضا الإجابة التي تتوقع أن يرد عليها وكيلك. على سبيل المثال:

السؤال: ما هي ساعات عملك؟
الاستجابة المتوقعة: نحن مفتوحون من الساعة 09:00 صباحا إلى 5 مساء من الاثنين إلى الجمعة.

باستخدام تقييم العامل، يمكنك إنشاء مجموعة من حالات الاختبار أو استيرادها أو كتابتها يدويا . هذه المجموعة من حالات الاختبار تسمى مجموعة اختبار. تتيح لك مجموعة الاختبار ما يلي:

قم بتشغيل حالات اختبار متعددة تغطي مجموعة واسعة من القدرات في وقت واحد، بدلا من طرح سؤال واحد على وكيلك في كل مرة.
قم بتحليل أداء الوكيل الخاص بك باستخدام درجة تجميعية سهلة الفهم والتركيز على حالات الاختبار الفردية.
اختبر التغييرات على وكلائك باستخدام نفس مجموعة الاختبار، بحيث يكون لديك معيار موضوعي لقياس ومقارنة التغييرات في الأداء.
إنشاء مجموعات اختبار جديدة بسرعة أو تعديل مجموعات موجودة لتغطية قدرات أو متطلبات العامل المتغيرة.

يمكن لكل مجموعة اختبار تقييم عاملك باستخدام أساليب اختبار متعددة في وقت واحد.

يمكنك أيضا اختيار ملف تعريف مستخدم ليكون بمثابة المستخدم المحفز. قد يتم تكوين العامل للاستجابة لمستخدمين مختلفين بطرق مختلفة، أو السماح بالوصول إلى الموارد بطرق مختلفة.

عند تحديد مجموعة اختبار تشغيل تقييم عامل، Copilot Studio يرسل الأسئلة في حالات الاختبار، ويسجل ردود العامل، ويقارن تلك الردود مع الردود المتوقعة أو معيار الجودة، ويعين درجة لكل حالة اختبار. يمكنك أيضا رؤية التفاصيل والنسخة المكتوبة وخريطة النشاط لكل حالة اختبار والموارد التي استخدمها وكيلك لإنشاء الاستجابة.

إنشاء استراتيجية تقييم شاملة

قبل إجراء التقييمات، حدد شكل النجاح لوكيلك وحدد السيناريوهات الأكثر أهمية لنتائج عملك. تساعدك الاستراتيجية الواضحة على اختيار أساليب الاختبار الصحيحة، وتحديد أولويات حالات الاختبار عالية التأثير، وتفسير النتائج بالسياق الصحيح.

استخدام حلول عامل التصميم: أطر التقييم لتعيين أهداف الأعمال لأبعاد التقييم القابلة للقياس ونهج التسجيل.
استخدم Design and operationalize agent evaluation لإنشاء عملية تقييم قابلة للتكرار تدعم تحسينات الجودة المستمرة.

دمج التقييمات في التدفقات التلقائية

يدعم تقييم العامل الأتمتة حتى يتمكن المصنعون من إجراء التقييمات دون تدخل يدوي. باستخدام واجهات برمجة تطبيقات REST أو موصلات Power Platform، يمكنك تشغيل عمليات تشغيل التقييم برمجيا ودمج الاختبار في مهام سير العمل التلقائية مثل البنية الأساسية لبرنامج ربط العمليات التجارية للتكامل المستمر والنشر المستمر (CI/CD). يمكنك هذا الأسلوب من تشغيل مجموعات الاختبار على نطاق واسع والتحقق من صحة سلوك العامل عند إدخال التغييرات، دون الحاجة إلى التنفيذ اليدوي في Copilot Studio.

اختبار الدردشة مقابل تقييم الوكيل

تمنحك كل طريقة من طرق الاختبار رؤى مختلفة حول صفات وكيلك وسلوكه:

اختبار الدردشة:

تلقي سؤال واحد والرد عليه في كل مرة. من الصعب تكرار نفس الاختبارات عدة مرات.
يسمح لك باختبار جلسة عمل كاملة تحتوي على رسائل متعددة.
يسمح لك بالتفاعل مع وكيلك كمستخدم باستخدام واجهة دردشة.

تقييم الوكيل

يمكن إنشاء حالات اختبار متعددة وتشغيلها في وقت واحد باستخدام مجموعة اختبار. يمكنك تكرار الاختبارات عن طريق الاختبار بنفس مجموعة الاختبار.
يمكن اختبار سؤال واحد واستجابة واحدة لكل حالة اختبار، أو محادثة واحدة لكل حالة اختبار. ومع ذلك، لديك تحكم أقل في المحادثات مما كنت تفعل عند استخدام دردشة الاختبار.
اختر ملفات تعريف مستخدم مختلفة لمحاكاة مستخدمين مختلفين دون الحاجة إلى إكمال التفاعلات بنفسك.

عند اختبار وكيل، استخدم كل من اختبار الدردشة وتقييم العامل للحصول على صورة كاملة لوكيلك.

الملاحظات

هل كانت هذه الصفحة مفيدة؟

Last updated on 2026-04-22