تقييم الوحدة النمطية

1.

ما الغرض الأساسي من تقييم تطبيقات الذكاء الاصطناعي التوليدية؟

لزيادة سرعة تدريب النموذج الذكاء الاصطناعي.

لقياس جودة وسلامة وموثوقية أنظمة الذكاء الاصطناعي.

لتقليل تكلفة تطوير الذكاء الاصطناعي.

لاستبدال المقيمين البشريين بأنظمة مؤتمتة.

2.

أي من الأمور التالية ليست سمة من سمات بيانات التقييم الجيدة؟

تنوع.

التمثيل.

جودة عالية.

التجانس.

3.

أي بيان يعكس بشكل أفضل كيفية إعداد بيانات التقييم في Microsoft Foundry؟

كل مقيم مدمج يستخدم نفس حقول الإدخال، لذا فإن مخطط ثابت واحد يعمل دائما.

قد يتطلب المقيمون المختلفون مدخلات مختلفة، لذا تأكد من التعيين للحقول مثل الاستعلام، الاستجابة، السياق، الحقيقة الأساسية، أو استدعاءات الأدوات.

فقط المقيمون المخصصون يستخدمون السياق أو الحقيقة الأساسية.

يجب أن تزيل الحالات الجانبية حتى لا تشوه متوسط الدرجة.

4.

عند مقارنة جولتي تقييم بعد تغيير سريع، ما الذي يعطيك أوضح دليل على أن التغيير ساعد؟

قارن الجولة الجديدة مع خط الأساس مع الحفاظ على استقرار مجموعة البيانات ومجموعة المقيمين.

شغل التوجيه الجديد على مجموعة بيانات مختلفة مع مقيمين مختلفين.

انظر فقط إلى معدل النجاح/الرسوب العام وتجاهل نتائج مستوى الصف.

غير العتبات في نفس الوقت حتى تمر نتائج أكثر.

‏التحقق من المعرفة