تقييم أداء النموذج
نصيحة
راجع علامة التبويب النص والصور لمزيد من التفاصيل!
تقييم النموذج المستخدم يضمن أنه يلتزم بمعايير الجودة، ويقدم استجابات دقيقة، ويتحسن باستمرار مع مرور الوقت. تقدم بوابة مايكروسوفت فاوندري عدة طرق للتقييم، من الاختبار اليدوي إلى المقاييس الآلية وتدفقات التقييم الشاملة.
لماذا نقيم النماذج
يخدم التقييم عدة أغراض حيوية في تطوير تطبيقات الذكاء الاصطناعي التوليدي:
يحدد ضمان الجودة المشكلات ويضمن أن نموذجك يقدم ردودا دقيقة وذات صلة. اكتشاف المشكلات أثناء التقييم بدلا من الإنتاج يحمي مستخدميك وسمعة مؤسستك.
يتحسن رضا المستخدمين عندما تقدم النماذج باستمرار ردودا مفيدة ومناسبة. يساعدك التقييم على فهم كيف يختبر المستخدمون تطبيقك وأين تحدث التحسينات أكبر تأثير.
يأتي التحسين المستمر من تحليل نتائج التقييم لتحديد فرص التحسين. التقييم المنتظم أثناء تحديث التعليمات، أو إضافة الميزات، أو إعادة تدريب النماذج يضمن جودة مستمرة.
التحقق من الامتثال والسلامة يؤكد أن نموذجك يلتزم بالسياسات، ويتجنب توليد محتوى ضار، ويحترم متطلبات خصوصية المستخدمين وحماية البيانات.
طرق التقييم اليدوي
التقييم اليدوي يتضمن مراجعين بشريين لتقييم استجابات النموذج. رغم أن التقييم اليدوي يستغرق وقتا طويلا، إلا أنه يوفر رؤى لا تستطيع المقاييس الآلية التقاطها.
يتيح لك الاختبار التفاعلي في ساحة اللعب استكشاف سلوك النماذج بشكل نوعي. تدخل طلبات متنوعة، تراقب الردود، وتلاحظ مشاكل مثل المعلومات غير الصحيحة، النبرة غير المناسبة، أو عدم اتباع التعليمات. يساعدك هذا الاختبار الاستكشافي على فهم نقاط قوة وحدود النموذج.
لمساعدة تحسين تصميم تطبيقك، يمكنك اختبار النماذج جنبا إلى جنب في الملعب، ومزامنة تعليمات النظام والتعليمات لمقارنة ردودها.
المراجعة المنظمة تتضمن إنشاء مجموعة من حالات الاختبار التي تمثل حالات استخدام تطبيقك. يقوم المقيمون البشريون بتقييم الردود بناء على معايير مثل:
- الصلة: هل يعالج الرد السؤال أو الطلب؟
- المعلومات: هل يوفر تفاصيل كافية ومعلومات مفيدة؟
- التفاعل: هل الرد مثير للاهتمام ومناسب للحوار؟
- الدقة: هل الحقائق والتصريحات صحيحة؟
- السلامة: هل يتجنب الرد المحتوى الضار أو المتحيز أو غير المناسب؟
عادة ما يستخدم المقيمون مقاييس تقييم (مثل 1-5) لكل معيار. توفر التقييمات الإجمالية عبر عدة حالات اختبار مقاييس كمية للجودة العامة.
تجمع دراسات المستخدمين ملاحظات من المستخدمين الفعليين أو الممثلين الذين يتفاعلون مع تطبيقك. تكشف ملاحظات المستخدمين عن مشكلات واقعية قد تغفل عنها في الاختبارات المحكمة، مثل الصياغة المربكة، أو فقدان السياق، أو توقعات غير مستحقة.
يكمل التقييم اليدوي الأساليب الآلية من خلال التقاط جوانب الجودة الذاتية مثل رضا المستخدم، وملاءمة السياق، وتوافق العلامة التجارية التي لا تستطيع المقاييس وحدها قياسها.
مقاييس التقييم الآلية
يستخدم التقييم الآلي مقاييس قياسية لتقييم مخرجات نموذجك تلقائيا. تتوسع هذه التقييمات بكفاءة وتوفر قياسات موضوعية ومتسقة.
تدعم بوابة مايكروسوفت فاوندري عدة فئات من مقاييس التقييم، بما في ذلك:
مقاييس جودة التوليد تقيم جودة الاستجابة بشكل عام:
- التوازن: يحدد ما إذا كانت الردود مبنية على السياق المتوفر وليس على التخمين. يقدم Groundedness Pro تقييما ثنائيا (مؤرضا أو غير مؤرض) مفيدا لمتطلبات الدقة الواقعية.
- الصلة: تقيس ما إذا كانت الردود تعالج سؤال المستخدم أو طلبه بشكل مناسب.
- التماسك: يقيم ما إذا كانت الاستجابات تتدفق بشكل منطقي وتحافظ على أفكار متسقة.
- الطلاقة: يقيم الصوحة اللغوية وجودة اللغة الطبيعية.
تحدد مقاييس المخاطر والسلامة المحتوى الضار المحتمل:
- محتوى إيذاء النفس: يكتشف ردود الفعل التي تناقش أو تشجع إيذاء النفس
- محتوى كاره وغير عادل: يحدد التحيز أو التمييز أو التصريحات الكراهية
- محتوى عنيف: يعلم الردود التي تحتوي على العنف أو تروج لها
- المحتوى الجنسي: يكتشف محتوى جنسي غير لائق
- المواد المحمية: تحدد إمكانية إعادة إنتاج المحتوى المحتمي بحقوق النشر أو الملكية
- الهجوم غير المباشر (الهروب من السجن): يقيم قابلية التعرض لمحاولات التلاعب
بالنسبة لمقاييس ضرر المحتوى، تتجمع النتائج كمعدل عيوب — وهو نسبة الاستجابات التي تتجاوز حد شدة (عادة متوسط). بالنسبة للمواد المحمية والهجوم غير المباشر، يحسب معدل العيوب ك (true instances / total instances) × 100.
عند استخدام التقييم المدعوم بالذكاء الاصطناعي، تحدد نموذج GPT لإجراء التقييم. يقوم هذا النموذج المقيم بتحليل استجابات النموذج المستخدم لديك ويمنح الدرجات بناء على المعايير المختارة.
مقاييس معالجة اللغة الطبيعية
توفر مقاييس معالجة اللغة الطبيعية تقييما رياضيا دون الحاجة إلى نموذج مقيم. غالبا ما تحتاج هذه المقاييس إلى بيانات الحقيقة الواقعية—أي ردود متوقعة أو صحيحة للمقارنة.
تقيس درجة F1 نسبة الكلمات المشتركة بين الإجابات المولدة والإجابات الواقعية، مع موازنة الدقة (تجنب الكلمات غير الصحيحة) والاسترجاع (بما في ذلك الكلمات المهمة). تعد درجة F1 ذات قيمة لمهام مثل تصنيف النصوص واسترجاع المعلومات.
يقارن BLEU (طالب التقييم ثنائي اللغة) بين النصوص المولدة والمرجعية n-grams، ويستخدم عادة لتقييم الترجمة الآلية.
يمتد METEOR (مقياس تقييم الترجمة مع الترتيب الصريح) إلى BLEU من خلال مراعاة المرادفات، والجوهر، وإعادة الصياغة، مما يوفر مقارنة أكثر مرونة.
ROUGE (Recall-Oriented Understudy for Gisting Assessment) يركز على الاسترجاع على الدقة، مما يجعله مفيدا بشكل خاص لمهام التلخيص حيث يكون تغطية النقاط الرئيسية أهم من تجنب الكلمات الإضافية.
GLEU (Google-BLEU) هو نوع من BLEU مصمم للتقييم على مستوى الجملة.
مقاييس معالجة اللغة الطبيعية تعمل جيدا عندما يكون لديك إجابات صحيحة نهائية أو نصوص مرجعية. هي أقل ملاءمة للتوليد المفتوح حيث توجد العديد من الردود الصحيحة.
إنشاء تقييمات شاملة
تتيح لك ميزة التقييم في بوابة مايكروسوفت فاوندري إجراء تقييمات منهجية باستخدام مجموعات بيانات الاختبار وعدة مقاييس في نفس الوقت.
يمكنك الاعتماد على تقييمك على أحد الخيارات التالية:
- النموذج: قيم نموذجا تم نشره باستخدام التعليمات التي تحددها. يولد النظام مخرجات أثناء التقييم.
- الوكيل: تقييم ردود الوكيل باستخدام المحفزات التي يحددها المستخدم.
- مجموعة البيانات: قيم المخرجات المولدة مسبقا الموجودة بالفعل في مجموعة بيانات الاختبار الخاصة بك.
عند تقييم نموذج أو وكيل، تحتاج إلى مجموعة بيانات توفر مدخلات للتقييم. لديك ثلاث خيارات:
- رفع مجموعة بيانات جديدة: قدم ملف CSV أو JSONL يحتوي على حالات اختبار من storage المحلي الخاص بك.
- استخدم مجموعة البيانات الحالية: اختر من مجموعات البيانات التي قمت بتحميلها سابقا على project.
- إنشاء مجموعة بيانات تركيبية: إذا كنت تفتقر إلى بيانات الاختبار، يمكن للنظام توليد بيانات عينة بناء على وصف الموضوع الذي تقدمه. تحدد المورد الذي يولد البيانات، وعدد الصفوف، ورسالة تصف البيانات المطلوبة. يمكنك أيضا رفع ملفات لتحسين ملاءمتها لمهمتك الخاصة.
لتقييم مجموعات البيانات حيث تكون المخرجات مولدة مسبقا، اختر أو قم برفع مجموعة البيانات التي تحتوي على كل من المدخلات والردود التي تم إنشاؤها بواسطة النموذج.
بعد تكوين المقاييس التي تريد حسابها، وتعيينات الحقول لبيانات التقييم، وتوجيه النظام للنموذج؛ يمكنك بدء مهمة التقييم - والتي قد تستغرق بعض الوقت لتعمل بشكل غير متزامن، مع معالجة كل صف في مجموعة بيانات الاختبار مقابل المقاييس المختارة.
نتائج تقييم المراجعة
عند الانتهاء من التقييم، تظهر النتائج الدرجات المجمعة للمقاييس التي اخترتها وتفاصيل كل موضوع اختبار.
استكشف مكتبة المقيمين
توفر مكتبة المقيم موقعا مركزيا لعرض وإدارة جميع المقيمين المتاحين. Access ذلك من صفحة project
في مكتبة المقيمين، يمكنك:
- اطلع على المقيمين المختارين من قبل مايكروسوفت للجودة والسلامة والأداء
- افحص تفاصيل المقيم بما في ذلك الاسم، الوصف، المعلمات، والملفات المرتبطة
- مراجعة مواضيع التعليق لتقييم الجودة لفهم كيفية حساب المقاييس
- تحقق من التعريفات ومستويات الشدة لمقيمي السلامة
- إدارة المقيمين المخصصين الذين أنشأتهم لسيناريوهات محددة
تدعم المكتبة إدارة الإصدارات، مما يتيح لك مقارنة الإصدارات المختلفة، واستعادة الإصدارات السابقة إذا لزم الأمر، والتعاون مع الآخرين في مقيمين مخصصين.
التكرار بناء على التقييم
نتائج التقييم توجه خطواتك التالية:
عندما تكون الدرجات أقل من المطلوبة، فكر في ما يلي:
- هندسة التوجيه: تحسين التعليمات ورسائل النظام
- نماذج مختلفة: تجربة نماذج محسنة لحالتك
- تكامل RAG: إضافة قدرات الاسترجاع إلى الاستجابات الأرضية في بياناتك
- الضبط الدقيق: تدريب النموذج على مجالك المحدد (إذا كان مدعوما)
كل خطوة من هذه الخطوات يمكن أن تزداد تعقيدا (وأحيانا تكلفة)، لذا خذ ذلك في الاعتبار عند التخطيط للتحسينات.
عندما تظهر مؤشرات السلامة مخاوف:
- فلاتر المحتوى: تنفيذ خدمات أمان محتوى الذكاء الاصطناعي في Azure
- تقوية الطلبات: إضافة تعليمات أمان إلى رسائل النظام
- التحقق من صحة المخرجات: التحقق من الردود قبل عرضها للمستخدمين
التقييم المنتظم أثناء إجراء التغييرات يتتبع التحسينات ويضمن عدم تراجع الجودة. حدد معايير التقييم في وقت مبكر من التطوير، ثم أعد إجراء التقييمات بعد التعديلات لقياس الأثر بشكل موضوعي.
من خلال دمج الاختبار اليدوي، والمقاييس الآلية، وتدفقات التقييم الشاملة، تبني ثقة بأن نموذجك يؤدي أداء جيدا، ويخدم المستخدمين بأمان، ويلبي متطلبات جودة تطبيقك.