كيفية عرض نتائج التقييم في Azure الذكاء الاصطناعي Studio

مقالة
05/21/2024

هام

قد تتوفر بعض الميزات الموضحة في هذه المقالة فقط في المعاينة. يتم توفير هذه المعاينة دون اتفاقية على مستوى الخدمة، ولا نوصي بها لأحمال عمل الإنتاج. بعض الميزات ربما لا تكون مدعمة أو بها بعض القدرات المقيدة. لمزيد من المعلومات، راجع ⁧⁩شروط الاستخدام التكميلية لمعاينات Microsoft Azure⁧⁩.

صفحة تقييم Azure الذكاء الاصطناعي Studio هي مركز متعدد الاستخدامات لا يسمح لك فقط بتصور وتقييم النتائج الخاصة بك ولكن أيضا بمثابة مركز تحكم لتحسين واستكشاف الأخطاء وإصلاحها وتحديد نموذج الذكاء الاصطناعي المثالي لاحتياجات النشر الخاصة بك. إنه حل واحد لاتخاذ القرارات المستندة إلى البيانات وتحسين الأداء في مشاريع الذكاء الاصطناعي Studio. يمكنك الوصول بسلاسة إلى النتائج وتفسيرها من مصادر مختلفة، بما في ذلك تدفقك وجلسة الاختبار السريع للملعب وواجهة مستخدم إرسال التقييم وSDK. تضمن هذه المرونة إمكانية التفاعل مع نتائجك بطريقة تناسب سير العمل والتفضيلات بشكل أفضل.

بمجرد تصور نتائج التقييم، يمكنك التعمق في فحص شامل. وهذا يشمل القدرة ليس فقط على عرض النتائج الفردية ولكن أيضا لمقارنة هذه النتائج عبر عمليات تقييم متعددة. من خلال القيام بذلك، يمكنك تحديد الاتجاهات والأنماط والتناقضات، والحصول على رؤى لا تقدر بثمن حول أداء نظام الذكاء الاصطناعي الخاص بك في ظل ظروف مختلفة.

ستتعلم في هذه المقالة ما يلي:

عرض نتيجة التقييم والمقاييس.
مقارنة نتائج التقييم.
فهم مقاييس التقييم المضمنة.
تحسين الأداء.
عرض نتائج التقييم والمقاييس.

البحث عن نتائج التقييم

عند إرسال التقييم الخاص بك، يمكنك تحديد موقع تشغيل التقييم المرسل ضمن قائمة التشغيل عن طريق الانتقال إلى صفحة التقييم .

يمكنك مراقبة وإدارة عمليات تشغيل التقييم داخل قائمة التشغيل. مع المرونة لتعديل الأعمدة باستخدام محرر الأعمدة وتنفيذ عوامل التصفية، يمكنك تخصيص وإنشاء الإصدار الخاص بك من قائمة التشغيل. بالإضافة إلى ذلك، يمكنك مراجعة مقاييس التقييم المجمعة بسرعة عبر عمليات التشغيل، ما يتيح لك إجراء مقارنات سريعة.

لفهم أعمق لكيفية اشتقاق مقاييس التقييم، يمكنك الوصول إلى شرح شامل عن طريق تحديد الخيار "فهم المزيد حول المقاييس". يوفر هذا المورد التفصيلي رؤى قيمة لحساب وتفسير المقاييس المستخدمة في عملية التقييم.

يمكنك اختيار تشغيل معين، والذي سينقلك إلى صفحة تفاصيل التشغيل. هنا، يمكنك الوصول إلى معلومات شاملة، بما في ذلك تفاصيل التقييم مثل مجموعة بيانات الاختبار ونوع المهمة والمطالبة ودرجة الحرارة والمزيد. علاوة على ذلك، يمكنك عرض المقاييس المقترنة بكل نموذج بيانات. توفر مخططات درجات المقاييس تمثيلا مرئيا لكيفية توزيع الدرجات لكل مقياس في جميع أنحاء مجموعة البيانات الخاصة بك.

ضمن جدول تفاصيل المقاييس، يمكنك إجراء فحص شامل لكل عينة بيانات فردية. هنا، يمكنك فحص الإخراج الذي تم إنشاؤه ودرجة قياس التقييم المقابلة له. يمكنك هذا المستوى من التفاصيل من اتخاذ قرارات تستند إلى البيانات واتخاذ إجراءات محددة لتحسين أداء النموذج الخاص بك.

يمكن أن تتضمن بعض عناصر الإجراءات المحتملة استنادا إلى مقاييس التقييم ما يلي:

التعرف على الأنماط: من خلال التصفية للقيم والمقاييس الرقمية، يمكنك التنقل لأسفل إلى عينات ذات درجات أقل. تحقق من هذه العينات لتحديد الأنماط أو المشكلات المتكررة في استجابات النموذج الخاص بك. على سبيل المثال، قد تلاحظ أن الدرجات المنخفضة غالبا ما تحدث عندما ينشئ النموذج محتوى حول موضوع معين.
تحسين النموذج: استخدم الرؤى من عينات تسجيل النقاط المنخفضة لتحسين التعليمات الموجهة للنظام أو ضبط النموذج الخاص بك. إذا لاحظت مشكلات متسقة مع، على سبيل المثال، الاتساق أو الصلة، يمكنك أيضا ضبط بيانات تدريب النموذج أو معلماته وفقا لذلك.
تخصيص العمود: يمكنك محرر العمود من إنشاء طريقة عرض مخصصة للجدول، مع التركيز على المقاييس والبيانات الأكثر صلة بأهداف التقييم. وهذا يمكن أن يبسط تحليلك ويساعدك على اكتشاف الاتجاهات بشكل أكثر فعالية.
البحث عن الكلمات الأساسية: يسمح لك مربع البحث بالبحث عن كلمات أو عبارات معينة في الإخراج الذي تم إنشاؤه. يمكن أن يكون هذا مفيدا لتحديد المشكلات أو الأنماط المتعلقة بموضوعات أو كلمات أساسية معينة ومعالجتها على وجه التحديد.

يوفر جدول تفاصيل المقاييس ثروة من البيانات التي يمكن أن توجه جهود تحسين النموذج، بدءا من التعرف على الأنماط إلى تخصيص طريقة العرض لتحليل نموذجك بكفاءة وتحسينه استنادا إلى المشكلات المحددة.

نقوم بتقسيم طرق العرض المجمعة أو مقاييسك حسبالأداء والجودة ومقاييس المخاطر والسلامة. يمكنك عرض توزيع الدرجات عبر مجموعة البيانات التي تم تقييمها ورؤية الدرجات الإجمالية لكل مقياس.

بالنسبة لمقاييس الأداء والجودة، نجمع عن طريق حساب متوسط عبر جميع الدرجات لكل مقياس.
بالنسبة لمقاييس المخاطر والسلامة، نجمع استنادا إلى حد لحساب معدل الخلل عبر جميع الدرجات لكل مقياس. يتم تعريف معدل العيب على أنه النسبة المئوية للمثيلات في مجموعة بيانات الاختبار التي تتجاوز عتبة مقياس الخطورة على حجم مجموعة البيانات بأكمله.

فيما يلي بعض الأمثلة على نتائج المقاييس لسيناريو الإجابة على الأسئلة:

وفيما يلي بعض الأمثلة على نتائج المقاييس لسيناريو المحادثة:

بالنسبة لسيناريو المحادثة متعددة الأدوار، يمكنك تحديد "عرض نتائج التقييم لكل دور" للتحقق من مقاييس التقييم لكل إرسال في محادثة.

بالنسبة لمقاييس المخاطر والسلامة، يوفر التقييم درجة الخطورة والمنطق لكل درجة. فيما يلي بعض الأمثلة على نتائج مقاييس المخاطر والسلامة لسيناريو الإجابة على الأسئلة:

قد يكون لنتائج التقييم معاني مختلفة لجماهير مختلفة. على سبيل المثال، قد تولد تقييمات السلامة وصفا لخطورة المحتوى العنيف "المنخفضة" التي قد لا تتوافق مع تعريف المراجع البشري لمدى شدة هذا المحتوى العنيف المحدد. نحن نقدم عمود ملاحظات بشريا مع إبهام لأعلى وإبهام لأسفل عند مراجعة نتائج التقييم لإظهار المثيلات التي تمت الموافقة عليها أو وضع علامة عليها على أنها غير صحيحة من قبل مراجع بشري.

عند فهم كل مقياس لمخاطر المحتوى، يمكنك بسهولة عرض كل تعريف قياس ومقياس خطورة عن طريق تحديد اسم المقياس أعلى المخطط لرؤية شرح مفصل في نافذة منبثقة.

إذا كان هناك شيء خاطئ في التشغيل، يمكنك أيضا تصحيح تشغيل التقييم الخاص بك باستخدام السجل والتتبع.

فيما يلي بعض الأمثلة على السجلات التي يمكنك استخدامها لتصحيح أخطاء تشغيل التقييم:

وفيما يلي مثال على طريقة عرض التتبع وتصحيح الأخطاء:

إذا كنت تقوم بتقييم تدفق المطالبة، يمكنك تحديد الزر عرض في التدفق للانتقال إلى صفحة التدفق التي تم تقييمها لإجراء تحديث للتدفق الخاص بك. على سبيل المثال، إضافة إرشادات إضافية لمطالبة التعريف، أو تغيير بعض المعلمات وإعادة تقييمها.

مقارنة نتائج التقييم

لتسهيل المقارنة الشاملة بين تشغيلين أو أكثر، لديك خيار تحديد عمليات التشغيل المطلوبة وبدء العملية عن طريق تحديد الزر مقارنة أو، للحصول على طريقة عرض عامة مفصلة للوحة المعلومات، زر التبديل إلى طريقة عرض لوحة المعلومات. تتيح لك هذه الميزة تحليل أداء ونتائج عمليات التشغيل المتعددة وتباينها، ما يسمح باتخاذ قرارات أكثر إطلاعا وتحسينات مستهدفة.

في طريقة عرض لوحة المعلومات، يمكنك الوصول إلى مكونين قيمين: مخطط مقارنة التوزيع القياسي وجدول المقارنة. تمكنك هذه الأدوات من إجراء تحليل جنبا إلى جنب لتشغيل التقييم المحدد، ما يسمح لك بمقارنة جوانب مختلفة من كل عينة بيانات بسهولة ودقة.

ضمن جدول المقارنة، لديك القدرة على إنشاء أساس للمقارنة الخاصة بك عن طريق تمرير الماوس فوق التشغيل المحدد الذي ترغب في استخدامه كنقطة مرجعية وتعيينه كخط أساسي. علاوة على ذلك، من خلال تنشيط تبديل "Show delta"، يمكنك بسهولة تصور الاختلافات بين تشغيل الأساس والتشغيلات الأخرى للقيم الرقمية. بالإضافة إلى ذلك، مع تمكين التبديل "إظهار الفرق فقط"، يعرض الجدول الصفوف التي تختلف بين عمليات التشغيل المحددة فقط، مما يساعد في تحديد التباينات المميزة.

باستخدام ميزات المقارنة هذه، يمكنك اتخاذ قرار مستنير لتحديد أفضل إصدار:

مقارنة الأساس: من خلال تعيين تشغيل الأساس، يمكنك تحديد نقطة مرجعية لمقارنة عمليات التشغيل الأخرى بها. يسمح لك هذا برؤية كيفية انحرف كل تشغيل عن المعيار الذي اخترته.
تقييم القيمة الرقمية: يساعدك تمكين خيار "إظهار دلتا" على فهم مدى الاختلافات بين الأساس وعمليات التشغيل الأخرى. وهذا مفيد لتقييم كيفية أداء عمليات التشغيل المختلفة من حيث مقاييس التقييم المحددة.
عزل الفرق: تعمل ميزة "إظهار الاختلاف فقط" على تبسيط تحليلك من خلال تمييز المناطق التي توجد فيها تناقضات بين عمليات التشغيل فقط. يمكن أن يكون هذا مفيدا في تحديد مكان الحاجة إلى التحسينات أو التعديلات.

باستخدام أدوات المقارنة هذه بشكل فعال، يمكنك تحديد إصدار النموذج أو النظام الذي يقوم بأفضل أداء فيما يتعلق بمعاييرك ومقاييسك المحددة، مما يساعدك في نهاية المطاف في تحديد الخيار الأمثل لتطبيقك.

قياس الثغرة الأمنية لكسر الحماية

تقييم الهروب من السجن هو قياس مقارنة، وليس مقياسا بمساعدة الذكاء الاصطناعي. قم بتشغيل التقييمات على مجموعتي بيانات مختلفتين ذات فريق أحمر: مجموعة بيانات اختبار خصومية أساسية مقابل نفس مجموعة بيانات الاختبار التخاصمي مع إدخالات اختراق السجن في الدور الأول. يمكنك استخدام محاكي البيانات المتطفلة لإنشاء مجموعة البيانات مع حقن اختراق السجن أو بدونها.

لفهم ما إذا كان تطبيقك عرضة للهروب من السجن، يمكنك تحديد الأساس ثم تشغيل تبديل "معدلات عيب كسر السجن" في جدول المقارنة. يتم تعريف معدل عيب كسر السجن على أنه النسبة المئوية للمثيلات في مجموعة بيانات الاختبار الخاصة بك حيث أدى إدخال اختراق السجن إلى درجة خطورة أعلى لأي مقياس مخاطر محتوى فيما يتعلق بخط أساسي على حجم مجموعة البيانات بالكامل. يمكنك تحديد تقييمات متعددة في لوحة معلومات المقارنة لعرض الفرق في معدلات العيوب.

تلميح

يتم حساب معدل عيب كسر الحماية نسبيا فقط لمجموعات البيانات من نفس الحجم وفقط عندما تتضمن جميع عمليات التشغيل مقاييس مخاطر المحتوى والسلامة.

فهم مقاييس التقييم المضمنة

يعد فهم المقاييس المضمنة أمرا حيويا لتقييم أداء تطبيقك الذكاء الاصطناعي وفعاليته. من خلال الحصول على رؤى حول أدوات القياس الرئيسية هذه، فأنت مجهز بشكل أفضل لتفسير النتائج، واتخاذ قرارات مستنيرة، وضبط تطبيقك لتحقيق النتائج المثلى. لمعرفة المزيد حول أهمية كل مقياس، وكيفية حسابه، ودوره في تقييم جوانب مختلفة من نموذجك، وكيفية تفسير النتائج لإجراء تحسينات تستند إلى البيانات، راجع مقاييس التقييم والمراقبة.

الخطوات التالية

تعرف على المزيد حول كيفية تقييم تطبيقات الذكاء الاصطناعي التوليدية:

تعرف على المزيد حول تقنيات التخفيف من الضرر.

مشاركة عبر