دور البيانات في التقييمات
تلعب جودة وطبيعة البيانات دورا حاسما في تحديد فعالية وموثوقية عمليات التقييم. البيانات هي العمود الفقري لاختبار والتحقق من صحة وتحسين أنظمة الذكاء الاصطناعي بحيث تعكس النتائج ما من المرجح أن يختبره المستخدمون في الإنتاج. تساعد مجموعات البيانات عالية الجودة والمتنوعة والممثلة في ضمان أن تعكس نتائج المقيمين نقاط القوة والضعف الحقيقية للنموذج بدلا من مجرد الحالات السهلة.
خصائص بيانات التقييم الجيد
يجب أن تمتلك البيانات المستخدمة لتقييم تطبيقات الذكاء الاصطناعي التوليدية الخصائص التالية:
- التنوع: تشمل بيانات التقييم الجيد مجموعة واسعة من السيناريوهات والسياقات والتباينات، ما يضمن اختبار التطبيق مقابل أنواع مختلفة من المدخلات.
- التمثيل: يجب أن تعكس البيانات بدقة سيناريوهات العالم الحقيقي التي يتم فيها نشر نموذج الذكاء الاصطناعي، مع التقاط الفروق الدقيقة والتعقيدات لتفاعلات المستخدم الفعلية.
- الجودة: البيانات عالية الجودة نظيفة ومسماة جيدا وخالية من الأخطاء أو التناقضات. تضمن البيانات عالية الجودة عدم انحراف مقاييس التقييم عن طريق الضوضاء أو عدم الدقة.
- الصلة: يجب مواءمة البيانات مع الأهداف والمتطلبات المحددة لتطبيق الذكاء الاصطناعي، مع التركيز على الجوانب الأكثر أهمية لأدائه وتجربة المستخدم.
- يتم التحديث بانتظام: تحديث بيانات التقييم باستمرار لتعكس احتياجات المستخدمين والسياسات والسيناريوهات المتغيرة.
- توازن جودة البيانات وكميتها: تأكد من أن البيانات عالية الجودة وكبيرة بما يكفي لتقديم نتائج تقييم دقيقة وذات مغزى.
طابق مجموعة البيانات ليس فقط مع مهمة المستخدم، بل أيضا مع قيود المقيم التي تخطط لاستخدامها. بعض المقيمين المعتمدين على القضاة يوثقون قيود اللغة، وبعض المقيمين الوكلاء يوثقون دعما محدودا لأنواع أدوات محددة. مجموعة البيانات الممثلة مفيدة فقط إذا تمكن المقيم من تفسيرها بشكل صحيح.
أهمية معالجة حالات الحافة
حالات الحافة، على الرغم من ندرتها، يمكن أن يكون لها آثار كبيرة على أداء وموثوقية تطبيقات الذكاء الاصطناعي التوليدية. من خلال تضمين الحالات الطرفية في بيانات التقييم، يمكن للمطورين التحقق من أن النظام قوي وقادر على التعامل مع مجموعة واسعة من المدخلات. في الذكاء الاصطناعي التوليدي، قد تشمل الحالات الطرفية مدخلات تختلف عن البيانات التي ترى عادة أثناء التطوير أو الاختبارات المبكرة. غالبا ما تكشف هذه الحالات عن نقاط ضعف، أو سلوك غير آمن، أو افتراضات غير مفيدة يمكن للدرجات المتوسطة إخفاءها.
ضع في اعتبارك تطبيق الذكاء الاصطناعي إنشاءي مصمم لروبوتات الدردشة لخدمة العملاء. قد تتضمن حالة الحافة لهذا التطبيق مستخدما يقوم بإدخال رسالة تتضمن مزيجا من اللغات، مثل الإنجليزية والماندارين، جنبا إلى جنب مع اللغة العامية والمصطلحات الخاصة بالصناعة. على سبيل المثال، قد يقوم المستخدم بكتابة، "مرحبا، هل يمكنك帮我reset我的密码؟ شكرا!" يجمع هذا الإدخال بين اللغة الإنجليزية والماندارين واللغة غير الرسمية، والتي يمكن أن تتحدى قدرات معالجة لغة روبوت الدردشة. يمكن أن يساعد تقييم استجابة النظام الذكاء الاصطناعي لمثل هذه المدخلات المطورين على تحديد ما إذا كان بإمكان روبوت الدردشة فهم الاستعلامات متعددة اللغات وغير الرسمية والاستجابة لها بدقة، ما يضمن القوة والموثوقية في سيناريوهات الاتصال المتنوعة.
متطلبات البيانات
سير عمل التقييم لا يبدأ كله من نفس نوع المدخلات. في البوابة، يمكنك تقييم وكيل أو نموذج أو مجموعة بيانات. عند استخدام مجموعة بيانات في البوابة، يجب أن يكون الملف المرفوع CSV أو JSONL. في سير عمل السحابة وSDK، يمكنك إعادة استخدام مجموعة بيانات مرفوعة حسب المعرف أو توفير تقييمات مستهدفة file_contentللنموذج والوكيل ثم تولد ردودا أثناء التشغيل من استفسارات الإدخال.
تشمل مجالات التقييم الشائعة:
الاستعلام - السؤال أو السؤال المحدد الذي يعطى للذكاء الاصطناعي.
على سبيل المثال: "ما هي العاصمة / المدينة الرئيسية لفرنسا؟"
الرد - الإجابة التي يولدها الذكاء الاصطناعي على الاستعلام.
على سبيل المثال: "العاصمة /المدينة الرئيسية لفرنسا هي باريس. إنها مدينة كبيرة بها برج شهير يدعى برج إيفل."
السياق - المواد التأريض المستخدمة لإنتاج الرد، مثل النص المسترجع لنظام RAG.
على سبيل المثال: "باريس هي العاصمة/المدينة الرئيسية لفرنسا".
الحقيقة الأرضية - الإجابة المرجعية الموثوقة التي أنشأها إنسان أو مصدر معتمد آخر.
مثال: "باريس هي العاصمة/المدينة الرئيسية وأكثر المدن سكانا في فرنسا."
استدعاءات الأدوات - بيانات استدعاء أداة منظمة يستخدمها مقيمو الوكلاء وبعض مقيمي السلامة الخاصة بالوكلاء.
تعريفات الأدوات - أوصاف منظمة للأدوات المتاحة للوكيل. يستخدم العديد من مقيمين الوكلاء هذه التقييمات لتقييم اختيار الأدوات وجودة المعلمات.
هذه ليست المخططات الوحيدة الصحيحة.
Document Retrieval الاستخدامات retrieval_ground_truth و retrieved_documents.
Task Navigation Efficiency الاستخدامات actions و expected_actions. يمكن لتقييمات الوكلاء أيضا استخدام صيغ مصفوفة المحادثة بدلا من السلاسل النصية العادية، حتى يتمكن المقيمون من فحص رسائل النظام، واستدعاءات الأدوات، ونتائج الأدوات، والإجابات النهائية.
بعض المقيمين يحتاجون فقط query إلى و response. وأخرى تحتاج contextإلى ، ground_truth، حقول وسم الاسترجاع، tool_calls، أو tool_definitions. لا تفترض أن مخططا واحدا يعمل في كل جولة. خطط لمجموعة البيانات حول مجموعة المقيم التي تستخدمها، وتحقق من رسم خريطة الحقول قبل تقديم التقييم.
أيا كان المخطط الذي تختاره، تأكد من أن كل صف متسق داخليا وأن تعيين الحقول يتوافق مع متطلبات المقيم.
أنواع ومصادر بيانات التقييم
هناك عدة أنواع ومصادر بيانات يمكن استخدامها لتقييم تطبيقات الذكاء الاصطناعي التوليدي، وكل منها يقدم فوائد وتحديات فريدة.
بيانات العالم الحقيقي
البيانات الواقعية هي بيانات مولدة من قبل المستخدمين أو شبيهة بالإنتاج وتعكس تفاعلات وسيناريوهات فعلية. إنه لا يقدر بثمن لاختبار الأداء في ظروف واقعية لأنه يحتوي على التغيرات الدقيقة، والغموض، والعبارات الفوضوية التي غالبا ما تغفل عنها الأمثلة التركيبية. عند استخدام بيانات العالم الحقيقي، تأكد من التعامل معها بشكل مناسب من حيث الخصوصية والامتثال والأمان.
البيانات الاصطناعية
البيانات الاصطناعية هي بيانات تم إنشاؤها بشكل مصطنع مصممة لمحاكاة سيناريوهات العالم الحقيقي. يكون مفيدا عندما تكون بيانات الإنتاج نادرة أو حساسة أو غير متوفرة بعد. يمكن للبيانات التركيبية توسيع التغطية بسرعة، خاصة في التطوير المبكر، لكنها يجب أن تكمل الأمثلة الواقعية التمثيلية بدلا من أن تحل محلها.
إرشادات بوابة Foundry الحالية تتيح لك إنشاء مجموعة بيانات تركيبية أثناء إعداد التقييم عندما لا يكون لديك بيانات اختبار بعد. يتطلب سير عمل البوابة الحالي نموذجا يحتوي على واجهة برمجة التطبيقات Responses.
توثق Microsoft Learn أيضا فئة Simulator في مجموعة تطوير مهارات Azure AI Evaluation الخاصة بسير العمل الكلاسيكي الذي يولد استعلامات ومحادثات غير خصمية من نص المصدر أو الفهارس. استخدم هذه الإرشادات فقط إذا كنت تعمل عمدا في مشروع كلاسيكي من Foundry أو مبني على المحور. المقال الكلاسيكي يقول صراحة إنه لا ينطبق على مشاريع Foundry الحالية.
تشمل إرشادات المحاكي هذه قدرات مثل:
- إنشاء بيانات اصطناعية استنادا إلى نص أو فهارس للإدخل
- تحديد عمليات رد الاتصال المستهدفة لأغراض المحاكاة
- تخصيص كيفية إنشاء أزواج استجابة الاستعلام من نص الإدخال
- استخدام بادئات المحادثة الثابتة للمحاكاة
البيانات التركيبية ذات قيمة للتغطية، لكنها يجب أن تكمل الأمثلة الواقعية الممثلة بدلا من أن تحل محلها.
البيانات المتطفلة
تشير البيانات العدائية إلى مدخلات مصممة بعناية تهدف إلى تحدي أو إرباك أو استغلال أنظمة الذكاء الاصطناعي. يعد ذلك ضروريا لاختبار النموذج لأنه يدفع حدود النظام ويكشف عن نقاط الفشل المحتملة. التقييم العدائي مهم بشكل خاص لحالات الهروب، والحقن السريع، والتعرض للمحتوى الضار، وغيرها من مخاطر السلامة أو الأمن.
تركز إرشادات Foundry الحالية على التعاون الأحمر للذكاء الاصطناعي في السحابة لإجراء اختبارات خصمية قبل نشره. يمكن لوكيل الفريق الأحمر الذكي توليد تنبيهات بأسلوب الهجوم واستخدام مقيمات السلامة لقياس ما إذا كان النموذج أو الوكيل سيفشل في تلك الاختبارات على نطاق واسع. توثق AdversarialSimulator Microsoft Learn أيضا سير العمل الكلاسيكي، لكن اعتبرها إرشادات قديمة أو كلاسيكية بدلا من سير العمل الافتراضي لمشاريع Foundry الجديدة.
ملحوظة
إذا لم يكن لديك بعد مجموعة بيانات إنتاجية، استخدم الإرشادات التي تتوافق مع سيناريوتك: