الملخص

مكتمل

يتطلب تقييم تطبيقات الذكاء الاصطناعي التوليدي أكثر من درجة واحدة. تحتاج إلى بيانات تمثيلية، ومزيج مقيم مناسب، وطريقة منضبطة لتفسير النتائج. يدعم Microsoft Foundry سير عمل التقييم القائم على البوابات وSDK، بينما يساعدك كتالوج المقيم المدمج في تقييم جودة الكتابة، والتشابه مع الحقيقة الأرضية، وسلوك RAG، والسلامة، وسلوك الوكلاء.

أكثر الممارسات فعالية للتقييم تجمع بين التشغيلات الآلية والمراجعة البشرية المستهدفة. استخدم البيانات الواقعية عندما يكون ذلك ممكنا، وأضف إليها بيانات اصطناعية عندما تكون التغطية محدودة، واستخدم الذكاء الاصطناعي أو اختبارات خصمية أخرى عند الحاجة لفحص مخاطر السلامة والأمن، وقارن التجارب مع خط أساس مستقر قبل أن تقرر تغييرا لتحسين النظام.

قبل أن تنفذ سير العمل، تأكد من المدخلات المطلوبة لكل مقيم ودعم الهدف، حالة المعاينة، ودعم المنطقة في إرشادات Microsoft Learn الحالية. هذا الفحص مهم جدا لتقييم السحابة، والسلامة، وسير عمل الفريق الأحمر، والمقيمين المخصصين، والمصححين، وبعض المقيمين المتخصصين في الوكلاء.

بمجرد حصولك على النتائج، حولها إلى عمل. حسن الاسترجاع عندما تكون التأريض أو الصلة ضعيفة، وتعزيز تعليمات السلامة والتصفية عندما يكشف مقيمو الأضرار عن المخاطر، وأضف مقيمين مخصصين عندما تتجاوز معايير عملك الكتالوج المدمج.

معرفة المزيد