إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
مهم
العناصر التي تم وضع علامة عليها (إصدار أولي) في هذه المقالة موجودة حالياً في الإصدار الأولي العام. يتم توفير هذه المعاينة دون اتفاقية على مستوى الخدمة، ولا نوصي بها لأحمال عمل الإنتاج. بعض الميزات ربما لا تكون مدعمة أو بها بعض القدرات المقيدة. لمزيد من المعلومات، راجع شروط الاستخدام الإضافية لمعاينات مايكروسوفت Azure.
يتيح هذا الامتداد Azure DevOps التقييم غير المتصلة ل Microsoft Foundry Agents داخل pipelines CI/CD الخاص بك. يبسط عملية التقييم غير المتصلة بالإنترنت، بحيث يمكنك تحديد المشكلات المحتملة وإجراء التحسينات قبل إصدار تحديث للإنتاج.
لاستخدام هذا الامتداد، قدم مجموعة بيانات تحتوي على استعلامات اختبار وقائمة بالتقييمين. تستدعي هذه المهمة وكلاءك بالاستفسارات، وتقييمها، وتولد تقريرا ملخصا.
الميزات
- تقييم الوكلاء: قم بأتمتة تقييم ما قبل الإنتاج لوكلاء Microsoft Foundry في سير عمل CI/CD الخاص بك.
- المقيمون: استخدم أي مقيمين من كتالوج مقيم Foundry.
- التحليل الإحصائي: تتضمن نتائج التقييم فواصل الثقة واختبار الأهمية الإحصائية لتحديد ما إذا كانت التغييرات ذات مغزى وليس بسبب تباين عشوائي.
فئات المقيمين
- مقيمو الوكلاء: مقيمون على مستوى العمليات والنظام لسير عمل الوكلاء.
- مقيمو RAG: يقومون بتقييم عمليات السحب من البداية إلى النهاية في أنظمة RAG.
- مقيمو المخاطر والسلامة: يقيمون المخاطر والمخاوف المتعلقة بالسلامة في الاستجابات.
- General purpose المقيمون: تقييم الجودة مثل التماسك والطلاقة.
- OpenAI المصححون: استخدم مصححات OpenAI بما في ذلك فحص النصوص، تشابه النص، ونموذج الدرجات/التسمية.
- المقيمون المخصصون: حدد مقيمين مخصصين باستخدام كود بايثون أو أنماط نموذج اللغة الكبيرة كحكم.
المتطلبات المسبقه
- A project. لمعرفة المزيد، راجع إنشاء project.
- قم بتثبيت إضافة تقييم AI Agent AI للذكاء الاصطناعي.
المدخلات
المعلمات
| الاسم | مطلوب؟ | وصف |
|---|---|---|
| azure-ai-project-endpoint | نعم | نقطة النهاية لمشروع Microsoft Foundry Project الخاص بك. |
| اسم النشر | نعم | اسم نشر نموذج الذكاء الاصطناعي في Azure لاستخدامه في التقييم. |
| مسار البيانات | نعم | المسار إلى ملف البيانات الذي يحتوي على المقيمين واستعلامات الإدخال للتقييمات. |
| معرفات الوكلاء | نعم | معرف وكيل أو أكثر لتقييمه في التنسيق agent-name:version (على سبيل المثال، my-agent:1 أو my-agent:1,my-agent:2). يتم فصل عدة وكلاء بفاصل ومقارنة النتائج الإحصائية للاختبار. |
| معرف خط الأساس-وكيل | لا | معرف الوكيل الأساسي للمقارنة عند تقييم عدة وكلاء. إذا لم يتم توفيره، يتم استخدام الوكيل الأول. |
ملف البيانات
يجب أن يكون ملف بيانات الإدخال ملف JSON بالبنية التالية:
| الحقل | النوع | مطلوب؟ | وصف |
|---|---|---|---|
| الاسم | string | نعم | اسم مجموعة بيانات التقييم. |
| المقيمون | سلسلة[] | نعم | قائمة بأسماء المقيمين التي يمكن استخدامها. اطلع على قائمة المقيمين المتاحين في كتالوج المقيمين في project الخاص بك في بوابة Foundry: Build > Evaluations > Evaluator catalog. |
| البيانات | الهدف[] | نعم | مصفوفة من كائنات الإدخال مع query حقول مقيم اختيارية مثل ground_truth، context. يتم تعيينه تلقائيا للمقيمين؛ كان يستخدم data_mapping لتجاوز الجهاز. |
| openai_graders | object | لا | تكوين المقيمين المبنيين على OpenAI (label_model، score_model، string_check، إلخ). |
| evaluator_parameters | object | لا | معلمات التهيئة الخاصة بالمقيم (مثل العتبات، الإعدادات المخصصة). |
| data_mapping | object | لا | تعيينات حقول بيانات مخصصة (يتم توليدها تلقائيا من البيانات إذا لم تكن متوفرة). |
ملف بيانات نموذجي أساسي
{
"name": "test-data",
"evaluators": [
"builtin.fluency",
"builtin.task_adherence",
"builtin.violence",
],
"data": [
{
"query": "Tell me about Tokyo disneyland"
},
{
"query": "How do I install Python?"
}
]
}
ملفات بيانات عينات إضافية
| اسم الملف | وصف |
|---|---|
| dataset-tiny.json | مجموعة بيانات تحتوي على عدد قليل من استعلامات الاختبار والمقيمين. |
| dataset.json | مجموعة بيانات تحتوي على جميع أنواع المقيمين المدعومين وعدد كاف من الاستعلامات لحساب فترة الثقة والاختبار الإحصائي. |
| dataset-builtin-evaluators.json | مثال على مقيمين المصب المدمجين (مثل التماسك، الطلاقة، الصلة، الواقعية، المقاييس). |
| dataset-openai-graders.json | مثال على مصححات OpenAI (نماذج التسميات، نماذج الدرجات، تشابه النص، فحوصات النص). |
| dataset-custom-evaluators.json | مثال على المقيمين المخصصين مع معلمات المقيمين. |
| dataset-data-mapping.json | مثال على تعيين البيانات يوضح كيفية تجاوز التعيين التلقائي للحقول باستخدام أسماء أعمدة بيانات مخصصة. |
نموذج للبنية الأساسية لبرنامج ربط العمليات التجارية
لاستخدام هذا الامتداد Azure DevOps، أضف المهمة إلى خط أنابيب Azure الخاص بك وقم بتكوين المصادقة access project Microsoft Foundry.
steps:
- task: AIAgentEvaluation@2
displayName: "Evaluate AI Agents"
inputs:
azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
deployment-name: "$(DeploymentName)"
data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
agent-ids: "$(AgentIds)"
نتائج ومخرجات التقييم
تظهر نتائج التقييم في ملخص خط أنابيب Azure DevOps مع مقاييس مفصلة ومقارنات بين الوكلاء عند تقييم عدة وكلاء.
نتائج التقييم تخرج إلى قسم الملخص لكل مهمة تقييم ذكاء اصطناعي يتم تشغيلها في خط أنابيب Azure DevOps الخاص بك.
لقطة الشاشة التالية هي تقرير نموذجي لمقارنة وكيلين.