كيفية إجراء تقييم في Azure DevOps (معاينة)

مهم

العناصر التي تم وضع علامة عليها (إصدار أولي) في هذه المقالة موجودة حالياً في الإصدار الأولي العام. يتم توفير هذه المعاينة دون اتفاقية على مستوى الخدمة، ولا نوصي بها لأحمال عمل الإنتاج. بعض الميزات ربما لا تكون مدعمة أو بها بعض القدرات المقيدة. لمزيد من المعلومات، راجع شروط الاستخدام الإضافية لمعاينات مايكروسوفت Azure.

يتيح هذا الامتداد Azure DevOps التقييم غير المتصلة ل Microsoft Foundry Agents داخل pipelines CI/CD الخاص بك. يبسط عملية التقييم غير المتصلة بالإنترنت، بحيث يمكنك تحديد المشكلات المحتملة وإجراء التحسينات قبل إصدار تحديث للإنتاج.

لاستخدام هذا الامتداد، قدم مجموعة بيانات تحتوي على استعلامات اختبار وقائمة بالتقييمين. تستدعي هذه المهمة وكلاءك بالاستفسارات، وتقييمها، وتولد تقريرا ملخصا.

الميزات

تقييم الوكلاء: قم بأتمتة تقييم ما قبل الإنتاج لوكلاء Microsoft Foundry في سير عمل CI/CD الخاص بك.
المقيمون: استخدم أي مقيمين من كتالوج مقيم Foundry.
التحليل الإحصائي: تتضمن نتائج التقييم فواصل الثقة واختبار الأهمية الإحصائية لتحديد ما إذا كانت التغييرات ذات مغزى وليس بسبب تباين عشوائي.

فئات المقيمين

مقيمو الوكلاء: مقيمون على مستوى العمليات والنظام لسير عمل الوكلاء.
مقيمو RAG: يقومون بتقييم عمليات السحب من البداية إلى النهاية في أنظمة RAG.
مقيمو المخاطر والسلامة: يقيمون المخاطر والمخاوف المتعلقة بالسلامة في الاستجابات.
General purpose المقيمون: تقييم الجودة مثل التماسك والطلاقة.
OpenAI المصححون: استخدم مصححات OpenAI بما في ذلك فحص النصوص، تشابه النص، ونموذج الدرجات/التسمية.
المقيمون المخصصون: حدد مقيمين مخصصين باستخدام كود بايثون أو أنماط نموذج اللغة الكبيرة كحكم.

المتطلبات المسبقه

A project. لمعرفة المزيد، راجع إنشاء project.
قم بتثبيت إضافة تقييم AI Agent AI للذكاء الاصطناعي.

المدخلات

المعلمات

الاسم	مطلوب؟	وصف
azure-ai-project-endpoint	‏‏نعم‬	نقطة النهاية لمشروع Microsoft Foundry Project الخاص بك.
اسم النشر	‏‏نعم‬	اسم نشر نموذج الذكاء الاصطناعي في Azure لاستخدامه في التقييم.
مسار البيانات	‏‏نعم‬	المسار إلى ملف البيانات الذي يحتوي على المقيمين واستعلامات الإدخال للتقييمات.
معرفات الوكلاء	‏‏نعم‬	معرف وكيل أو أكثر لتقييمه في التنسيق `agent-name:version` (على سبيل المثال، `my-agent:1` أو `my-agent:1,my-agent:2`). يتم فصل عدة وكلاء بفاصل ومقارنة النتائج الإحصائية للاختبار.
معرف خط الأساس-وكيل	لا	معرف الوكيل الأساسي للمقارنة عند تقييم عدة وكلاء. إذا لم يتم توفيره، يتم استخدام الوكيل الأول.

ملف البيانات

يجب أن يكون ملف بيانات الإدخال ملف JSON بالبنية التالية:

الحقل	النوع	مطلوب؟	وصف
الاسم	string	‏‏نعم‬	اسم مجموعة بيانات التقييم.
المقيمون	سلسلة[]	‏‏نعم‬	قائمة بأسماء المقيمين التي يمكن استخدامها. اطلع على قائمة المقيمين المتاحين في كتالوج المقيمين في project الخاص بك في بوابة Foundry: Build > Evaluations > Evaluator catalog.
البيانات	الهدف[]	‏‏نعم‬	مصفوفة من كائنات الإدخال مع `query` حقول مقيم اختيارية مثل `ground_truth`، `context`. يتم تعيينه تلقائيا للمقيمين؛ كان يستخدم `data_mapping` لتجاوز الجهاز.
openai_graders	object	لا	تكوين المقيمين المبنيين على OpenAI (label_model، score_model، string_check، إلخ).
evaluator_parameters	object	لا	معلمات التهيئة الخاصة بالمقيم (مثل العتبات، الإعدادات المخصصة).
data_mapping	object	لا	تعيينات حقول بيانات مخصصة (يتم توليدها تلقائيا من البيانات إذا لم تكن متوفرة).

ملف بيانات نموذجي أساسي


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

ملفات بيانات عينات إضافية

اسم الملف	وصف
dataset-tiny.json	مجموعة بيانات تحتوي على عدد قليل من استعلامات الاختبار والمقيمين.
dataset.json	مجموعة بيانات تحتوي على جميع أنواع المقيمين المدعومين وعدد كاف من الاستعلامات لحساب فترة الثقة والاختبار الإحصائي.
dataset-builtin-evaluators.json	مثال على مقيمين المصب المدمجين (مثل التماسك، الطلاقة، الصلة، الواقعية، المقاييس).
dataset-openai-graders.json	مثال على مصححات OpenAI (نماذج التسميات، نماذج الدرجات، تشابه النص، فحوصات النص).
dataset-custom-evaluators.json	مثال على المقيمين المخصصين مع معلمات المقيمين.
dataset-data-mapping.json	مثال على تعيين البيانات يوضح كيفية تجاوز التعيين التلقائي للحقول باستخدام أسماء أعمدة بيانات مخصصة.

نموذج للبنية الأساسية لبرنامج ربط العمليات التجارية

لاستخدام هذا الامتداد Azure DevOps، أضف المهمة إلى خط أنابيب Azure الخاص بك وقم بتكوين المصادقة access project Microsoft Foundry.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

نتائج ومخرجات التقييم

تظهر نتائج التقييم في ملخص خط أنابيب Azure DevOps مع مقاييس مفصلة ومقارنات بين الوكلاء عند تقييم عدة وكلاء.

نتائج التقييم تخرج إلى قسم الملخص لكل مهمة تقييم ذكاء اصطناعي يتم تشغيلها في خط أنابيب Azure DevOps الخاص بك.

لقطة الشاشة التالية هي تقرير نموذجي لمقارنة وكيلين.

الملاحظات

هل كانت هذه الصفحة مفيدة؟

Last updated on 2026-03-11