مشاركة عبر


كيفية إجراء تقييم في Azure DevOps (معاينة)

مهم

العناصر التي تم وضع علامة عليها (إصدار أولي) في هذه المقالة موجودة حالياً في الإصدار الأولي العام. يتم توفير هذه المعاينة دون اتفاقية على مستوى الخدمة، ولا نوصي بها لأحمال عمل الإنتاج. بعض الميزات ربما لا تكون مدعمة أو بها بعض القدرات المقيدة. لمزيد من المعلومات، راجع شروط الاستخدام الإضافية لمعاينات مايكروسوفت Azure.

يتيح هذا الامتداد Azure DevOps التقييم غير المتصلة ل Microsoft Foundry Agents داخل pipelines CI/CD الخاص بك. يبسط عملية التقييم غير المتصلة بالإنترنت، بحيث يمكنك تحديد المشكلات المحتملة وإجراء التحسينات قبل إصدار تحديث للإنتاج.

لاستخدام هذا الامتداد، قدم مجموعة بيانات تحتوي على استعلامات اختبار وقائمة بالتقييمين. تستدعي هذه المهمة وكلاءك بالاستفسارات، وتقييمها، وتولد تقريرا ملخصا.

الميزات

  • تقييم الوكلاء: قم بأتمتة تقييم ما قبل الإنتاج لوكلاء Microsoft Foundry في سير عمل CI/CD الخاص بك.
  • المقيمون: استخدم أي مقيمين من كتالوج مقيم Foundry.
  • التحليل الإحصائي: تتضمن نتائج التقييم فواصل الثقة واختبار الأهمية الإحصائية لتحديد ما إذا كانت التغييرات ذات مغزى وليس بسبب تباين عشوائي.

فئات المقيمين

المتطلبات المسبقه

المدخلات

المعلمات

الاسم مطلوب؟ وصف
azure-ai-project-endpoint ‏‏نعم‬ نقطة النهاية لمشروع Microsoft Foundry Project الخاص بك.
اسم النشر ‏‏نعم‬ اسم نشر نموذج الذكاء الاصطناعي في Azure لاستخدامه في التقييم.
مسار البيانات ‏‏نعم‬ المسار إلى ملف البيانات الذي يحتوي على المقيمين واستعلامات الإدخال للتقييمات.
معرفات الوكلاء ‏‏نعم‬ معرف وكيل أو أكثر لتقييمه في التنسيق agent-name:version (على سبيل المثال، my-agent:1 أو my-agent:1,my-agent:2). يتم فصل عدة وكلاء بفاصل ومقارنة النتائج الإحصائية للاختبار.
معرف خط الأساس-وكيل لا معرف الوكيل الأساسي للمقارنة عند تقييم عدة وكلاء. إذا لم يتم توفيره، يتم استخدام الوكيل الأول.

ملف البيانات

يجب أن يكون ملف بيانات الإدخال ملف JSON بالبنية التالية:

الحقل النوع مطلوب؟ وصف
الاسم string ‏‏نعم‬ اسم مجموعة بيانات التقييم.
المقيمون سلسلة[] ‏‏نعم‬ قائمة بأسماء المقيمين التي يمكن استخدامها. اطلع على قائمة المقيمين المتاحين في كتالوج المقيمين في project الخاص بك في بوابة Foundry: Build > Evaluations > Evaluator catalog.
البيانات الهدف[] ‏‏نعم‬ مصفوفة من كائنات الإدخال مع query حقول مقيم اختيارية مثل ground_truth، context. يتم تعيينه تلقائيا للمقيمين؛ كان يستخدم data_mapping لتجاوز الجهاز.
openai_graders object لا تكوين المقيمين المبنيين على OpenAI (label_model، score_model، string_check، إلخ).
evaluator_parameters object لا معلمات التهيئة الخاصة بالمقيم (مثل العتبات، الإعدادات المخصصة).
data_mapping object لا تعيينات حقول بيانات مخصصة (يتم توليدها تلقائيا من البيانات إذا لم تكن متوفرة).

ملف بيانات نموذجي أساسي


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

ملفات بيانات عينات إضافية

اسم الملف وصف
dataset-tiny.json مجموعة بيانات تحتوي على عدد قليل من استعلامات الاختبار والمقيمين.
dataset.json مجموعة بيانات تحتوي على جميع أنواع المقيمين المدعومين وعدد كاف من الاستعلامات لحساب فترة الثقة والاختبار الإحصائي.
dataset-builtin-evaluators.json مثال على مقيمين المصب المدمجين (مثل التماسك، الطلاقة، الصلة، الواقعية، المقاييس).
dataset-openai-graders.json مثال على مصححات OpenAI (نماذج التسميات، نماذج الدرجات، تشابه النص، فحوصات النص).
dataset-custom-evaluators.json مثال على المقيمين المخصصين مع معلمات المقيمين.
dataset-data-mapping.json مثال على تعيين البيانات يوضح كيفية تجاوز التعيين التلقائي للحقول باستخدام أسماء أعمدة بيانات مخصصة.

نموذج للبنية الأساسية لبرنامج ربط العمليات التجارية

لاستخدام هذا الامتداد Azure DevOps، أضف المهمة إلى خط أنابيب Azure الخاص بك وقم بتكوين المصادقة access project Microsoft Foundry.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

نتائج ومخرجات التقييم

تظهر نتائج التقييم في ملخص خط أنابيب Azure DevOps مع مقاييس مفصلة ومقارنات بين الوكلاء عند تقييم عدة وكلاء.

نتائج التقييم تخرج إلى قسم الملخص لكل مهمة تقييم ذكاء اصطناعي يتم تشغيلها في خط أنابيب Azure DevOps الخاص بك.

لقطة الشاشة التالية هي تقرير نموذجي لمقارنة وكيلين.

لقطة شاشة لنتيجة تقييم الوكيل.