ما هو تقييم عامل الذكاء الاصطناعي الفسيفساء؟

هام

هذه الميزة في المعاينة العامة.

تقدم هذه المقالة نظرة عامة حول كيفية العمل مع تقييم عامل الذكاء الاصطناعي الفسيفساء. يساعد تقييم العامل المطورين على تقييم جودة وتكلفة وزمن انتقال تطبيقات الذكاء الاصطناعي الوكيلة، بما في ذلك تطبيقات وسلاسل RAG. يتم توحيد قدرات تقييم العامل عبر مراحل التطوير والتقسيم المرحلي والإنتاج لدورة حياة MLOps، ويتم تسجيل جميع مقاييس التقييم وبياناته في MLflow Runs.

رسم تخطيطي LLMOps يعرض التقييم

التطبيقات الوكيلة معقدة وتتضمن العديد من المكونات المختلفة. تقييم أداء هذه التطبيقات ليس مباشرا مثل تقييم أداء نماذج التعلم الآلي التقليدية. كل من المقاييس النوعية والكمية التي تستخدم لتقييم الجودة هي بطبيعتها أكثر تعقيدا. يتضمن تقييم الوكيل قضاة LLM الخاصين ومقاييس الوكيل لتقييم جودة الاسترداد والطلب بالإضافة إلى مقاييس الأداء الإجمالية مثل زمن الانتقال وتكلفة الرمز المميز.

كيف أعمل استخدام تقييم العامل؟

توضح التعليمات البرمجية التالية كيفية استدعاء واختبار تقييم العامل على المخرجات التي تم إنشاؤها مسبقا. يقوم بإرجاع إطار بيانات مع درجات تقييم محسوبة من قبل قضاة LLM التي تعد جزءا من تقييم الوكيل.

يمكنك نسخ ولصق ما يلي في دفتر ملاحظات Databricks الحالي:

%pip install mlflow databricks-agents
dbutils.library.restartPython()

import mlflow
import pandas as pd

examples =  {
    "request": [
        "What is Spark?",
        "How do I convert a Spark DataFrame to Pandas?",
    ],
    "response": [
        "Spark is a data analytics framework.",
        "This is not possible as Spark is not a panda.",
    ],
    "retrieved_context": [ # Optional, needed for judging groundedness.
        [{"doc_uri": "doc1.txt", "content": "In 2013, Spark, a data analytics framework, was open sourced by UC Berkeley's AMPLab."}],
        [{"doc_uri": "doc2.txt", "content": "To convert a Spark DataFrame to Pandas, you can use toPandas()"}],
    ],
    "expected_response": [ # Optional, needed for judging correctness.
        "Spark is a data analytics framework.",
        "To convert a Spark DataFrame to Pandas, you can use the toPandas() method.",
    ]
}

result = mlflow.evaluate(
    data=pd.DataFrame(examples),    # Your evaluation set
    # model=logged_model.model_uri, # If you have an MLFlow model. `retrieved_context` and `response` will be obtained from calling the model.
    model_type="databricks-agent",  # Enable Mosaic AI Agent Evaluation
)

# Review the evaluation results in the MLFLow UI (see console output), or access them in place:
display(result.tables['eval_results'])

بدلا من ذلك، يمكنك استيراد دفتر الملاحظات التالي وتشغيله في مساحة عمل Databricks:

دفتر ملاحظات مثال تقييم عامل الفسيفساء الذكاء الاصطناعي

الحصول على دفتر الملاحظات

إثبات الحقيقة الأساسية باستخدام مجموعة تقييم

لقياس جودة تطبيق عاملي، تحتاج إلى تحديد شكل الاستجابة عالية الجودة والدقيقة. للقيام بذلك، يمكنك إنشاء مجموعة تقييم، وهي مجموعة من الأسئلة التمثيلية وإجابات الحقيقة الأساسية. إذا كان التطبيق يتضمن خطوة استرداد، كما هو الحال في مهام سير عمل RAG، فيمكنك اختياريا توفير المستندات الداعمة التي تتوقع أن تستند إليها الاستجابة.

للحصول على تفاصيل حول مجموعات التقييم، بما في ذلك المخطط وتبعيات القياس وأفضل الممارسات، راجع مجموعات التقييم.

تقييم الأداء باستخدام المقاييس الصحيحة

يتطلب تقييم تطبيق الذكاء الاصطناعي عدة مجموعات من المقاييس، بما في ذلك:

  • مقاييس الاستجابة، التي تقيس ما إذا كانت الاستجابة دقيقة، ومتسقة مع السياق المسترد (إن وجد)، وملائمة لطلب الإدخال.
  • مقاييس الاسترداد، التي تقيس ما إذا كانت خطوات الاسترداد (إن وجدت) قد أرجعت مجموعات ذات صلة بطلب الإدخال.
  • مقاييس الأداء، التي تقيس عدد الرموز المميزة عبر جميع استدعاءات إنشاء LLM وزمن الانتقال في ثوان للتتبع.

للحصول على تفاصيل حول المقاييس وقضاة LLM، راجع استخدام مقاييس الوكيل وقضاة LLM لتقييم أداء التطبيق.

عمليات تشغيل التقييم

للحصول على تفاصيل حول كيفية تشغيل تقييم، راجع كيفية تشغيل تقييم وعرض النتائج. يدعم تقييم العامل خيارين لتوفير الإخراج من السلسلة:

  • يمكنك تشغيل التطبيق كجزء من تشغيل التقييم. ينشئ التطبيق نتائج لكل إدخال في مجموعة التقييم.
  • يمكنك توفير الإخراج من تشغيل سابق للتطبيق.

للحصول على تفاصيل وشرح وقت استخدام كل خيار، راجع كيفية توفير إدخال لتشغيل تقييم.

الحصول على ملاحظات بشرية حول جودة تطبيق GenAI

يسهل تطبيق مراجعة Databricks جمع الملاحظات حول جودة تطبيق عامل من مراجعين بشريين. للحصول على التفاصيل، راجع الحصول على ملاحظات حول جودة تطبيق عاملي.

التوفر الجغرافي لميزات المساعد

الفسيفساء الذكاء الاصطناعي تقييم العامل هي خدمة معينة تستخدم Geos لإدارة موقع البيانات عند معالجة محتوى العميل. لمعرفة المزيد حول توفر تقييم العامل في مناطق جغرافية مختلفة، راجع خدمات Databricks المعينة.

التسعير

للحصول على معلومات التسعير، راجع الفسيفساء الذكاء الاصطناعي أسعار تقييم العامل.

القيد

تقييم العامل غير متوفر في مساحات العمل الممكنة ل HIPAA.

معلومات حول النماذج التي تدعم قضاة LLM

  • قد يستخدم قضاة LLM خدمات الجهات الخارجية لتقييم تطبيقات GenAI الخاصة بك، بما في ذلك Azure OpenAI التي تديرها Microsoft.
  • بالنسبة إلى Azure OpenAI، تم إلغاء اشتراك Databricks في مراقبة إساءة الاستخدام بحيث لا يتم تخزين أي مطالبات أو استجابات مع Azure OpenAI.
  • بالنسبة لمساحات عمل الاتحاد الأوروبي، يستخدم قضاة LLM النماذج المستضافة في الاتحاد الأوروبي. تستخدم جميع المناطق الأخرى النماذج المستضافة في الولايات المتحدة.
  • يؤدي تعطيل الميزات المساعدة الذكاء الاصطناعي المدعومة من Azure الذكاء الاصطناعي إلى منع قاضي LLM من استدعاء نماذج مدعومة من Azure الذكاء الاصطناعي.
  • لا تستخدم البيانات المرسلة إلى قاضي LLM لأي تدريب نموذجي.
  • يهدف قضاة LLM إلى مساعدة العملاء على تقييم تطبيقات RAG الخاصة بهم، ولا ينبغي استخدام مخرجات قاضي LLM لتدريب أو تحسين أو ضبط LLM.