الحصول على ملاحظات حول جودة تطبيق عامل

مقالة
10/24/2024

هام

هذه الميزة في المعاينة العامة.

توضح لك هذه المقالة كيفية استخدام تطبيق مراجعة Databricks لجمع الملاحظات من المراجعين البشريين حول جودة تطبيقك الوكيل. وهو يغطي ما يلي:

كيفية نشر تطبيق المراجعة.
كيفية استخدام المراجعين للتطبيق لتقديم ملاحظات حول استجابات التطبيق العامل.
كيف يمكن للخبراء مراجعة الدردشات المسجلة لتقديم اقتراحات للتحسين والملاحظات الأخرى باستخدام التطبيق.

ماذا يحدث في التقييم البشري؟

يقوم تطبيق Databricks بمراجعة مراحل LLM في بيئة حيث يمكن للمساهمين الخبراء التفاعل معها - بمعنى آخر، إجراء محادثة وطرح الأسئلة وتقديم الملاحظات وما إلى ذلك. يسجل تطبيق المراجعة جميع الأسئلة والأجوبة والملاحظات في جدول استدلال حتى تتمكن من تحليل أداء LLM بشكل أكبر. وبهذه الطريقة، يساعد تطبيق المراجعة على ضمان جودة الإجابات التي يوفرها تطبيقك وسلامتها.

يمكن للمساهمين الدردشة مع روبوت التطبيق وتقديم ملاحظات حول هذه المحادثات، أو تقديم ملاحظات حول السجلات التاريخية أو التتبعات المنسقة أو مخرجات الوكيل.

المتطلبات

يجب تمكين جداول الاستدلال على نقطة النهاية التي تخدم العامل.
يجب أن يكون لكل مراجع بشري حق الوصول إلى مساحة عمل تطبيق المراجعة أو مزامنته مع حساب Databricks الخاص بك مع SCIM. راجع القسم التالي، إعداد الأذونات لاستخدام تطبيق المراجعة.
يجب على databricks-agents المطورين تثبيت SDK لإعداد الأذونات وتكوين تطبيق المراجعة.
```
%pip install databricks-agents
dbutils.library.restartPython()
```

إعداد الأذونات لاستخدام تطبيق المراجعة

إشعار

لا يتطلب المراجعون البشريون الوصول إلى مساحة العمل لاستخدام تطبيق المراجعة.

يمكنك منح حق الوصول إلى تطبيق المراجعة لأي مستخدم في حساب Databricks الخاص بك، حتى إذا لم يكن لديه حق الوصول إلى مساحة العمل التي تحتوي على تطبيق المراجعة.

بالنسبة للمستخدمين الذين ليس لديهم حق الوصول إلى مساحة العمل، يستخدم مسؤول الحساب توفير SCIM على مستوى الحساب لمزامنة المستخدمين والمجموعات تلقائيا من موفر الهوية إلى حساب Azure Databricks الخاص بك. يمكنك أيضا تسجيل هؤلاء المستخدمين والمجموعات يدويا لمنحهم حق الوصول عند إعداد الهويات في Databricks. راجع مزامنة المستخدمين والمجموعات من معرف Microsoft Entra.
بالنسبة للمستخدمين الذين لديهم حق الوصول إلى مساحة العمل التي تحتوي على تطبيق المراجعة، لا يلزم تكوين إضافي.

يوضح مثال التعليمات البرمجية التالي كيفية منح المستخدمين الإذن لتطبيق المراجعة لأحد الوكلاء. users تأخذ المعلمة قائمة بعناوين البريد الإلكتروني.

from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)

لمراجعة سجل دردشة، يجب أن يكون لدى CAN_REVIEW المستخدم الإذن.

نشر تطبيق المراجعة

عند نشر عامل باستخدام agents.deploy()، يتم تمكين تطبيق المراجعة ونشره تلقائيا. يظهر الإخراج من الأمر عنوان URL لتطبيق المراجعة. للحصول على معلومات حول نشر عامل، راجع نشر عامل لتطبيق الذكاء الاصطناعي التوليدي.

ارتباط لمراجعة التطبيق من إخراج أمر دفتر الملاحظات

إذا فقدت الارتباط إلى النشر، يمكنك العثور عليه باستخدام list_deployments().

from databricks import agents

deployments = agents.list_deployments()
deployments

مراجعة واجهة مستخدم التطبيق

لفتح تطبيق المراجعة، انقر فوق عنوان URL المتوفر. تحتوي واجهة مستخدم تطبيق المراجعة على ثلاث علامات تبويب في الشريط الجانبي الأيسر:

تعرض الإرشادات الإرشادات للمراجع. راجع توفير إرشادات للمراجعين.
دردشات لمراجعة يعرض السجلات من تفاعلات المراجعين مع التطبيق للخبراء لتقييمها. راجع مراجعة الخبراء للسجلات من تفاعلات المستخدم الآخر مع التطبيق.
اختبر الروبوت يتيح للمراجعين الدردشة مع التطبيق وإرسال مراجعات لردوده. راجع الدردشة مع التطبيق وإرسال المراجعات.

عند فتح تطبيق المراجعة، تظهر صفحة الإرشادات.

للدردشة مع الروبوت، انقر فوق بدء المراجعة، أو حدد اختبار الروبوت من الشريط الجانبي الأيسر. راجع الدردشة مع التطبيق وإرسال المراجعات لمزيد من التفاصيل.
لمراجعة سجلات الدردشة التي تم توفيرها لمراجعتك، حدد الدردشات لمراجعتها في الشريط الجانبي. راجع مراجعة الخبراء للسجلات من تفاعلات المستخدم الآخر مع التطبيق للحصول على التفاصيل. لمعرفة كيفية إتاحة سجلات الدردشة من تطبيق المراجعة، راجع إتاحة سجلات الدردشة للتقييم من قبل مراجعي الخبراء.

مراجعة شاشة فتح التطبيق

توفير إرشادات للمراجعين

لتوفير نص مخصص للإرشادات المعروضة للمراجعين، استخدم التعليمات البرمجية التالية:

from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

لقطة شاشة لإرشادات تطبيق المراجعة التي حددت مثال Python.

الدردشة مع التطبيق وإرسال المراجعات

للدردشة مع التطبيق وإرسال المراجعات:

انقر فوق Test the bot في الشريط الجانبي الأيسر.
اكتب سؤالك في المربع واضغط على Return أو Enter على لوحة المفاتيح، أو انقر فوق السهم الموجود في المربع. يعرض التطبيق إجابته على سؤالك، والمصادر التي استخدمها للعثور على الإجابة.
راجع إجابة التطبيق، وحدد نعم أو لا أو لا أعرف.
يطلب التطبيق معلومات إضافية. حدد المربعات المناسبة أو اكتب تعليقاتك في الحقل المتوفر.
يمكنك أيضا تحرير الاستجابة مباشرة لتوفير إجابة أفضل. لتحرير الاستجابة، انقر فوق تحرير الاستجابة، وقم بإجراء التغييرات في مربع الحوار، وانقر فوق حفظ، كما هو موضح في الفيديو التالي.
انقر فوق تم لحفظ ملاحظاتك.
استمر في طرح الأسئلة لتقديم ملاحظات إضافية.

يوضح الرسم التخطيطي التالي سير العمل هذا.

باستخدام تطبيق المراجعة، يقوم المراجع بالدردشة مع التطبيق العامل.
باستخدام تطبيق المراجعة، يقدم المراجع ملاحظات حول استجابات التطبيق.
يتم تسجيل جميع الطلبات والاستجابات والملاحظات في جداول الاستدلال.

قم بتشغيل تطبيق المراجعة الذي يقوم فيه الخبراء بالدردشة مع التطبيق العامل وتقديم الملاحظات.

إتاحة سجلات الدردشة للتقييم من قبل مراجعي الخبراء

عندما يتفاعل مستخدم مع التطبيق باستخدام واجهة برمجة تطبيقات REST أو تطبيق المراجعة، يتم حفظ جميع الطلبات والاستجابات والملاحظات الإضافية في جداول الاستدلال. توجد جداول الاستدلال في نفس كتالوج ومخطط كتالوج Unity حيث تم تسجيل النموذج واسمه <model_name>_payloadو <model_name>_payload_assessment_logsو <model_name>_payload_request_logs. لمزيد من المعلومات حول هذه الجداول، بما في ذلك المخططات، راجع جداول الاستدلال المحسنة من قبل العامل.

لتحميل هذه السجلات في تطبيق المراجعة للتقييم من قبل مراجعي الخبراء، يجب أولا العثور على request_id وتمكين المراجعات لذلك request_id كما يلي:

حدد موقع s request_idالمراد مراجعتها من <model_name>_payload_request_logs جدول الاستدلال. يوجد جدول الاستدلال في نفس كتالوج ومخطط كتالوج Unity حيث تم تسجيل النموذج.

استخدم التعليمات البرمجية المشابهة للآتي لتحميل سجلات المراجعة في تطبيق المراجعة:

from databricks import agents

agents.enable_trace_reviews(
  model_name=model_fqn,
  request_ids=[
      "52ee973e-0689-4db1-bd05-90d60f94e79f",
      "1b203587-7333-4721-b0d5-bba161e4643a",
      "e68451f4-8e7b-4bfc-998e-4bda66992809",
  ],
)

تتضمن خلية النتيجة ارتباطا إلى تطبيق المراجعة مع السجلات المحددة التي تم تحميلها للمراجعة.

مراجعة التطبيق مع تحميل سجلات الدردشة لمراجعة الخبراء

مراجعة الخبراء للسجلات من تفاعلات المستخدم الآخر مع التطبيق

لمراجعة السجلات من الدردشات السابقة، يجب تمكين السجلات للمراجعة. راجع إتاحة سجلات الدردشة للتقييم من قبل مراجعي الخبراء.

في الشريط الجانبي الأيسر من تطبيق المراجعة، حدد الدردشات للمراجعة. يتم عرض الطلبات الممكنة.
انقر فوق طلب لعرضه للمراجعة.
راجع الطلب والاستجابة. يعرض التطبيق أيضا المصادر التي استخدمها للرجوع إليها. يمكنك النقر فوقها لمراجعة المرجع، وتقديم ملاحظات حول صلة المصدر.
لتقديم ملاحظات حول جودة الاستجابة، حدد نعم أو لا أو لا أعرف.
يطلب التطبيق معلومات إضافية. حدد المربعات المناسبة أو اكتب تعليقاتك في الحقل المتوفر.
يمكنك أيضا تحرير الاستجابة مباشرة لتوفير إجابة أفضل. لتحرير الاستجابة، انقر فوق تحرير الاستجابة، وقم بإجراء التغييرات في مربع الحوار، ثم انقر فوق حفظ. راجع الدردشة مع التطبيق وإرسال مراجعات لفيديو يعرض العملية.
انقر فوق تم لحفظ ملاحظاتك.

يوضح الرسم التخطيطي التالي سير العمل هذا.

باستخدام تطبيق المراجعة أو التطبيق المخصص، يقوم المراجعون بالدردشة مع التطبيق العامل.
يتم تسجيل جميع الطلبات والاستجابات إلى جداول الاستدلال.
يستخدم enable_trace_reviews([request_id]) مطور التطبيق (حيث request_id هو من <model_name>_payload_request_logs جدول الاستدلال) لنشر سجلات الدردشة لمراجعة التطبيق.
باستخدام تطبيق المراجعة، يقوم الخبراء بمراجعة السجلات وتقديم الملاحظات. يتم تسجيل ملاحظات الخبراء في جداول الاستدلال.

قم بتشغيل مراجعة تتبع يتفاعل فيها المراجعون إما مع تطبيق المراجعة أو واجهة برمجة تطبيقات REST لتقديم الملاحظات.

إشعار

إذا كان لديك Azure Storage Firewall ممكنا، فتواصل مع فريق حساب Azure Databricks لتمكين جداول الاستدلال لنقاط النهاية الخاصة بك.

استخدم `mlflow.evaluate()` في جدول سجلات الطلبات

يوضح دفتر الملاحظات التالي كيفية استخدام السجلات من تطبيق المراجعة كمدخل لتشغيل تقييم باستخدام mlflow.evaluate().

تشغيل التقييم على دفتر ملاحظات سجلات الطلبات

الحصول على دفتر الملاحظات

مشاركة عبر

الحصول على ملاحظات حول جودة تطبيق عامل

ماذا يحدث في التقييم البشري؟

المتطلبات

إعداد الأذونات لاستخدام تطبيق المراجعة

نشر تطبيق المراجعة

مراجعة واجهة مستخدم التطبيق

توفير إرشادات للمراجعين

الدردشة مع التطبيق وإرسال المراجعات

إتاحة سجلات الدردشة للتقييم من قبل مراجعي الخبراء

مراجعة الخبراء للسجلات من تفاعلات المستخدم الآخر مع التطبيق

استخدم `mlflow.evaluate()` في جدول سجلات الطلبات

تشغيل التقييم على دفتر ملاحظات سجلات الطلبات

الملاحظات

الموارد الإضافية

مشاركة عبر

الحصول على ملاحظات حول جودة تطبيق عامل

ماذا يحدث في التقييم البشري؟

المتطلبات

إعداد الأذونات لاستخدام تطبيق المراجعة

نشر تطبيق المراجعة

مراجعة واجهة مستخدم التطبيق

توفير إرشادات للمراجعين

الدردشة مع التطبيق وإرسال المراجعات

إتاحة سجلات الدردشة للتقييم من قبل مراجعي الخبراء

مراجعة الخبراء للسجلات من تفاعلات المستخدم الآخر مع التطبيق

استخدم mlflow.evaluate() في جدول سجلات الطلبات

تشغيل التقييم على دفتر ملاحظات سجلات الطلبات

الملاحظات

الموارد الإضافية

استخدم `mlflow.evaluate()` في جدول سجلات الطلبات