الحصول على ملاحظات حول جودة تطبيق عامل
توضح لك هذه المقالة كيفية استخدام تطبيق مراجعة Databricks لجمع الملاحظات من المراجعين البشريين حول جودة تطبيقك الوكيل. وهو يغطي ما يلي:
- كيفية نشر تطبيق المراجعة.
- كيفية استخدام المراجعين للتطبيق لتقديم ملاحظات حول استجابات التطبيق العامل.
- كيف يمكن للخبراء مراجعة الدردشات المسجلة لتقديم اقتراحات للتحسين والملاحظات الأخرى باستخدام التطبيق.
ماذا يحدث في التقييم البشري؟
يقوم تطبيق Databricks بمراجعة مراحل LLM في بيئة حيث يمكن للمساهمين الخبراء التفاعل معها - بمعنى آخر، إجراء محادثة وطرح الأسئلة وتقديم الملاحظات وما إلى ذلك. يسجل تطبيق المراجعة جميع الأسئلة والأجوبة والملاحظات في جدول استدلال حتى تتمكن من تحليل أداء LLM بشكل أكبر. وبهذه الطريقة، يساعد تطبيق المراجعة على ضمان جودة الإجابات التي يوفرها تطبيقك وسلامتها.
يمكن للمساهمين الدردشة مع روبوت التطبيق وتقديم ملاحظات حول هذه المحادثات، أو تقديم ملاحظات حول السجلات التاريخية أو التتبعات المنسقة أو مخرجات الوكيل.
المتطلبات
يجب تمكين جداول الاستدلال على نقطة النهاية التي تخدم العامل.
يجب أن يكون لكل مراجع بشري حق الوصول إلى مساحة عمل تطبيق المراجعة أو مزامنته مع حساب Databricks الخاص بك مع SCIM. راجع القسم التالي، إعداد الأذونات لاستخدام تطبيق المراجعة.
يجب على
databricks-agents
المطورين تثبيت SDK لإعداد الأذونات وتكوين تطبيق المراجعة.%pip install databricks-agents dbutils.library.restartPython()
إعداد الأذونات لاستخدام تطبيق المراجعة
إشعار
لا يتطلب المراجعون البشريون الوصول إلى مساحة العمل لاستخدام تطبيق المراجعة.
يمكنك منح حق الوصول إلى تطبيق المراجعة لأي مستخدم في حساب Databricks الخاص بك، حتى إذا لم يكن لديه حق الوصول إلى مساحة العمل التي تحتوي على تطبيق المراجعة.
- بالنسبة للمستخدمين الذين ليس لديهم حق الوصول إلى مساحة العمل، يستخدم مسؤول الحساب توفير SCIM على مستوى الحساب لمزامنة المستخدمين والمجموعات تلقائيا من موفر الهوية إلى حساب Azure Databricks الخاص بك. يمكنك أيضا تسجيل هؤلاء المستخدمين والمجموعات يدويا لمنحهم حق الوصول عند إعداد الهويات في Databricks. راجع مزامنة المستخدمين والمجموعات من معرف Microsoft Entra.
- بالنسبة للمستخدمين الذين لديهم حق الوصول إلى مساحة العمل التي تحتوي على تطبيق المراجعة، لا يلزم تكوين إضافي.
يوضح مثال التعليمات البرمجية التالي كيفية منح المستخدمين الإذن لتطبيق المراجعة لأحد الوكلاء. users
تأخذ المعلمة قائمة بعناوين البريد الإلكتروني.
from databricks import agents
# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)
لمراجعة سجل دردشة، يجب أن يكون لدى CAN_REVIEW
المستخدم الإذن.
نشر تطبيق المراجعة
عند نشر عامل باستخدام agents.deploy()
، يتم تمكين تطبيق المراجعة ونشره تلقائيا. يظهر الإخراج من الأمر عنوان URL لتطبيق المراجعة. للحصول على معلومات حول نشر عامل، راجع نشر عامل لتطبيق الذكاء الاصطناعي التوليدي.
إذا فقدت الارتباط إلى النشر، يمكنك العثور عليه باستخدام list_deployments()
.
from databricks import agents
deployments = agents.list_deployments()
deployments
مراجعة واجهة مستخدم التطبيق
لفتح تطبيق المراجعة، انقر فوق عنوان URL المتوفر. تحتوي واجهة مستخدم تطبيق المراجعة على ثلاث علامات تبويب في الشريط الجانبي الأيسر:
- تعرض الإرشادات الإرشادات للمراجع. راجع توفير إرشادات للمراجعين.
- دردشات لمراجعة يعرض السجلات من تفاعلات المراجعين مع التطبيق للخبراء لتقييمها. راجع مراجعة الخبراء للسجلات من تفاعلات المستخدم الآخر مع التطبيق.
- اختبر الروبوت يتيح للمراجعين الدردشة مع التطبيق وإرسال مراجعات لردوده. راجع الدردشة مع التطبيق وإرسال المراجعات.
عند فتح تطبيق المراجعة، تظهر صفحة الإرشادات.
- للدردشة مع الروبوت، انقر فوق بدء المراجعة، أو حدد اختبار الروبوت من الشريط الجانبي الأيسر. راجع الدردشة مع التطبيق وإرسال المراجعات لمزيد من التفاصيل.
- لمراجعة سجلات الدردشة التي تم توفيرها لمراجعتك، حدد الدردشات لمراجعتها في الشريط الجانبي. راجع مراجعة الخبراء للسجلات من تفاعلات المستخدم الآخر مع التطبيق للحصول على التفاصيل. لمعرفة كيفية إتاحة سجلات الدردشة من تطبيق المراجعة، راجع إتاحة سجلات الدردشة للتقييم من قبل مراجعي الخبراء.
توفير إرشادات للمراجعين
لتوفير نص مخصص للإرشادات المعروضة للمراجعين، استخدم التعليمات البرمجية التالية:
from databricks import agents
agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)
الدردشة مع التطبيق وإرسال المراجعات
للدردشة مع التطبيق وإرسال المراجعات:
انقر فوق Test the bot في الشريط الجانبي الأيسر.
اكتب سؤالك في المربع واضغط على Return أو Enter على لوحة المفاتيح، أو انقر فوق السهم الموجود في المربع. يعرض التطبيق إجابته على سؤالك، والمصادر التي استخدمها للعثور على الإجابة.
راجع إجابة التطبيق، وحدد نعم أو لا أو لا أعرف.
يطلب التطبيق معلومات إضافية. حدد المربعات المناسبة أو اكتب تعليقاتك في الحقل المتوفر.
يمكنك أيضا تحرير الاستجابة مباشرة لتوفير إجابة أفضل. لتحرير الاستجابة، انقر فوق تحرير الاستجابة، وقم بإجراء التغييرات في مربع الحوار، وانقر فوق حفظ، كما هو موضح في الفيديو التالي.
انقر فوق تم لحفظ ملاحظاتك.
استمر في طرح الأسئلة لتقديم ملاحظات إضافية.
يوضح الرسم التخطيطي التالي سير العمل هذا.
- باستخدام تطبيق المراجعة، يقوم المراجع بالدردشة مع التطبيق العامل.
- باستخدام تطبيق المراجعة، يقدم المراجع ملاحظات حول استجابات التطبيق.
- يتم تسجيل جميع الطلبات والاستجابات والملاحظات في جداول الاستدلال.
إتاحة سجلات الدردشة للتقييم من قبل مراجعي الخبراء
عندما يتفاعل مستخدم مع التطبيق باستخدام واجهة برمجة تطبيقات REST أو تطبيق المراجعة، يتم حفظ جميع الطلبات والاستجابات والملاحظات الإضافية في جداول الاستدلال. توجد جداول الاستدلال في نفس كتالوج ومخطط كتالوج Unity حيث تم تسجيل النموذج واسمه <model_name>_payload
و <model_name>_payload_assessment_logs
و <model_name>_payload_request_logs
. لمزيد من المعلومات حول هذه الجداول، بما في ذلك المخططات، راجع جداول الاستدلال المحسنة من قبل العامل.
لتحميل هذه السجلات في تطبيق المراجعة للتقييم من قبل مراجعي الخبراء، يجب أولا العثور على request_id
وتمكين المراجعات لذلك request_id
كما يلي:
حدد موقع s
request_id
المراد مراجعتها من<model_name>_payload_request_logs
جدول الاستدلال. يوجد جدول الاستدلال في نفس كتالوج ومخطط كتالوج Unity حيث تم تسجيل النموذج.استخدم التعليمات البرمجية المشابهة للآتي لتحميل سجلات المراجعة في تطبيق المراجعة:
from databricks import agents agents.enable_trace_reviews( model_name=model_fqn, request_ids=[ "52ee973e-0689-4db1-bd05-90d60f94e79f", "1b203587-7333-4721-b0d5-bba161e4643a", "e68451f4-8e7b-4bfc-998e-4bda66992809", ], )
تتضمن خلية النتيجة ارتباطا إلى تطبيق المراجعة مع السجلات المحددة التي تم تحميلها للمراجعة.
مراجعة الخبراء للسجلات من تفاعلات المستخدم الآخر مع التطبيق
لمراجعة السجلات من الدردشات السابقة، يجب تمكين السجلات للمراجعة. راجع إتاحة سجلات الدردشة للتقييم من قبل مراجعي الخبراء.
في الشريط الجانبي الأيسر من تطبيق المراجعة، حدد الدردشات للمراجعة. يتم عرض الطلبات الممكنة.
انقر فوق طلب لعرضه للمراجعة.
راجع الطلب والاستجابة. يعرض التطبيق أيضا المصادر التي استخدمها للرجوع إليها. يمكنك النقر فوقها لمراجعة المرجع، وتقديم ملاحظات حول صلة المصدر.
لتقديم ملاحظات حول جودة الاستجابة، حدد نعم أو لا أو لا أعرف.
يطلب التطبيق معلومات إضافية. حدد المربعات المناسبة أو اكتب تعليقاتك في الحقل المتوفر.
يمكنك أيضا تحرير الاستجابة مباشرة لتوفير إجابة أفضل. لتحرير الاستجابة، انقر فوق تحرير الاستجابة، وقم بإجراء التغييرات في مربع الحوار، ثم انقر فوق حفظ. راجع الدردشة مع التطبيق وإرسال مراجعات لفيديو يعرض العملية.
انقر فوق تم لحفظ ملاحظاتك.
يوضح الرسم التخطيطي التالي سير العمل هذا.
- باستخدام تطبيق المراجعة أو التطبيق المخصص، يقوم المراجعون بالدردشة مع التطبيق العامل.
- يتم تسجيل جميع الطلبات والاستجابات إلى جداول الاستدلال.
- يستخدم
enable_trace_reviews([request_id])
مطور التطبيق (حيثrequest_id
هو من<model_name>_payload_request_logs
جدول الاستدلال) لنشر سجلات الدردشة لمراجعة التطبيق. - باستخدام تطبيق المراجعة، يقوم الخبراء بمراجعة السجلات وتقديم الملاحظات. يتم تسجيل ملاحظات الخبراء في جداول الاستدلال.
إشعار
إذا كان لديك Azure Storage Firewall ممكنا، فتواصل مع فريق حساب Azure Databricks لتمكين جداول الاستدلال لنقاط النهاية الخاصة بك.
استخدم mlflow.evaluate()
في جدول سجلات الطلبات
يوضح دفتر الملاحظات التالي كيفية استخدام السجلات من تطبيق المراجعة كمدخل لتشغيل تقييم باستخدام mlflow.evaluate()
.