إرسال تشغيل الدفعة وتقييم التدفق

مقالة
05/21/2024

لتقييم مدى أداء التدفق الخاص بك مع مجموعة بيانات كبيرة، يمكنك إرسال تشغيل الدفعة واستخدام أساليب التقييم المضمنة في تدفق المطالبة.

ستتعلم في هذه المقالة ما يلي:

إرسال Batch Run واستخدام طريقة تقييم مضمنة
عرض نتيجة التقييم والمقاييس
بدء جولة جديدة من التقييم
التحقق من محفوظات تشغيل الدفعات ومقارنة المقاييس
فهم مقاييس التقييم المضمنة
طرق لتحسين أداء التدفق
مزيد من القراءة: إرشادات لإنشاء مجموعات البيانات الذهبية المستخدمة لضمان جودة Copilot

يمكنك البدء بسرعة في اختبار وتقييم التدفق الخاص بك باتباع هذا الفيديو التعليمي إرسال دفعة تشغيل وتقييم تدفق الفيديو التعليمي.

المتطلبات الأساسية

لتشغيل دفعة واستخدام أسلوب تقييم، يجب أن يكون لديك ما يلي جاهزا:

مجموعة بيانات اختبار لتشغيل الدفعات. يجب أن تكون مجموعة البيانات الخاصة بك بأحد هذه التنسيقات: .csvأو .tsvأو ..jsonl يجب أن تتضمن بياناتك أيضا رؤوسا تطابق أسماء إدخال التدفق الخاص بك. مزيد من القراءة: إذا كنت تقوم ببناء ملفك الخاص، نوصي بالإشارة إلى إرشادات لإنشاء مجموعات البيانات الذهبية المستخدمة لضمان جودة Copilot.

إرسال تشغيل دفعي واستخدام أسلوب تقييم مضمن

يسمح لك تشغيل الدفعة بتشغيل التدفق الخاص بك مع مجموعة بيانات كبيرة وإنشاء مخرجات لكل صف بيانات. يمكنك أيضا اختيار طريقة تقييم لمقارنة إخراج التدفق بمعايير وأهداف معينة. أسلوب التقييم هو نوع خاص من التدفق الذي يحسب مقاييس إخراج التدفق الخاص بك استنادا إلى جوانب مختلفة. يتم تنفيذ تشغيل تقييم لحساب المقاييس عند إرسالها مع تشغيل الدفعة.

لبدء تشغيل دفعة مع التقييم، يمكنك تحديد الزر "تقييم" في الزاوية العلوية اليسرى من صفحة التدفق.

لإرسال تشغيل الدفعة، يمكنك تحديد مجموعة بيانات لاختبار التدفق باستخدامها. يمكنك أيضا تحديد أسلوب تقييم لحساب مقاييس إخراج التدفق الخاص بك. إذا كنت لا تريد استخدام أسلوب تقييم، يمكنك تخطي هذه الخطوة وتشغيل تشغيل الدفعة دون حساب أي مقاييس. يمكنك أيضا بدء جولة جديدة من التقييم لاحقا.

أولا، يطلب منك إعطاء الدفعة الخاصة بك اسما وصفيا ويمكن التعرف عليه. يمكنك أيضا كتابة وصف وإضافة علامات (أزواج قيم المفاتيح) إلى تشغيل الدفعة. بعد الانتهاء من التكوين، حدد "التالي" للمتابعة.

ثانيا، تحتاج إلى تحديد أو تحميل مجموعة بيانات تريد اختبار التدفق بها. يدعم تدفق المطالبة أيضا تعيين إدخال التدفق الخاص بك إلى عمود بيانات معين في مجموعة البيانات الخاصة بك. وهذا يعني أنه يمكنك تعيين عمود لإدخال معين. يمكنك تعيين عمود إلى إدخال بالرجوع ${data.XXX} إلى تنسيق. إذا كنت تريد تعيين قيمة ثابتة إلى إدخال، يمكنك كتابة هذه القيمة مباشرة.

بعد ذلك، في الخطوة التالية، يمكنك أن تقرر استخدام أسلوب تقييم للتحقق من صحة أداء هذا التشغيل إما على الفور أو لاحقا. للتشغيل الدفعي المكتمل، لا يزال من الممكن إضافة جولة جديدة من التقييم.

يمكنك تحديد زر "Next" مباشرة لتخطي هذه الخطوة وتشغيل تشغيل الدفعة دون استخدام أي أسلوب تقييم لحساب المقاييس. بهذه الطريقة، ينشئ تشغيل الدفعة هذا مخرجات لمجموعة البيانات الخاصة بك فقط. يمكنك التحقق من المخرجات يدويا أو تصديرها لمزيد من التحليل مع أساليب أخرى.

وإلا، إذا كنت تريد تشغيل الدفعة مع التقييم الآن، يمكنك تحديد أسلوب تقييم واحد أو أكثر استنادا إلى الوصف المقدم. يمكنك تحديد زر "مزيد من التفاصيل" للاطلاع على مزيد من المعلومات حول أسلوب التقييم، مثل المقاييس التي ينشئها والاتصالات والإدخالات التي يتطلبها.

انتقل إلى الخطوة التالية وقم بتكوين إعدادات التقييم. في قسم "Evaluation input mapping" ، تحتاج إلى تحديد مصادر بيانات الإدخال المطلوبة لأسلوب التقييم. على سبيل المثال، قد يأتي عمود الحقيقة الأساسية من مجموعة بيانات. بشكل افتراضي، يستخدم التقييم نفس مجموعة البيانات مثل مجموعة بيانات الاختبار المقدمة للتشغيل المختبر. ومع ذلك، إذا كانت التسميات المقابلة أو قيم الحقيقة الأساسية الهدف في مجموعة بيانات مختلفة، يمكنك التبديل بسهولة إلى تلك.

لذلك، لتشغيل تقييم، تحتاج إلى الإشارة إلى مصادر هذه المدخلات المطلوبة. للقيام بذلك، عند إرسال تقييم، سترى قسم "تعيين إدخال التقييم".

إذا كان مصدر البيانات من إخراج التشغيل الخاص بك، تتم الإشارة إلى المصدر على أنه "${run.output.[ OutputName]}"
إذا كان مصدر البيانات من مجموعة بيانات الاختبار، تتم الإشارة إلى المصدر على أنه "${data.[ ColumnName]}"

إشعار

إذا كان تقييمك لا يتطلب بيانات من مجموعة البيانات، فلن تحتاج إلى الرجوع إلى أي أعمدة لمجموعة البيانات في قسم تعيين الإدخال، مما يشير إلى أن تحديد مجموعة البيانات هو تكوين اختياري. لن يؤثر تحديد مجموعة البيانات على نتيجة التقييم.

إذا كان أسلوب التقييم يستخدم نماذج اللغة الكبيرة (LLMs) لقياس أداء استجابة التدفق، فأنت مطالب أيضا بتعيين اتصالات لعقد LLM في أساليب التقييم.

إشعار

تتطلب بعض أساليب التقييم تشغيل GPT-4 أو GPT-3. يجب توفير اتصالات صالحة لأساليب التقييم هذه قبل استخدامها. قد تستغرق بعض عمليات التقييم الكثير من الرموز المميزة، لذلك يوصى باستخدام نموذج يمكنه دعم >=16 ألف رمز مميز.

بعد الانتهاء من تعيين الإدخال، حدد على "Next" لمراجعة الإعدادات الخاصة بك وحدد على "Submit" لبدء تشغيل الدفعة مع التقييم.

إشعار

التشغيل الدفعي له مدة قصوى 10 ساعات. إذا تجاوز تشغيل الدفعة هذا الحد، فسيتم إنهاؤه ووضع علامة عليه على أنه فاشل. ننصح بمراقبة قدرة نموذج اللغة الكبيرة (LLM) لتجنب التقييد. إذا لزم الأمر، ففكر في تقليل حجم بياناتك. إذا كنت لا تزال تواجه مشكلات أو تحتاج إلى مزيد من المساعدة، فلا تتردد في التواصل مع فريق المنتج لدينا من خلال نموذج الملاحظات أو طلب الدعم.

عرض نتيجة التقييم والمقاييس

بعد الإرسال، يمكنك العثور على تشغيل الدفعة المرسلة في علامة تبويب قائمة التشغيل في صفحة تدفق المطالبة.

حدد تشغيل للانتقال إلى صفحة Run result ، للتحقق من نتائج تشغيل الدفعة هذا.

المخرجات

النتيجة الأساسية والتتبع

سيؤدي ذلك أولا إلى توجيهك إلى علامة التبويب Output لعرض المدخلات والمخرجات سطرا سطرا. تعرض صفحة علامة تبويب الإخراج قائمة جدول بالنتائج، بما في ذلك معرف السطر والإدخال والإخراج والحالة ومقاييس النظام والوقت الذي تم إنشاؤه.

لكل سطر، يتيح لك تحديد View trace مراقبة وتصحيح حالة الاختبار المحددة هذه في صفحة التتبع التفصيلية الخاصة بها.

نتيجة تقييم الإلحاق والتتبع

يتيح لك تحديد إخراج تقييم الإلحاق تحديد عمليات تشغيل التقييم ذات الصلة ورؤية الأعمدة الملحقة في نهاية الجدول تعرض نتيجة التقييم لكل صف من البيانات. يمكن إلحاق مخرجات تقييم متعددة للمقارنة.

يمكنك مشاهدة أحدث مقاييس التقييم في لوحة Overview اليسرى.

نظرة عامة أساسية

على الجانب الأيسر، تقدم نظرة عامة معلومات شاملة حول التشغيل، مثل عدد تنفيذ نقطة البيانات وإجمالي الرموز المميزة ومدة التشغيل.

يتم عرض أحدث مقاييس التقييم المجمعة هنا بشكل افتراضي، يمكنك تحديد عرض تشغيل التقييم للانتقال إلى عرض تشغيل التقييم نفسه.

يمكن توسيع النظرة العامة وطيها هنا، ويمكنك تحديد عرض المعلومات الكاملة، والتي ستوجهك إلى علامة التبويب نظرة عامة بجانب علامة التبويب الإخراج، حيث تحتوي على معلومات أكثر تفصيلا لهذا التشغيل.

بدء جولة جديدة من التقييم

إذا كنت قد أكملت بالفعل تشغيل دفعة، يمكنك بدء جولة أخرى من التقييم لإرسال تشغيل تقييم جديد لحساب مقاييس المخرجات دون تشغيل التدفق مرة أخرى. هذا مفيد ويمكن أن يوفر التكلفة لإعادة تشغيل التدفق الخاص بك عندما:

لم تحدد طريقة تقييم لحساب المقاييس عند إرسال تشغيل الدفعة، وقررت القيام بذلك الآن.
لقد استخدمت بالفعل أسلوب التقييم لحساب مقياس. يمكنك بدء جولة أخرى من التقييم لحساب مقياس آخر.
فشل تشغيل التقييم الخاص بك ولكن تدفقك نجح في إنشاء المخرجات. يمكنك إرسال تقييمك مرة أخرى.

يمكنك تحديد تقييم لبدء جولة أخرى من التقييم.

بعد إعداد التكوين، يمكنك تحديد "إرسال" لهذه الجولة الجديدة من التقييم. بعد الإرسال، ستتمكن من رؤية سجل جديد في قائمة تشغيل تدفق المطالبة. بعد اكتمال تشغيل التقييم، وبالمثل، يمكنك التحقق من نتيجة التقييم في علامة التبويب "المخرجات" من لوحة تفاصيل تشغيل الدفعة. تحتاج إلى تحديد تشغيل التقييم الجديد لعرض نتيجته.

لمعرفة المزيد حول المقاييس المحسوبة بواسطة أساليب التقييم المضمنة، انتقل لفهم مقاييس التقييم المضمنة.

نظرة عامة

يعرض تحديد علامة التبويب نظرة عامة معلومات شاملة حول التشغيل، بما في ذلك خصائص التشغيل ومجموعة بيانات الإدخال ومجموعة بيانات الإخراج والعلامات والوصف.

السجلات

يتيح لك تحديد علامة التبويب Logs عرض سجلات التشغيل، والتي يمكن أن تكون مفيدة لتصحيح أخطاء التنفيذ بشكل مفصل. يمكنك تنزيل ملفات السجل إلى جهازك المحلي.

اللقطة

يظهر لك تحديد علامة التبويب Snapshot لقطة التشغيل. يمكنك عرض DAG للتدفق الخاص بك. بالإضافة إلى ذلك، لديك خيار استنساخه لإنشاء تدفق جديد. يمكنك أيضا نشره كنقطة نهاية عبر الإنترنت.

التحقق من محفوظات تشغيل الدفعات ومقارنة المقاييس

في بعض السيناريوهات، يمكنك تعديل التدفق الخاص بك لتحسين أدائه. يمكنك إرسال عمليات تشغيل دفعات متعددة لمقارنة أداء التدفق بإصدارات مختلفة. يمكنك أيضا مقارنة المقاييس المحسوبة بواسطة أساليب تقييم مختلفة لمعرفة المقاييس الأكثر ملاءمة لتدفقك.

للتحقق من محفوظات تشغيل الدفعات لتدفقك، يمكنك تحديد الزر "عرض تشغيل الدفعة" في الزاوية العلوية اليسرى من صفحة التدفق. ترى قائمة بتشغيل الدفعات التي قمت بإرسالها لهذا التدفق.

يمكنك التحديد على كل تشغيل دفعة للتحقق من التفاصيل. يمكنك أيضا تحديد عمليات تشغيل دفعية متعددة وتحديد "تصور المخرجات" لمقارنة المقاييس ومخرجات عمليات تشغيل هذه الدفعة.

في لوحة "تصور الإخراج" يعرض جدول Runs &metrics معلومات عمليات التشغيل المحددة مع التمييز. يتم أيضا سرد عمليات التشغيل الأخرى التي تأخذ مخرجات عمليات التشغيل المحددة كإدخال.

في جدول "المخرجات"، يمكنك مقارنة الدفعة المحددة التي يتم تشغيلها بواسطة كل سطر من العينات. بتحديد أيقونة "eye visualizing" في جدول "Runs & metrics"، سيتم إلحاق مخرجات هذا التشغيل بالتشغيل الأساسي المقابل.

فهم مقاييس التقييم المضمنة

في التدفق السريع، نقدم أساليب تقييم مضمنة متعددة لمساعدتك في قياس أداء إخراج التدفق الخاص بك. يحسب كل أسلوب تقييم مقاييس مختلفة. الآن نقدم تسع طرق تقييم مضمنة متاحة. يمكنك التحقق من الجدول التالي للحصول على مرجع سريع:

طريقة التقييم	مقاييس	‏‏الوصف	مطلوب الاتصال	الإدخال المطلوب	قيمة الدرجة
تقييم دقة التصنيف	الدقة	يقيس أداء نظام التصنيف بمقارنة مخرجاته بالحقيقة الأساسية.	لا	التنبؤ، الحقيقة الأساسية	في النطاق [0، 1].
تقييم نتائج صلة QnA المزدوجة	النتيجة، الفوز/الخسارة	تقييم جودة الإجابات الناتجة عن نظام الإجابة على الأسئلة. وهو يتضمن تعيين درجات الصلة لكل إجابة استنادا إلى مدى تطابقها مع سؤال المستخدم، ومقارنة إجابات مختلفة بإجابة أساسية، وتجميع النتائج لإنتاج مقاييس مثل متوسط معدلات الفوز ودرجات الصلة.	‏‏نعم‬	سؤال، إجابة (لا توجد حقيقة أساسية أو سياق)	النتيجة: 0-100، فوز/خسارة: 1/0
تقييم أسس QnA	الترضية	يقيس مدى وجود الإجابات المتوقعة للنموذج في مصدر الإدخال. حتى إذا كانت استجابات LLM صحيحة، إذا لم يكن من الممكن التحقق منها مقابل المصدر، فستكون غير مؤرضة.	‏‏نعم‬	سؤال، إجابة، سياق (لا توجد حقيقة أرضية)	من 1 إلى 5، مع أن يكون 1 هو الأسوأ و5 هو الأفضل.
تقييم تشابه QnA GPT	تشابه GPT	يقيس التشابه بين إجابات الحقيقة الأساسية المقدمة من المستخدم والإجابة المتوقعة للنموذج باستخدام نموذج GPT.	‏‏نعم‬	السؤال، الإجابة، الحقيقة الأساسية (السياق غير مطلوب)	من 1 إلى 5، مع أن يكون 1 هو الأسوأ و5 هو الأفضل.
تقييم صلة QnA	الصلة	يقيس مدى صلة الإجابات المتوقعة للنموذج بالأسئلة المطروحة.	‏‏نعم‬	سؤال، إجابة، سياق (لا توجد حقيقة أرضية)	من 1 إلى 5، مع أن يكون 1 هو الأسوأ و5 هو الأفضل.
تقييم اتساق QnA	الاتساق	يقيس جودة جميع الجمل في الإجابة المتوقعة للنموذج وكيف تتلاءم مع بعضها بشكل طبيعي.	‏‏نعم‬	سؤال، إجابة (لا توجد حقيقة أساسية أو سياق)	من 1 إلى 5، مع أن يكون 1 هو الأسوأ و5 هو الأفضل.
تقييم طلاقة QnA	الطلاقه	يقيس كيفية تصحيح الإجابة المتوقعة للنموذج نحويا ولغويا.	‏‏نعم‬	سؤال، إجابة (لا توجد حقيقة أساسية أو سياق)	من 1 إلى 5، مع أن يكون 1 هو الأسوأ و5 هو الأفضل
تقييم درجات QnA f1	نتيجة F1	يقيس نسبة عدد الكلمات المشتركة بين توقع النموذج والحقيقة الأساسية.	لا	السؤال، الإجابة، الحقيقة الأساسية (السياق غير مطلوب)	في النطاق [0، 1].
تقييم تشابه QnA Ada	تشابه Ada	يحسب تضمينات مستوى الجملة (المستند) باستخدام Ada embeddings API لكل من الحقيقة الأساسية والتنبؤ. ثم يحسب تشابه التمام بينهما (رقم نقطة عائمة واحد)	‏‏نعم‬	السؤال، الإجابة، الحقيقة الأساسية (السياق غير مطلوب)	في النطاق [0، 1].

طرق لتحسين أداء التدفق

بعد التحقق من المقاييس المضمنة من التقييم، يمكنك محاولة تحسين أداء التدفق الخاص بك من خلال:

تحقق من بيانات الإخراج لتصحيح أي فشل محتمل لتدفقك.
تعديل تدفقك لتحسين أدائه. وهذا يشمل على سبيل المثال لا الحصر:
- تعديل المطالبة
- تعديل رسالة النظام
- تعديل معلمات التدفق
- تعديل منطق التدفق

يمكن أن يكون البناء الفوري صعبا. نحن نقدم مقدمة لهندسة المطالبة لمساعدتك على التعرف على مفهوم إنشاء مطالبة يمكن أن تحقق هدفك. راجع تقنيات الهندسة السريعة لمعرفة المزيد حول كيفية إنشاء مطالبة يمكنها تحقيق هدفك.

رسالة النظام، يشار إليها أحيانا باسم metaprompt أو مطالبة النظام التي يمكن استخدامها لتوجيه سلوك النظام الذكاء الاصطناعي وتحسين أداء النظام. اقرأ هذا المستند حول إطار عمل رسالة النظام وتوصيات القالب لنماذج اللغات الكبيرة (LLMs) للتعرف على كيفية تحسين أداء التدفق باستخدام رسالة النظام.

مزيد من القراءة: إرشادات لإنشاء مجموعات البيانات الذهبية المستخدمة لضمان جودة Copilot

عادة ما يتضمن إنشاء copilot يستخدم نماذج اللغات الكبيرة (LLMs) تأسيس النموذج في الواقع باستخدام مجموعات بيانات المصدر. ومع ذلك، للتأكد من أن LLMs توفر الاستجابات الأكثر دقة وفائدة لاستعلامات العملاء، يلزم وجود "مجموعة بيانات ذهبية".

مجموعة البيانات الذهبية هي مجموعة من أسئلة العملاء الواقعية والأجوبة المصممة بدقة. وهو بمثابة أداة ضمان الجودة ل LLMs المستخدمة من قبل copilot الخاص بك. لا يتم استخدام مجموعات البيانات الذهبية لتدريب LLM أو إدخال سياق في مطالبة LLM. بدلا من ذلك، يتم استخدامها لتقييم جودة الإجابات التي تم إنشاؤها بواسطة LLM.

إذا كان السيناريو الخاص بك ينطوي على copilot أو إذا كنت في عملية بناء copilot الخاص بك، نوصي بالإشارة إلى هذا المستند المحدد: إنتاج مجموعات البيانات الذهبية: إرشادات لإنشاء مجموعات البيانات الذهبية المستخدمة لضمان جودة Copilot للحصول على إرشادات أكثر تفصيلا وأفضل الممارسات.

الخطوات التالية

في هذا المستند، تعلمت كيفية إرسال تشغيل دفعي واستخدام طريقة تقييم مضمنة لقياس جودة إخراج التدفق. كما تعلمت كيفية عرض نتيجة التقييم والمقاييس، وكيفية بدء جولة جديدة من التقييم بأسلوب مختلف أو مجموعة فرعية من المتغيرات. نأمل أن يساعدك هذا المستند على تحسين أداء التدفق وتحقيق أهدافك باستخدام تدفق المطالبة.

مشاركة عبر

إرسال تشغيل الدفعة وتقييم التدفق

المتطلبات الأساسية

إرسال تشغيل دفعي واستخدام أسلوب تقييم مضمن

عرض نتيجة التقييم والمقاييس

المخرجات

النتيجة الأساسية والتتبع

نتيجة تقييم الإلحاق والتتبع

نظرة عامة أساسية

بدء جولة جديدة من التقييم

نظرة عامة

السجلات

اللقطة

التحقق من محفوظات تشغيل الدفعات ومقارنة المقاييس

فهم مقاييس التقييم المضمنة

طرق لتحسين أداء التدفق

مزيد من القراءة: إرشادات لإنشاء مجموعات البيانات الذهبية المستخدمة لضمان جودة Copilot

الخطوات التالية

الملاحظات

الملاحظات

الموارد الإضافية