مشاركة عبر


لوحات المتصدرين النموذجية في بوابة Microsoft Foundry (معاينة) (كلاسيكي)

المشاهدة الحالية:نسخة - التحويل إلى النسخة الخاصة ببوابة Foundry الجديدة

مهم

العناصر التي تم وضع علامة عليها (إصدار أولي) في هذه المقالة موجودة حالياً في الإصدار الأولي العام. يتم توفير هذه المعاينة دون اتفاقية على مستوى الخدمة، ولا نوصي بها لأحمال عمل الإنتاج. بعض الميزات ربما لا تكون مدعمة أو بها بعض القدرات المقيدة. لمزيد من المعلومات، راجع شروط الاستخدام الإضافية لمعاينات مايكروسوفت Azure.

تساعدك لوحات المتصدرين (المعاينة) في بوابة مايكروسوفت فاوندري على مقارنة النماذج في كتالوج نماذج فاوندري باستخدام معايير قياسية في الصناعة. من قسم لوحات المتصدرين في كتالوج النماذج، يمكنك تصفح لوحات المتصدرين لمقارنة النماذج المتاحة بحسب ما يلي:

عندما تجد نموذجا مناسبا، يمكنك فتح نتائج المقارنة التفصيلية الخاصة به في كتالوج النماذج. من هناك، يمكنك نشر النموذج، أو تجربته في الملعب، أو تقييمه بناء على بياناتك الخاصة. تدعم لوحات المتصدرين المقارنة المرجعية لنماذج لغات النص (بما في ذلك نماذج اللغة الكبيرة (LLMs) ونماذج اللغة الصغيرة (SLMs)) ونماذج التضمين.

تقيم معايير النماذج نماذج اللغة الكبيرة ونماذج SLM عبر الجودة والسلامة والتكلفة وسرعة النقل. يتم تقييم نماذج التضمين باستخدام معايير جودة قياسية. يتم تحديث لوحات المتصدرين مع توفر نماذج جديدة ومجموعات بيانات معيارية.

نطاق مقارنة النماذج

تتميز لوحات المتصدرين بالنماذج بمجموعة مختارة من نماذج اللغة النصية من كتالوج نماذج Foundry. يتم تضمين النماذج بناء على المعايير التالية:

  • Azure الأولوية للنماذج المباشرة: Azure يتم اختيار النماذج المباشرة لتكون ذات صلة بسيناريوهات الذكاء الاصطناعي التوليدي الشائعة.
  • تطبيق المعيار الأساسي: يجب أن تدعم النماذج المهام اللغوية العامة مثل التفكير، والمعرفة، والإجابة على الأسئلة، والاستدلال الرياضي، والبرمجة. النماذج المتخصصة (مثل طي البروتينات أو ضمان الجودة الخاص بالمجال) وغيرها من الأساليب غير مدعومة.

يضمن هذا النطاق أن تعكس لوحات المتصدرين نماذج حديثة عالية الجودة ذات صلة بسيناريوهات الذكاء الاصطناعي الأساسية.

تفسير نتائج لوحة المتصدرين

تساعدك لوحات المتصدرين على مقارنة النماذج عبر عدة أبعاد حتى تتمكن من اختيار النموذج المناسب لحالتك. إليك بعض الإرشادات لتفسير النتائج:

  • مؤشر الجودة: يشير مؤشر الجودة الأعلى إلى أداء عام أقوى عبر مهام التفكير، البرمجة، الرياضيات، والمعرفة. قارن مؤشر الجودة عبر النماذج لتحديد أفضل المؤدين لمهام اللغة العامة.
  • درجات السلامة: تشير معدلات نجاح الهجوم المنخفضة إلى نماذج أكثر قوة. ضع في اعتبارك درجات السلامة إلى جانب درجات الجودة، خاصة للتطبيقات التي تواجه العملاء حيث تكون المخرجات الضارة مصدر قلق كبير.
  • مقايضات الأداء: استخدم مقاييس التأخير ومعدل النقل لفهم استجابة النموذج في العالم الحقيقي. قد لا يناسب النموذج ذو الجودة العالية ولكن التأخير العالي للتطبيقات في الوقت الحقيقي.
  • اعتبارات التكلفة: يستخدم مقياس التكلفة المقدرة نسبة رمز مدخل إلى إخراج ثلاثة إلى واحد. عدل توقعاتك بناء على نسبة الإدخال إلى الإخراج الفعلي في عبء عملك.
  • لوحات الصدارة للسيناريوهات: إذا كانت حالة استخدامك تتوافق مع سيناريو معين (مثل البرمجة أو الرياضيات)، ابدأ بلوحة المتصدرين للسيناريو للعثور على نماذج محسنة لتلك المهمة بدلا من الاعتماد فقط على مؤشر الجودة العام.

نصيحة

توفر معايير لوحة المتصدرين مقارنات موحدة عبر النماذج باستخدام مجموعات بيانات عامة. لتقييم أداء النموذج بناء على بياناتك وحالة الاستخدام الخاصة بك، راجع تقييم تطبيقات الذكاء الاصطناعي التوليدي الخاصة بك.

معايير الجودة لنماذج اللغة

تقوم فاوندري بتقييم جودة نماذج اللغة الكبيرة ونماذج SLM باستخدام درجات الدقة من مجموعات بيانات معيارية قياسية تقيس قدرات التفكير، والمعرفة، والإجابة على الأسئلة، والرياضيات، والبرمجة.

الفهرس وصف
فهرس الجودة يتم حسابها عن طريق متوسط درجات الدقة القابلة للتطبيق (exact_match, pass@1, arena_hard) عبر مجموعات البيانات المعيارية.

تتراوح قيم مؤشرات الجودة من صفر إلى واحد، حيث تشير القيم الأعلى إلى أداء أفضل. مجموعات البيانات المدرجة في مؤشر الجودة هي:

اسم مجموعة البيانات فئة
bigbench_hard (تم تقليل العينة إلى 1000 مثال) Reasoning
كيمبنش الكيمياء
علم الحدود الاستدلال العلمي
gpqa جواب
mbppplus الترميز
mmlu_pro (تم تقليل العينة إلى 1000 مثال) المعرفة العامة
موسر Reasoning
tau2_telecom اختيار الوكلاء واختيار استدعاء الأدوات

راجع المزيد من التفاصيل في درجات الدقة:

مقياس وصف
الدقة تتوفر درجات الدقة في مجموعة البيانات ومستويات النموذج. على مستوى مجموعة البيانات، تكون النتيجة هي متوسط قيمة مقياس الدقة المحسوبة على جميع الأمثلة في مجموعة البيانات. يكون مقياس الدقة المستخدم exact_match في جميع الحالات، باستثناء مجموعات بيانات HumanEvalوMBPP التي تستخدم مقياسا pass@1 . تقارن المطابقة الدقيقة النص الذي تم إنشاؤه بواسطة النموذج بالإجابة الصحيحة وفقا لمجموعة البيانات، والإبلاغ عن واحد إذا كان النص الذي تم إنشاؤه يطابق الإجابة تماما والإجابة صفرا بخلاف ذلك. يقيس المقياس pass@1 نسبة حلول النموذج التي تجتاز مجموعة من اختبارات الوحدة في مهمة إنشاء التعليمات البرمجية. على مستوى النموذج، درجة الدقة هي متوسط الدقة على مستوى مجموعة البيانات لكل نموذج.

تتراوح درجات الدقة من صفر إلى واحد، حيث تكون القيم الأعلى أفضل.

معايير الأمان لنماذج اللغة

يتم اختيار معايير السلامة من خلال عملية تصفية وتحقق منظمة تهدف إلى ضمان الصلة والدقة. يؤهل المعيار للإلحاق إذا كان يعالج مخاطر ذات أولوية عالية. تتضمن لوحات المتصدرين للسلامة معايير موثوقة بما يكفي لتقديم إشارات ذات معنى حول مواضيع تهم فيما يتعلق بالسلامة. تستخدم لوحات المتصدرين HarmBench لتمثيل سلامة النماذج، وتنظيم لوحات المتصدرين للسيناريوهات كما يلي:

اسم مجموعة البيانات سيناريو لوحة المتصدرين مقياس تفسير
HarmBench (قياسي) السلوكيات الضارة القياسية معدل نجاح الهجوم القيم المنخفضة تعني متانة أفضل ضد الهجمات المصممة لاستدعاء محتوى ضار قياسي
HarmBench (سياقي) السلوكيات الضارة بالسياق معدل نجاح الهجوم القيم المنخفضة تعني متانة أفضل ضد الهجمات المصممة لإثارة محتوى ضار في السياق
HarmBench (انتهاكات حقوق النشر) انتهاكات حقوق النشر معدل نجاح الهجوم تشير القيم المنخفضة إلى متانة أقوى ضد انتهاكات حقوق النشر
WMDP المعرفة في المجالات الحساسة الدقة تشير القيم الأعلى إلى معرفة أكبر في المجالات الحساسة
توكسيغين اكتشاف المحتوى السام درجة F1 تشير القيم الأعلى إلى أداء أفضل في الكشف

كشف السلوك الضار

يقيس معيار HarmBench السلوكيات الضارة باستخدام محفزات مصممة لإثارة ردود غير آمنة. يغطي سبع فئات دلالية:

  • الجرائم الإلكترونية والتسلل غير المصرح به
  • الأسلحة الكيميائية والبيولوجية أو الأدوية
  • انتهاكات حقوق النشر
  • المعلومات المضللة والمضللة
  • المضايقة والتسلط
  • الأنشطة غير القانونية
  • الضرر العام

تجمع هذه الفئات في ثلاث مجالات وظيفية:

  • السلوكيات الضارة القياسية
  • السلوكيات الضارة بالسياق
  • انتهاكات حقوق النشر

يتم عرض كل فئة وظيفية في لوحة المتصدرين لسيناريو منفصل. يستخدم التقييم توجيهات مباشرة من HarmBench (بدون هجمات) ومقيمو HarmBench لحساب معدل نجاح الهجوم (ASR). القيم المنخفضة لنسبة ASR تعني نماذج أكثر أمانا. لا تستخدم استراتيجيات هجوم للتقييم، ويتم إجراء مقارنة النماذج مع إيقاف Foundry Guardrails (التي كانت تعرف سابقا بفلاتر المحتوى).

اكتشاف المحتوى السام

Toxigen هو مجموعة بيانات واسعة النطاق لاكتشاف خطاب الكراهية العدائي والضمني. ويشمل ذلك أحكاما سامة وغير ضمنية تشير إلى 13 مجموعة أقلية. تستخدم فاوندري عينات توكسيجين مشروحة وتحسب درجات F1 لقياس أداء التصنيف. تشير الدرجات الأعلى إلى اكتشاف أفضل للمحتوى السام. يتم إجراء المقارنة مع إيقاف Foundry Guardrails (سابقا فلاتر المحتوى).

معرفة المجال الحساس

يقيس معيار المعيار أسلحة الدمار الشامل (WMDP) معرفة النماذج في مجالات حساسة تشمل الأمن البيولوجي، الأمن السيبراني، والأمن الكيميائي. تستخدم لوحة المتصدرين متوسط درجات الدقة عبر الأمن السيبراني والأمن البيولوجي والأمن الكيميائي. تشير درجة دقة WMDP الأعلى إلى مزيد من المعرفة بالقدرات الخطيرة (سلوك أسوأ من وجهة نظر السلامة). يتم إجراء اختبار النماذج مع تشغيل حواجز الحماية الافتراضية (التي كانت تعرف سابقا بمرشحات المحتوى). هذه الحواجز تكشف وتمنع أضرار المحتوى في العنف، وإيذاء النفس، والجنس، والكراهية، والظلم، لكنها لا تستهدف فئات الأمن السيبراني، والأمن البيولوجي، والأمن الكيميائي.

قيود معايير السلامة

السلامة موضوع معقد له عدة أبعاد. لا يوجد معيار مفتوح المصدر واحد يمكنه اختبار أو تمثيل السلامة الكاملة للنظام عبر جميع السيناريوهات. بالإضافة إلى ذلك، تعاني العديد من المعايير من تشبع أو عدم توافق بين تصميم المعيار وتعريف المخاطر. بعض المعايير تفتقر أيضا إلى توثيق واضح حول كيفية تصور وتنفيذ مخاطر الأهداف، مما يصعب تقييم ما إذا كانت النتائج تلتقط بدقة تفاصيل المخاطر الواقعية. يمكن أن تؤدي هذه القيود إلى المبالغة في تقدير أو التقليل من أداء النموذج في سيناريوهات السلامة الواقعية.

معايير الأداء لنماذج اللغة

يتم تجميع مقاييس الأداء على مدى 14 يوما باستخدام 24 تجربة يوميا، مع إرسال طلبين لكل تجربة بفواصل زمنية كل ساعة. ما لم يذكر خلاف ذلك، تنطبق المعايير الافتراضية التالية على كل من ><نشر واجهة برمجة التطبيقات بدون خادم وAzure OpenAI:

المعلمة قيمة ينطبق على
منطقة شرق الولايات المتحدة/شرق الولايات المتحدة 2 ><نشر واجهة برمجة التطبيقات بدون خادم و Azure OpenAI
حد معدل الرموز المميزة في الدقيقة (TPM) 30k (180 دورة في الدقيقة مبنية على Azure OpenAI) للنماذج غير المنطقية و100k لنماذج الاستدلال
N/A (عمليات نشر واجهة برمجة التطبيقات بلا خادم)
بالنسبة لنماذج Azure OpenAI، يتوفر الاختيار للمستخدمين الذين لديهم نطاقات حدود سرعة بناء على نوع النشر (واجهة برمجة تطبيقات بدون خادم، عالمية، معيار عالمي، وهكذا).
بالنسبة إلى عمليات نشر واجهة برمجة التطبيقات بلا خادم، يتم تجريد هذا الإعداد.
عدد الطلبات طلبان في التجربة لكل ساعة (24 تجربة يوميا) نشرات API بدون خوادم، Azure OpenAI
عدد التجارب/الجولات 14 يوما مع 24 تجربة يوميا بمعدل 336 نقطة نشرات API بدون خوادم، Azure OpenAI
طول المطالبة/السياق طول متوسط نشرات API بدون خوادم، Azure OpenAI
عدد الرموز المميزة التي تمت معالجتها (متوسط) 80:20 نسبة الإدخال إلى الرموز المميزة للإخراج، أي 800 رمز إدخال مميز إلى 200 رمز مميز للإخراج. نشرات API بدون خوادم، Azure OpenAI
عدد الطلبات المتزامنة واحد (يتم إرسال الطلبات بشكل تسلسلي واحد تلو الآخر) نشرات API بدون خوادم، Azure OpenAI
البيانات اصطناعي (مطالبات الإدخال المعدة من نص ثابت) نشرات API بدون خوادم، Azure OpenAI
نوع التوزيع واجهة برمجة تطبيقات بلا خادم ينطبق فقط على Azure OpenAI
الدفق صحيح ينطبق على عمليات نشر واجهات برمجة التطبيقات بدون خادم وAzure OpenAI. بالنسبة للنماذج التي يتم نشرها عبر الحوسبة المدارة، أو لنقاط النهاية عندما لا يدعم البث، يمثل TTFT كمعيار P50 بمقياس الكمون.
وحدة حفظ المخزون SKU Standard_NC24ads_A100_v4 (24 نواة، 220 جيجابايت رام، 64 جيجابايت storage) ينطبق فقط على الحوسبة المدارة (لتقدير مقاييس التكلفة والأداء)

يتم تقييم أداء LLMs وSLMs عبر المقاييس التالية:

مقياس وصف
متوسط زمن الانتقال متوسط الوقت بالثواني لمعالجة طلب، محسوب عبر عدة طلبات. يتم إرسال طلب إلى نقطة النهاية كل ساعة لمدة أسبوعين، ويتم حساب المتوسط.
زمن الانتقال P50 التأخير الوسيط (50 percent). تم إكمال 50% من الطلبات خلال هذه الفترة.
زمن الانتقال P90 زمن الاستجابة في النسبة المئوية 90. 90% من الطلبات اكتملت خلال هذه الفترة.
زمن الانتقال P95 زمن الاستجابة المئوية 95. 95% من الطلبات مكتملة خلال هذه الفترة.
زمن الانتقال P99 زمن الاستجابة المئوية 99. 99% من الطلبات اكتملت خلال هذا الوقت.
معدل النقل GTPS الرموز المميزة التي تم إنشاؤها في الثانية (GTPS) هي عدد الرموز المميزة للإخراج التي يتم إنشاؤها في الثانية من وقت إرسال الطلب إلى نقطة النهاية.
معدل النقل TTPS إجمالي الرموز المميزة في الثانية (TTPS) هو عدد إجمالي الرموز المميزة التي تمت معالجتها في الثانية بما في ذلك كل من موجه الإدخال ورمز الإخراج المميزة التي تم إنشاؤها. بالنسبة للنماذج التي لا تدعم البث، يمثل الوقت إلى الرمز الأول (ttft) قيمة زمن الاستجابة في P50 (الوقت المستغرق لاستقبال الرد)
زمن الانتقال TTFT إجمالي الوقت للرمز المميز الأول (TTFT) هو الوقت المستغرق للرمز المميز الأول في الاستجابة ليتم إرجاعه من نقطة النهاية عند تمكين الدفق.
الوقت بين الرموز المميزة هذا المقياس هو الوقت بين الرموز المميزة المستلمة.

يلخص فاوندري الأداء باستخدام:

مقياس وصف
زمن الانتقال متوسط الوقت للرمز المميز الأول. أقل هو أفضل.
الإنتاجية متوسط الرموز المميزة التي تم إنشاؤها في الثانية. الأعلى أفضل.

بالنسبة لمقاييس الأداء مثل زمن الانتقال أو معدل النقل، فإن وقت الرمز المميز الأول والرموز المميزة التي تم إنشاؤها في الثانية يعطي إحساسا إجماليا أفضل بالأداء والسلوك النموذجي للنموذج. يتم تحديث أرقام الأداء بشكل دوري لتعكس أحدث تكوينات النشر.

معايير التكلفة لنماذج اللغة

حسابات التكلفة هي تقديرات لاستخدام نموذج LLM أو نموذج لإدارة النهاية المستضافة على منصة Foundry. يدعم Foundry عرض تكلفة نشر واجهات برمجة التطبيقات بدون خادم ونماذج Azure OpenAI. نظرا لأن هذه التكاليف قابلة للتغيير، يتم تحديث حسابات التكاليف بشكل دوري لتعكس أحدث التسعير.

يتم تقييم تكلفة LLMs وSLMs عبر المقاييس التالية:

مقياس وصف
التكلفة لكل الرموز المميزة للإدخل تكلفة نشر واجهة برمجة التطبيقات بلا خادم لمليون رمز إدخال مميز
تكلفة الرموز المميزة للإخراج تكلفة نشر واجهة برمجة التطبيقات بلا خادم لمليون رمز مميز للإخراج
التكلفة المقدرة تكلفة مجموع التكلفة لكل رموز الإدخال المميزة وتكلفة كل رموز الإخراج المميزة، بنسبة 3:1.

كما تعرض Foundry التكلفة كما يلي:

مقياس وصف
التكلفة التكلفة المقدرة بالدولار الأمريكي لكل 1 مليون رمز. يستخدم عبء العمل المقدر نسبة ثلاثة إلى واحد بين رموز الإدخال والإخراج. القيم الأقل أفضل.

مقارنة السيناريوهات في لوحة المتصدرين

تقوم لوحات الصدارة في السيناريوهات بتجميع مجموعات البيانات المرجعية حسب أهداف تقييم واقعية مشتركة حتى تتمكن من تحديد نقاط القوة والضعف للنموذج بسرعة حسب حالة الاستخدام. كل سيناريو يجمع مجموعة بيانات أو أكثر من معايير المرجع العامة.

استخدم الجدول التالي للعثور على حالة الاستخدام الخاصة بك في عمود السيناريو ، ثم راجع مجموعات بيانات المعيار المرجعية المرتبطة وما تشير إليه النتائج. يلخص الجدول التالي لوحات المتصدرين المتاحة للسيناريوهات ومجموعات البيانات والوصف المرتبطة بها:

السيناريو Datasets وصف
السلوك الضار القياسي HarmBench (قياسي) معدل نجاح الهجوم على المحفزات الضارة القياسية. أقل هو أفضل. انظر كشف السلوك الضار.
السلوك الضار السياقي HarmBench (سياقي) معدل نجاح الهجوم على المحفزات الضارة في السياق. أقل هو أفضل. انظر كشف السلوك الضار.
انتهاكات حقوق النشر HarmBench (حقوق الطبع والنشر) معدل نجاح الهجوم على طلبات انتهاك حقوق النشر. أقل هو أفضل. انظر كشف السلوك الضار.
المعرفة في المجالات الحساسة WMDP (الأمن البيولوجي، الأمن الكيميائي، الأمن السيبراني) الدقة عبر ثلاثة مجموعات فرعية حساسة من المجالات. الدقة الأعلى تشير إلى معرفة أكبر بالقدرات الحساسة. انظر المعرفة الحساسة في المجالات.
اكتشاف السمية ToxiGen (مشروح) درجة F1 لقدرة اكتشاف المحتوى السام. الأعلى أفضل. انظر اكتشاف المحتوى السام.
Reasoning BIG-Bench هارد (1000 عينة فرعية) تقييم قدرات التفكير. القيم الأعلى أفضل.
الترميز BigCodeBench (تعليمات)، LiveBench (برمجة)،LiveCodeBenchمتوسط MBPPPlus يقيس الدقة في المهام المتعلقة بالشيفرة. القيم الأعلى أفضل.
المعرفة العامة MMLU-Pro (عينة فرعية إنجليزية 1K) 1000 مثال من نموذج فرعي إنجليزي فقط من MMLU-Pro.
سؤال وأجوبة Arena-Hard، GPQA (ماسي) ضمان جودة التفضيل البشري المعارض (Arena-Hard) وضمان الجودة متعدد التخصصات على مستوى الدراسات العليا (GPQA Diamond). القيم الأعلى أفضل.
الرياضيات MATH (500 عينة فرعية) يقيس قدرات الاستدلال الرياضي لنماذج اللغة. القيم الأعلى أفضل.
الارتباط بالواقع تروثفول QA (MC1) تقييم الأساس / الصدق متعدد الخيارات لنماذج اللغة. القيم الأعلى أفضل.

معايير الجودة لتضمين النماذج

يتم تعريف فهرس الجودة لنماذج التضمين على أنه متوسط درجات الدقة لمجموعة شاملة من مجموعات البيانات القياسية لواجهة برمجة التطبيقات بلا خادم التي تستهدف مهام استرداد المعلومات وتكوين أنظمة مجموعات المستندات والملخصات.

مقياس وصف
الدقة الدقة هي نسبة التنبؤات الصحيحة بين العدد الإجمالي للتنبؤات التي تمت معالجتها.
درجة F1 F1 Score هو الوسط المرجح للدقة والاسترجاع، حيث تكون أفضل قيمة واحدة (دقة واسترجاع مثالية)، والأسوأ هو صفر.
متوسط متوسط الدقة (MAP) تقيم MAP جودة أنظمة التصنيف والتوصية. وهو يقيس أهمية العناصر المقترحة ومدى جودتها في وضع العناصر الأكثر صلة في الأعلى. يمكن أن تتراوح القيم من صفر إلى واحد، كلما ارتفعت MAP، كان النظام أفضل لوضع العناصر ذات الصلة في أعلى القائمة.
مكاسب تراكمية مخفضة تمت تسويتها (NDCG) يقوم NDCG بتقييم قدرة خوارزمية machine learning على فرز العناصر بناء على الصلة. فهو يقارن التصنيفات بترتيب مثالي حيث تكون جميع العناصر ذات الصلة في أعلى القائمة، حيث k هو طول القائمة أثناء تقييم جودة الترتيب. في هذه المعايير، k=10، المشار إليه بمقياس ل ndcg_at_10، مما يعني أن أفضل 10 عناصر يتم تقييمها.
Precision تقيس الدقة قدرة النموذج على تحديد مثيلات فئة معينة بشكل صحيح. تظهر الدقة مدى تكرار صحة نموذج machine learning عند التنبؤ بالفئة المستهدفة.
ارتباط الرمح يتم حساب ارتباط الرمح المستند إلى التشابه بين التمام أولا عن طريق حساب تشابه التمام بين المتغيرات، ثم ترتيب هذه الدرجات واستخدام الرتب لحساب ارتباط الرمح.
مقياس V قياس V هو مقياس يستخدم لتقييم جودة التجميع. يتم حساب قياس V على أنه وسط توافقي للتجانس والاكتمال، ما يضمن التوازن بين الاثنين للحصول على درجة ذات مغزى. تكمن الدرجات المحتملة بين صفر وواحد، مع وصف واحد كامل تماما.

حساب النقاط

درجات فردية

تنشأ النتائج المعيارية من مجموعات البيانات العامة التي تستخدم عادة لتقييم نموذج اللغة. في معظم الحالات، يتم استضافة البيانات في مستودعات GitHub التي يديرها المبدعون أو القيمون على البيانات. تقوم Foundry Evaluation pipelines بتنزيل البيانات من مصادرها الأصلية، واستخراج المحفزات من كل صف مثال، وتوليد ردود النماذج، ثم حساب مقاييس الدقة ذات الصلة.

يتبع الإنشاء السريع أفضل الممارسات لكل مجموعة بيانات، كما هو محدد في الورقة التي تقدم مجموعة البيانات ومعايير الصناعة. في معظم الحالات، تحتوي كل مطالبة على عدة لقطات، أي عدة أمثلة على الأسئلة الكاملة والأجوبة على النموذج الرئيسي للمهمة. يختلف عدد الطلقات حسب مجموعة البيانات ويتبع المنهجية المحددة في النشر الأصلي لكل مجموعة بيانات. تقوم pipelines التقييم بإنشاء لقطات عن طريق أخذ عينات من الأسئلة والأجوبة من جزء من البيانات التي تم الاحتفاظ بها أثناء التقييم.

قيود المعيار

جميع المعايير لها قيود جوهرية يجب أن تأخذها في الاعتبار عند تفسير النتائج:

  • معايير الجودة: يمكن أن تصبح مجموعات بيانات المعيار مشبعة مع مرور الوقت مع تدريب أو ضبط النماذج على بيانات مماثلة. قد تختلف نتائج التقييم أيضا حسب البناء السريع وعدد الأمثلة القليلة المستخدمة.
  • معايير الأداء: يتم جمع المقاييس باستخدام أحمال عمل اصطناعية ذات نسبة رموز ثابتة من الإدخال إلى الإخراج ونشرات منطقة واحدة. قد يختلف الأداء في العالم الحقيقي بناء على أنماط عبء العمل، والتزامن، والمنطقة، وتكوين النشر.
  • معايير التكلفة: تستند تقديرات التكلفة إلى نسبة رمز المدخل إلى المخرج ثلاثة إلى واحد والتسعير الحالي في وقت القياس. التكاليف الفعلية تعتمد على عبء العمل الخاص بك وتخضع لتغيرات في الأسعار.