نماذج مختارة باستخدام المعايير

9 دقائق

نصيحة

راجع علامة التبويب النص والصور لمزيد من التفاصيل!

قبل نشر نموذج، تريد أن تفهم كيف يعمل عبر أبعاد مختلفة. توفر معايير النماذج بيانات موضوعية وقابلة للقياس لمساعدتك على مقارنة النماذج واتخاذ قرارات اختيار مستنيرة. توفر بوابة Microsoft Foundry أدوات قياس شاملة للمقارنة منظمة حسب مقاييس الجودة، والسلامة، والتكلفة، والأداء.

معايير نماذج Access

يمكنك استكشاف المعايير بطريقتين داخل بوابة Microsoft Foundry:

في كتالوج النماذج، عرض لوحة المتصدرين للنماذج لرؤية التصنيفات المقارنة بين جميع النماذج المتاحة. تساعدك هذه الرؤية على تحديد النماذج الأعلى أداء لمقاييس أو سيناريوهات محددة. تعرض لوحة المتصدرين أفضل الطرازات المرتبة حسب الجودة، والأمان، والتكلفة المقدرة، ومعدل النقل.

للحصول على اختبارات تفصيلية لنموذج معين، افتح بطاقة الطراز الخاصة به واختر تبويب Benchmarks . تظهر هذه الرؤية كيف يؤدي النموذج الفردي عبر مختلف المقاييس ومجموعات البيانات، مع مخططات المقارنة التي تضعه نسبيا مع نماذج مماثلة.

معايير الجودة

تقيم معايير الجودة مدى جودة إنتاج النموذج لاستجابات دقيقة ومتسقة ومناسبة للسياق. تستخدم هذه المقاييس مجموعات بيانات عامة وطرق تقييم موحدة لضمان الاتساق.

يوفر مؤشر الجودة نظرة عامة على مستوى عال من خلال متوسط درجات الدقة عبر مجموعات بيانات مرجعية متعددة تقيس التفكير، والمعرفة، والإجابة على الأسئلة، والقدرات الرياضية، ومهارات البرمجة. تشير قيم مؤشرات الجودة الأعلى إلى أداء إجمالي أقوى عبر مهام اللغة العامة.

تستخدم معايير الجودة مجموعات بيانات مثل:

أرينا-هارد - الإجابة على أسئلة خصمية
BIG-Bench الصعب - قدرات التفكير
GPQA - أسئلة متعددة التخصصات على مستوى الدراسات العليا
HumanEval+ و MBPP+ - مهام توليد الشيفرة
الرياضيات - التفكير الرياضي
MMLU-Pro - تقييم المعرفة العامة
IFEval - اتباع التعليمات

الدرجات المعيارية هي مؤشرات مطبعة تتراوح من صفر إلى واحد، حيث تشير القيم الأعلى إلى أداء أفضل.

معايير السلامة

تضمن مقاييس السلامة أن النماذج لا تولد محتوى ضار أو متحيز أو غير مناسب. تعد هذه المعايير ضرورية للتطبيقات المعرضة للمستخدمين النهائيين، خاصة في الصناعات المنظمة أو السيناريوهات التي تواجه العملاء.

تقوم مايكروسوفت فاوندري بتقييم النماذج عبر عدة أبعاد أمانية:

يستخدم اكتشاف السلوك الضار معيار HarmBench لقياس مدى مقاومة النماذج لتوليد المحتوى غير الآمن. يحسب التقييم معدل نجاح الهجوم (ASR)، حيث تشير القيم الأدنى إلى نماذج أكثر أمانا وقوة. يختبر HarmBench ثلاثة مجالات وظيفية:

السلوكيات الضارة القياسية - الجرائم الإلكترونية، الأنشطة غير القانونية، الأضرار العامة
السلوكيات الضارة في السياق - معلومات مضللة، مضايقة، تنمر
انتهاكات حقوق النشر - إعادة إنتاج مواد محمية بحقوق النشر

يستخدم كشف المحتوى السام مجموعة بيانات ToxiGen لقياس مدى قدرة النماذج على تحديد خطاب الكراهية العدائي والضمني. تشير درجات F1 الأعلى إلى أداء أفضل في الكشف عبر الإشارات إلى الأقليات.

تستخدم المعرفة الحساسة في المجال معيار WMDP (وكالة أسلحة الدمار الشامل) لقياس معرفة النماذج في الأمن البيولوجي، والأمن السيبراني، والأمن الكيميائي. تشير الدرجات الأعلى في WMDP إلى معرفة أكبر بالقدرات المحتملة الخطرة.

تساعدك درجات السلامة على فهم متانة النماذج، وهي مهمة خاصة للتطبيقات التي تواجه العملاء حيث تثير المخرجات الضارة مخاوف كبيرة.

معايير التكلفة

فهم الأثر المالي لاستخدام النماذج يساعدك على موازنة متطلبات الجودة مع قيود الميزانية. تعرض معايير التكلفة في Microsoft Foundry أسعار نشر واجهات برمجة التطبيقات بدون خادم ونماذج Azure OpenAI.

تكلفة لكل رمز إدخال تظهر سعر معالجة مليون رمز إدخال (النص الذي ترسله إلى النموذج).

تشير التكلفة لكل رمز مخرج إلى سعر توليد مليون رمز إخراج (النص الذي ينتجه النموذج).

التكلفة المقدرة تجمع بين تكاليف المدخل والمخرج باستخدام نسبة 3:1 نموذجية (ثلاثة رموز إدخال لكل رمز إخراج)، مما يمنحك رقما واحدا للمقارنة. تشير القيم الأقل إلى نماذج أكثر فعالية من حيث التكلفة.

تساعدك معايير التكلفة في تحديد النماذج التي تقدم الجودة التي تحتاجها بسعر يتناسب مع أنماط استخدام وميزانية تطبيقك.

معايير الأداء

تقيس مقاييس الأداء مدى سرعة وكفاءة استجابة النماذج للطلبات. هذه المعايير مهمة للتطبيقات الفورية حيث تعتمد تجربة المستخدم على الاستجابة.

تشمل قياسات الكمون:

متوسط التأخير - متوسط الوقت بالثواني لمعالجة طلب
زمن الاستجابة P50 (الوسيط) - 50% من الطلبات تكتمل أسرع من هذا الوقت
زمن الاستجابة P90 - 90% من الطلبات تكتمل أسرع من هذه المرة
زمن الاستجابة P95 - 95% من الطلبات تكتمل أسرع من هذه المرة
زمن الاستجابة P99 - 99% من الطلبات تكتمل أسرع من هذه المرة
الوقت إلى أول رمز (TTFT) - الوقت حتى وصول الرمز الأول عند استخدام البث

تشمل قياسات معدل النقل:

الرموز المولدة في الثانية (GTPS) - الرموز المولدة في الثانية
إجمالي الرموز في الثانية (TTPS) - يتم معالجة رموز الإدخال والإخراج المدمجة في الثانية
الوقت بين الرموز - الفترة بين استلام الرموز المتتالية

تلخص لوحة المتصدرين الأداء باستخدام متوسط الوقت للوصول إلى أول رمز (الأقل أفضل) ومتوسط الرموز المولدة في الثانية (الأعلى أفضل). توفر نماذج عالية الإنتاجية ومنخفضة التأخير تجارب مستخدم أفضل في التطبيقات التفاعلية. بالنسبة لوظائف المعالجة الدفعية حيث السرعة أقل أهمية من التكلفة، يمكنك إعطاء أولوية لعوامل أخرى.

استخدم لوحات المتصدرين وميزات المقارنة

لوحة المتصدرين في النماذج تتيح لك عرض أفضل النماذج لمقاييس محددة. يمكنك تصنيفها حسب الجودة، والسلامة، والتكلفة المقدرة، وسرعة النقل لتحديد النماذج التي تناسب متطلباتك بشكل أفضل.

تساعدك لوحات الصدارة في السيناريوهات في العثور على نماذج محسنة لحالات استخدام محددة مثل التفكير أو البرمجة أو الرياضيات أو الإجابة على الأسئلة، أو التأسس. إذا كان تطبيقك يتوافق مع سيناريو معين، ابدأ بلوحة المتصدرين ذات الصلة بدلا من الاعتماد فقط على مؤشر الجودة العام.

تعرض مخططات المقايضة مقياسين في نفس الوقت، مثل الجودة مقابل التكلفة أو الجودة مقابل معدل النقل. تساعدك هذه التصورات في إيجاد التوازن الأمثل لمتطلباتك. استخدم القائمة المنسدلة لمقارنة الجودة بالتكلفة أو سرعة النقل أو السلامة. النماذج الأقرب إلى الزاوية اليمنى العليا من الجدول تحقق أداء جيدا في كلا المقياسين. الطراز الأقل دقة قليلا لكنه أسرع أو أرخص بكثير قد يخدم احتياجاتك بشكل أفضل.

المقارنة جنبا إلى جنب تتيح لك اختيار نموذجين أو ثلاثة من لوحة المتصدرين ومقارنتها عبر عدة أبعاد:

معايير الأداء (الجودة، السلامة، معدل النقل)
تفاصيل النموذج (نافذة السياق، بيانات التدريب، اللغات المدعومة)
نقاط النهاية المدعومة (خيارات النشر)
دعم الميزات (استدعاء الدوال، المخرج المنظم، الرؤية)

اختر النماذج بوضع علامة على مربعات بجانب أسمائها، ثم اختر المقارنة لفتح عرض المقارنة التفصيلية.

الملاحظات

هل كانت هذه الصفحة مفيدة؟