حصص وحدود نماذج مايكروسوفت فاوندري

توفر هذه المقالة مرجعا سريعا ووصفا مفصلا للحصص والحدود لنماذج Foundry التي تباع مباشرة من قبل Azure. للحصص والحدود الخاصة ب Azure OpenAI في نماذج Foundry، انظر الحصص والحدود في Azure OpenAI.

مرجع الحصص النسبية والحدود

توفر الأقسام التالية دليلا سريعا للحصص والحدود الافتراضية التي تنطبق على نماذج المسبك:

حدود الموارد (لكل اشتراك في Azure، لكل منطقة)

اسم الحد القيمة الحدية
Foundry resources لكل منطقة لكل اشتراك في Azure 100
الحد الأقصى للمشاريع لكل مورد 250
أقصى عدد من عمليات النشر لكل مورد (نشر النماذج داخل مورد Foundry) 32

حدود الأسعار

يسرد الجدول التالي حدود نماذج المسبك للمعدلات التالية:

  • الرموز المميزة في الدقيقة
  • عدد الطلبات في الدقيقة
  • طلب متزامن
Models الرموز المميزة في الدقيقة عدد الطلبات في الدقيقة الطلبات المتزامنة
نماذج Azure OpenAI يختلف لكل نموذج وSKU. انظر limits Azure OpenAI. يختلف لكل نموذج وSKU. انظر limits Azure OpenAI. يختلف. انظر Azure حدود OpenAI.
- DeepSeek-R1
- ديب سيك-V3-0324
5,000,000 5,000 300
- لاما 3.3 70 ب تعليمات
- لاما -4-مافريك -17 ب -128 إي -Instruct-FP8
- جروك 3
- جروك 3 ميني
400,000 1,000 300
- فلوكس.2-برو لا ينطبق - منخفض (افتراضي): 15
- متوسط: 30
- عالي (المؤسسات): 100
لا ينطبق
- Flux-Pro 1.1
- Flux.1-كونتكست برو
لا ينطبق 2 وحدة سعة (6 طلبات في الدقيقة) لا ينطبق
بقية النماذج 400,000 1,000 300

لزيادة حصتك:

نظرا للطلب المرتفع، يتم تقييم طلبات زيادة الحد بشكل فردي.

حدود أخرى

اسم الحد القيمة الحدية
الحد الأقصى لعدد الرؤوس المخصصة في طلبات واجهة برمجةالتطبيقات 1 10

1 تسمح واجهات برمجة التطبيقات الحالية بما يصل إلى 10 رؤوس مخصصة، يمر بها خط الأنابيب ويعيدها. إذا تجاوزت عدد الرؤوس هذا، سيؤدي طلبك إلى ظهور خطأ HTTP 431. لحل هذا الخطأ، قم بتقليل حجم الرأس. لن تمر إصدارات واجهة برمجة التطبيقات المستقبلية عبر الرؤوس المخصصة. لا تعتمد على رؤوس مخصصة في بنى النظام المستقبلية.

مستويات الاستخدام

تستخدم عمليات نشر المعايير العالمية البنية التحتية العالمية ل Azure لتوجيه حركة العملاء ديناميكيا إلى مركز البيانات مع أفضل توفر لطلبات الاستنتاج الخاصة بالعميل. تتيح هذه البنية الأساسية زمن انتقال أكثر اتساقا للعملاء الذين لديهم مستويات منخفضة إلى متوسطة من حركة المرور. قد يرى العملاء الذين لديهم مستويات عالية من الاستخدام المستمر المزيد من القدرات المتغيرة في زمن انتقال الاستجابة.

يحدد حد الاستخدام مستوى الاستخدام الذي قد يرى العملاء أعلاه تغيرا أكبر في زمن انتقال الاستجابة. يتم تعريف استخدام العميل لكل نموذج وهو إجمالي الرموز المميزة المستهلكة عبر جميع عمليات التوزيع في جميع الاشتراكات في جميع المناطق لمستأجر معين.

يزيد الطلب إلى الحدود الافتراضية

قدم نموذج طلب زيادة الحصة c0 لطلب زيادة الحصص ل Foundry Models التي تباع مباشرة من قبل Azure، Azure نماذج OpenAI، والنماذج الأنثروبيكية. باستثناء النماذج الأنثروبية، فإن النماذج من الشركاء والمجتمع لا تدعم زيادة الحصص.

تتم معالجة طلبات زيادة الحصة حسب ترتيب استلامها، وتعطى الأولوية للعملاء الذين يستخدمون تخصيص الحصص الحالي لديهم بنشاط. قد يتم رفض الطلبات التي لا تستوفي هذا الشرط.

أفضل الممارسات العامة للبقاء ضمن حدود الأسعار

لتقليل المشكلات المتعلقة بحدود المعدل، استخدم الأساليب التالية:

  • تنفيذ منطق إعادة المحاولة في التطبيق الخاص بك.
  • تجنب التغييرات الحادة في حمل العمل. زيادة حمل العمل تدريجيا.
  • اختبار أنماط زيادة التحميل المختلفة.
  • قم بزيادة الحصة النسبية المعينة للتوزيع الخاص بك. نقل الحصة النسبية من نشر آخر، إذا لزم الأمر.

ضبط مهلة العميل

حدد مهلة العميل بشكل صريح بناء على الإرشادات التالية.

‏‫ملاحظة‬

إذا لم يتم تحديده بشكل صريح، فإن مهلة العميل موجودة كما هو الحال في المكتبة المستخدمة، وقد لا تكون نفس الحدود السابقة.

  • نماذج الاستدلالية (نماذج تولد رموز استدلالية وسيطة قبل إنتاج استجابة مختصرة): حتى 29 دقيقة.
  • نماذج غير منطقية:
    • للبث، حتى 60 ثانية.
    • للطلبات غير المتعلقة بالبث، حتى 29 دقيقة.

29 دقيقة هنا لا تعني أن جميع الطلبات ستستغرق 29 دقيقة، بل اعتمادا على رموز السياق، والرموز المولدة، ومعدلات الإصابة في ذاكرة التخزين المؤقت، قد تستغرق الطلبات حتى 29 دقيقة.

حدد مهلة مستقطعة أقل من هذه القيم، مضبوطة على أنماط حركة المرور لديك.

بالنسبة لنماذج الاستدلال بما في ذلك طلبات البث، يتم أولا توليد جميع رموز الاستدلال ثم تلخيصها قبل إعادة إرسال رمز الاستجابة الأولى إلى المستخدم.

يمكنك تعديل معامل جهد الاستدلالات للتحكم في عدد رموز الاستدلالية التي يتم توليدها أثناء العملية.

استكشاف الأخطاء وإصلاحها

العرض السبب الحل
HTTP 429 طلبات كثيرة جدا تجاوز حد الرمز لكل دقيقة أو الطلب لكل دقيقة نفذ منطق إعادة المحاولة مع ارتداد أسي. استخدم Retry-After قيمة الرأس.
حقول رأس طلب HTTP 431 كبيرة جدا تم إرسال أكثر من 10 رؤوس مخصصة قلل الرؤوس المخصصة إلى 10 أو أقل.
صفحة الحصص تظهر 0 متاحة الاشتراك أو الحصة الإقليمية المخصصة بالكامل نقل الحصة غير المستخدمة من نشر آخر. لزيادة حدك، اطلب زيادة الحصة.
النموذج غير متوفر في المنطقة النموذج غير مدعوم أو ينشر في المنطقة المحددة تحقق من <توفر c0>model واختر المنطقة المتاحة.