إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
توفر هذه المقالة مرجعا سريعا ووصفا مفصلا للحصص والحدود لنماذج Foundry التي تباع مباشرة من قبل Azure. للحصص والحدود الخاصة ب Azure OpenAI في نماذج Foundry، انظر الحصص والحدود في Azure OpenAI.
مرجع الحصص النسبية والحدود
توفر الأقسام التالية دليلا سريعا للحصص والحدود الافتراضية التي تنطبق على نماذج المسبك:
حدود الموارد (لكل اشتراك في Azure، لكل منطقة)
| اسم الحد | القيمة الحدية |
|---|---|
| Foundry resources لكل منطقة لكل اشتراك في Azure | 100 |
| الحد الأقصى للمشاريع لكل مورد | 250 |
| أقصى عدد من عمليات النشر لكل مورد (نشر النماذج داخل مورد Foundry) | 32 |
حدود الأسعار
يسرد الجدول التالي حدود نماذج المسبك للمعدلات التالية:
- الرموز المميزة في الدقيقة
- عدد الطلبات في الدقيقة
- طلب متزامن
| Models | الرموز المميزة في الدقيقة | عدد الطلبات في الدقيقة | الطلبات المتزامنة |
|---|---|---|---|
| نماذج Azure OpenAI | يختلف لكل نموذج وSKU. انظر limits Azure OpenAI. | يختلف لكل نموذج وSKU. انظر limits Azure OpenAI. | يختلف. انظر Azure حدود OpenAI. |
| - DeepSeek-R1 - ديب سيك-V3-0324 |
5,000,000 | 5,000 | 300 |
| - لاما 3.3 70 ب تعليمات - لاما -4-مافريك -17 ب -128 إي -Instruct-FP8 - جروك 3 - جروك 3 ميني |
400,000 | 1,000 | 300 |
| - فلوكس.2-برو | لا ينطبق | - منخفض (افتراضي): 15 - متوسط: 30 - عالي (المؤسسات): 100 |
لا ينطبق |
| - Flux-Pro 1.1 - Flux.1-كونتكست برو |
لا ينطبق | 2 وحدة سعة (6 طلبات في الدقيقة) | لا ينطبق |
| بقية النماذج | 400,000 | 1,000 | 300 |
لزيادة حصتك:
- بالنسبة Azure OpenAI، استخدم Foundry Service: طلب زيادة الحصة لتقديم طلبك.
- بالنسبة للطرز الأخرى، راجع زيادات الطلب إلى الحدود الافتراضية.
نظرا للطلب المرتفع، يتم تقييم طلبات زيادة الحد بشكل فردي.
حدود أخرى
| اسم الحد | القيمة الحدية |
|---|---|
| الحد الأقصى لعدد الرؤوس المخصصة في طلبات واجهة برمجةالتطبيقات 1 | 10 |
1 تسمح واجهات برمجة التطبيقات الحالية بما يصل إلى 10 رؤوس مخصصة، يمر بها خط الأنابيب ويعيدها. إذا تجاوزت عدد الرؤوس هذا، سيؤدي طلبك إلى ظهور خطأ HTTP 431. لحل هذا الخطأ، قم بتقليل حجم الرأس. لن تمر إصدارات واجهة برمجة التطبيقات المستقبلية عبر الرؤوس المخصصة. لا تعتمد على رؤوس مخصصة في بنى النظام المستقبلية.
مستويات الاستخدام
تستخدم عمليات نشر المعايير العالمية البنية التحتية العالمية ل Azure لتوجيه حركة العملاء ديناميكيا إلى مركز البيانات مع أفضل توفر لطلبات الاستنتاج الخاصة بالعميل. تتيح هذه البنية الأساسية زمن انتقال أكثر اتساقا للعملاء الذين لديهم مستويات منخفضة إلى متوسطة من حركة المرور. قد يرى العملاء الذين لديهم مستويات عالية من الاستخدام المستمر المزيد من القدرات المتغيرة في زمن انتقال الاستجابة.
يحدد حد الاستخدام مستوى الاستخدام الذي قد يرى العملاء أعلاه تغيرا أكبر في زمن انتقال الاستجابة. يتم تعريف استخدام العميل لكل نموذج وهو إجمالي الرموز المميزة المستهلكة عبر جميع عمليات التوزيع في جميع الاشتراكات في جميع المناطق لمستأجر معين.
يزيد الطلب إلى الحدود الافتراضية
قدم نموذج طلب زيادة الحصة c0 لطلب زيادة الحصص ل Foundry Models التي تباع مباشرة من قبل Azure، Azure نماذج OpenAI، والنماذج الأنثروبيكية. باستثناء النماذج الأنثروبية، فإن النماذج من الشركاء والمجتمع لا تدعم زيادة الحصص.
تتم معالجة طلبات زيادة الحصة حسب ترتيب استلامها، وتعطى الأولوية للعملاء الذين يستخدمون تخصيص الحصص الحالي لديهم بنشاط. قد يتم رفض الطلبات التي لا تستوفي هذا الشرط.
أفضل الممارسات العامة للبقاء ضمن حدود الأسعار
لتقليل المشكلات المتعلقة بحدود المعدل، استخدم الأساليب التالية:
- تنفيذ منطق إعادة المحاولة في التطبيق الخاص بك.
- تجنب التغييرات الحادة في حمل العمل. زيادة حمل العمل تدريجيا.
- اختبار أنماط زيادة التحميل المختلفة.
- قم بزيادة الحصة النسبية المعينة للتوزيع الخاص بك. نقل الحصة النسبية من نشر آخر، إذا لزم الأمر.
ضبط مهلة العميل
حدد مهلة العميل بشكل صريح بناء على الإرشادات التالية.
ملاحظة
إذا لم يتم تحديده بشكل صريح، فإن مهلة العميل موجودة كما هو الحال في المكتبة المستخدمة، وقد لا تكون نفس الحدود السابقة.
- نماذج الاستدلالية (نماذج تولد رموز استدلالية وسيطة قبل إنتاج استجابة مختصرة): حتى 29 دقيقة.
- نماذج غير منطقية:
- للبث، حتى 60 ثانية.
- للطلبات غير المتعلقة بالبث، حتى 29 دقيقة.
29 دقيقة هنا لا تعني أن جميع الطلبات ستستغرق 29 دقيقة، بل اعتمادا على رموز السياق، والرموز المولدة، ومعدلات الإصابة في ذاكرة التخزين المؤقت، قد تستغرق الطلبات حتى 29 دقيقة.
حدد مهلة مستقطعة أقل من هذه القيم، مضبوطة على أنماط حركة المرور لديك.
بالنسبة لنماذج الاستدلال بما في ذلك طلبات البث، يتم أولا توليد جميع رموز الاستدلال ثم تلخيصها قبل إعادة إرسال رمز الاستجابة الأولى إلى المستخدم.
يمكنك تعديل معامل جهد الاستدلالات للتحكم في عدد رموز الاستدلالية التي يتم توليدها أثناء العملية.
استكشاف الأخطاء وإصلاحها
| العرض | السبب | الحل |
|---|---|---|
| HTTP 429 طلبات كثيرة جدا | تجاوز حد الرمز لكل دقيقة أو الطلب لكل دقيقة | نفذ منطق إعادة المحاولة مع ارتداد أسي. استخدم Retry-After قيمة الرأس. |
| حقول رأس طلب HTTP 431 كبيرة جدا | تم إرسال أكثر من 10 رؤوس مخصصة | قلل الرؤوس المخصصة إلى 10 أو أقل. |
| صفحة الحصص تظهر 0 متاحة | الاشتراك أو الحصة الإقليمية المخصصة بالكامل | نقل الحصة غير المستخدمة من نشر آخر. لزيادة حدك، اطلب زيادة الحصة. |
| النموذج غير متوفر في المنطقة | النموذج غير مدعوم أو ينشر في المنطقة المحددة | تحقق من <توفر c0>model واختر المنطقة المتاحة. |