مشاركة عبر


تمكين معالجة الأولوية لنماذج مايكروسوفت فاوندري

توفر معالجة الأولوية أداء منخفض التأخير مع مرونة الدفع حسب الاستخدام. في هذا المقال، تقوم بتمكين معالجة الأولوية في نشر النموذج، وتتحقق من أي مستوى خدمة عالجت طلباتك، وتراقب التكاليف المرتبطة به.

المتطلبات المسبقه

  • اشتراك Azure - إنشاء واحد مجانا.
  • project مايكروسوفت فاوندري مع نموذج من نوع النشر GlobalStandard أو DataZoneStandard تم نشره.
  • نسخة 2025-12-01 API أو لاحقا.

حالات الاستخدام الرئيسية

  • متسق ومنخفض الكمون لتجارب مستخدم سريعة الاستجابة.
  • بساطة الدفع حسب الاستخدام بدون التزامات طويلة الأمد.
  • حركة مرور في ساعات العمل أو انفجارات تستفيد من أداء قابل للتوسع وفعال من حيث التكلفة. اختياريا، يمكنك دمج معالجة الأولوية مع وحدات النقل المخصصة (PTU) لتحسين السعة المستقرة والتكاليف.

هدف التأخير

النموذج قيمة هدف الكمون2
GPT-5.4، 2026-03-051 99% > 50 رمزا في الثانية
GPT-5.2، 2025-12-11 99% > 50 رمزا في الثانية
جي بي تي -5.1, 2025-11-13 99% > 50 رمزا في الثانية
GPT-4.1، 2025-04-14 99% > 80 رمزا في الثانية

1 طلبات السياق الطويل (أي الطلبات التي تقدر بأكثر من 128 ألف رمز مطالبة) سيتم تخفيض تقييمها إلى المعالجة القياسية وسيتم تحصيل الرسوم بمعدل الدرجة القياسية.

2 تم حسابها كزمن استجابة لطلب p50 لكل 5 دقائق.

توفر أولوية المعالجة حسب نوع النشر

يمكن تفعيل المعالجة ذات الأولوية في عمليات النشر القياسية العالمية أو عمليات نشر منطقة البيانات القياسية (الولايات المتحدة). للحصول على معلومات التسعير، راجع صفحة التسعير في Azure OpenAI.

توفر نموذج المعيار العالمي

Region GPT-5.4، 2026-03-05 GPT-5.2، 2025-12-11 GPT-5.1، 2025-11-13 GPT-4.1، 2025-04-14
australiaeast -
البرازيل الجنوبية -
مركز كندا -
canadaeast -
centralus -
eastus -
eastus2 - - - -
francecentral -
مركز ألمانيا -
رقم إيطاليا -
japaneast -
مركز كوريا -
شمال وسط الولايات المتحدة -
norwayeast -
polandcentral
جنوب أفريقيا -
مركز جنوبي
جنوب شرق آسيا -
southindia -
مركز إسبانيا -
swedencentral
switzerlandnorth -
سويسرا فيست -
uaenorth -
uksouth -
غرب أوروبا -
westus -
westus3 -

تمكين المعالجة ذات الأولوية على مستوى النشر

يمكنك تفعيل المعالجة ذات الأولوية على مستوى النشر و (اختياريا) على مستوى الطلب.

‏‫ملاحظة‬

يمكن تفعيل معالجة الأولوية في النشر القياسي العالمي أو معيار منطقة البيانات (الولايات المتحدة). تستخدم معالجة الأولوية نفس الحصة التي تستخدم المعالجة القياسية.

في بوابة مايكروسوفت فاوندري ، قم بتفعيل مفتاح أولوية المعالجة في صفحة تفاصيل النشر عند إنشاء النشر أو قم بتحديث إعداد نموذج تم نشره عن طريق تعديل تفاصيل النشر.

لقطة شاشة توضح كيفية تفعيل معالجة الأولوية أثناء نشر النموذج في بوابة Foundry.

‏‫ملاحظة‬

إذا كنت تفضل استخدام الكود لتمكين المعالجة ذات الأولوية على مستوى النشر، يمكنك ذلك عبر واجهة برمجة تطبيقات REST للنشر عن طريق تعيين السمة service_tier كما يلي: "properties" : {"service_tier" : "priority"}. القيم المسموح بها للسمة service_tier هي default و priority. default يعني المعالجة القياسية، بينما priority يتيح معالجة أولوية.

بمجرد تكوين نشر النموذج لاستخدام معالجة الأولوية، يمكنك البدء في إرسال الطلبات إلى النموذج.

عرض مقاييس الاستخدام

يمكنك عرض مقياس الاستخدام لموردك في قسم Azure Monitor في Azure portal.

لعرض حجم الطلبات التي تمت معالجتها بواسطة المعالجة القياسية مقابل معالجة الأولوية، مقسمة على مستوى الخدمة (القياسي أو الأولوية) الذي كان في الطلب الأصلي:

  1. سجل الدخول إلى https://portal.azure.com.
  2. اذهب إلى مورد OpenAI الخاص بك Azure واختر خيار Metrics من التنقل الأيسر.
  3. في صفحة المقاييس، أضف مقياس Azure طلبات OpenAI. يمكنك أيضا اختيار مقاييس أخرى مثل Azure تأخير OpenAI، Azure استخدام OpenAI، وغيرها.
  4. اختر إضافة فلتر لتحديد النشر القياسي الذي تمت معالجة طلبات معالجة الأولوية له.
  5. اختر تطبيق التقسيم لتقسيم القيم حسب ServiceTierRequest و ServiceTierResponse.

لقطة شاشة لاستخدام أولوية المعالجة في صفحة المقاييس الخاصة بالمورد في Azure portal.

لمزيد من المعلومات حول مراقبة نشراتك، راجع Monitor Azure OpenAI.

مراقبة التكاليف

يمكنك رؤية تفصيل التكاليف للطلبات ذات الأولوية والطلبات القياسية في صفحة تحليل التكاليف في Azure portal عن طريق تصفية أسماء النشر وعلامات الفوترة كما يلي:

  1. اذهب إلى صفحة تحليل التكاليف في Azure portal.
  2. (اختياري) تصفية حسب المورد.
  3. للتصفية حسب اسم النشر: أضف فلتر للفوترة اختر الوسم>النشر كقيمة، ثم اختر اسم النشر الخاص بك.

لقطة شاشة لاستخدام أولوية المعالجة في صفحة تحليل تكلفة المورد في Azure portal.

للحصول على معلومات حول التسعير للمعالجة ذات الأولوية، راجع نظرة عامة على التسعير Azure OpenAI Service.

تمكين معالجة الأولوية على مستوى الطلب

تمكين معالجة الأولوية على مستوى الطلب اختياري. كل من واجهة برمجة تطبيقات إكمال الدردشة وواجهة برمجة تطبيقات الردود تحتويان على خاصية service_tier اختيارية تحدد نوع المعالجة المستخدمة عند تقديم طلب. المثال التالي يوضح كيفية تعيين service_tier إلى priority في طلب الردود.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

استخدم السمة service_tier لتجاوز إعداد مستوى النشر. service_tier يمكن أن تأخذ القيم auto، default، و priority.

  • إذا لم تقم بتعيين السمة، فإنها تتحول افتراضيا إلى auto.

  • service_tier = auto يعني أن الطلب يستخدم طبقة الخدمة المهيأة في النشر.

  • service_tier = default يعني أن الطلب يستخدم التسعير والأداء القياسي للنموذج المختار.

  • service_tier = priority يعني أن الطلب يستخدم طبقة خدمة المعالجة ذات الأولوية.

يلخص الجدول التالي أي مستوى خدمة يعالج طلباتك بناء على إعدادات مستوى النشر ومستوى الطلب ل service_tier.

إعداد على مستوى النشر إعداد مستوى الطلب الطلب معالج حسب مستوى الخدمة
افتراضي تلقائي، افتراضي Standard
افتراضي أولوية المعالجة ذات الأولوية
أولوية تلقائي، أولوية المعالجة ذات الأولوية
أولوية افتراضي Standard

القيود

  • الخدمة حاليا لا تدعم نشر المعايير الإقليمية ونشر مناطق البيانات في الاتحاد الأوروبي.

  • قد تعيد الخدمة توجيه بعض طلبات الأولوية إلى المعالجة القياسية* خلال هذه السيناريوهات:

    • إذا كانت الزيادات السريعة في رموز معالجة الأولوية في الدقيقة تؤدي إلى الوصول إلى حدود معدل الارتفاع. حاليا، يعرف حد معدل المنحدر بأنه زيادة حركة المرور بأكثر من 50% رمزا في الدقيقة خلال أقل من 15 دقيقة.
    • خلال فترات الذروة للطلبات إلى معالجة ذات أولوية.
    • طلبات السياق الطويل المرسلة إلى نماذج معينة المدرجة في جدول هدف الكمون.

    نصيحة

    إذا كنت تواجه حدودا لمعدل الزيادة بشكل روتيني، فكر في شراء وحدة PTU بدلا من أو بالإضافة إلى معالجة الأولوية.

    * فواتير الخدمة تتم معالجة طلباتها بواسطة المستوى القياسي للخدمة بأسعار قياسية. الطلبات التي تعالجها طبقة الخدمة القياسية تتضمن service_tier = default الرد، بينما الطلبات التي تتم معالجتها حسب مستوى معالجة الأولوية تتضمن service_tier = priority الرد.

استكشاف الأخطاء وإصلاحها

مشكلة السبب الحل
تم تخفيض الطلبات إلى المستوى القياسي واحدة من هذه الحالات:
- زاد عدد المرورات أكثر من 50% رمزا في الدقيقة خلال أقل من 15 دقيقة، ليصل إلى حد معدل المنحدر.
- الطلبات المرسلة خلال فترات الذروة للمعالجة ذات الأولوية.
- طلبات السياق الطويل المرسلة إلى نماذج معينة المدرجة في جدول هدف التأخير.
- زيادة حركة المرور تدريجيا، إذا واجهت حدود معدل المنحدر.
- فكر في شراء وحدة PTU لسعة الحالة المستقرة.