الحوسبة المدارة في Microsoft Foundry (معاينة)

ملحوظة

الحساب المدار في Foundry حاليا في المعاينة العامة والتسجيل مطلوب لاستخدامه. يتم توفير هذا العرض التمهيدي دون اتفاقية على مستوى الخدمة، ولا نوصي به لأعباء العمل الإنتاجية. قد لا تكون بعض الميزات مدعومة أو قد تكون ذات قدرات محدودة. لمزيد من المعلومات، راجع شروط الاستخدام الإضافية لمعاينات Microsoft Azure.

الحوسبة المدارة (المعاينة) هي نوع نشر في Microsoft Foundry يستضيف نماذج مفتوحة المصدر على سعة مخصصة لوحدة معالجة الرسوميات دون الحاجة إلى توفير آلات افتراضية، أو تشغيل عنقود Kubernetes، أو بناء صور الحاويات، أو امتلاك وقت تشغيل يخدم النماذج. تمتلك Microsoft طوبولوجيا وحدة معالجة الرسوميات، ووقت التشغيل، وصورة الحاوية، وتصحيحات الأمان. تختار النموذج، وقالب النشر، وعائلة المسرعات، وسلوك التوسع الذي يتناسب مع عبء عملك.

تستخدم الحوسبة المدارة نفس موارد Foundry، والمشروع، ونقطة النهاية، والمصادقة، وتكوين الشبكة، وSDKs، وقابلية الرصد، وسطح الفوترة مثل أي نوع نشر آخر في Foundry. بعد نشر نموذج باستخدام الحوسبة المدارة، يكون كود التطبيق الخاص بك هو نفسه أي نموذج Foundry آخر؛ فقط اسم النشر يتغير.

تشرح هذه المقالة نوع نشر الحوسبة المدارة في Foundry، والمفاهيم التي تعمل بها (نماذج النموذج، قوالب النشر، عائلات المسرعات، أوقات التشغيل)، الكتالوج الذي يمكنك النشر منه، نقاط نهاية الاستدلال، التكبير، الفوترة والحصص، التحكم في الوصول، والقيود الحالية. للحصول على تعليمات النشر خطوة بخطوة، انظر نشر نماذج مفتوحة المصدر مع الحوسبة المدارة.

أين يتناسب الحوسبة المدارة في Foundry

تقدم فاوندري ثلاثة أنواع من النشر. الحوسبة المدارة هي نوع النشر المستخدم في نماذج مفتوحة المصدر على سعة مخصصة لوحدة معالجة الرسوميات.

نوع التوزيع ما الذي يقدمه الفوترة الأفضل ل
الدفع لكل رمز قياسي Foundry Models تباع من قبل Azure لكل رمز مدخل ومخرج أدنى طريق للبدء؛ حركة مرور متقطعة على النماذج المستضافة بدون تخطيط للسعة.
معدل النقل المقدم نماذج Foundry التي تباع بواسطة Azure وحدات النقل المحجوزة حمل متوقع ومستدام على بعض نماذج المسبك المختارة التي تباعها Azure مع تأخير ثابت.
الحوسبة المدارة نماذج مفتوحة المصدر ونماذج مجتمعية من كتالوج فاوندري كل ساعة لكل عائلة من المسرعات استضافة نماذج مفتوحة المصدر على وحدات معالجة رسومات مخصصة مع أوقات تشغيل تديرها Foundry، وشبكات خاصة ونفس مجموعات تطوير البرمجيات مثل أنواع النشر الأخرى.

تشترك جميع أنواع النشر الثلاثة في نقطة نهاية واحدة من Foundry، ونفس أنماط المصادقة (Microsoft Entra ID ومفتاح التشغيل)، ونفس مجموعات تطوير البرمجيات، ونفس سطح الملاحظة، وفاتورة واحدة. يمكنك دمج جميع أنواع النشر الثلاثة في مشروع Foundry واحد واستدعاؤها من نفس كود العميل.

المفاهيم الأساسية

يغطي هذا القسم المفاهيم الرئيسية التي يجب فهمها قبل استخدام نشر الحوسبة المدارة في Foundry.

نموذج النموذج

نموذج الحالة هي وحدة النشر في الحوسبة المدارة. لا تختار وحدة تخزين لآلة افتراضية أو تحدد حجم عقدة؛ بدلا من ذلك، تصف عبء العمل بمصطلحات النماذج، وتختار Foundry طوبولوجيا GPU تحته. قد يستخدم النموذج معدلا واحدا أو عدة مسرعات، حسب النموذج وقالب النشر الذي تختاره. تقوم بتوسيع النشر عن طريق تغيير عدد نسخ النموذج (القيمة capacity الموجودة في وحدة النشر).

قالب النشر

قالب النشر هو أصل مسمى وتم إصداره ويرمز كيف يجب أن يعمل نموذج معين. قالب يثبت ما يلي:

  • وقت تشغيل الخدمة (على سبيل المثال، vLLM أو SGLang).
  • عائلة المسرعات وعدد الوحدات لكل نسخة (على سبيل المثال، H100 واحد بسعة 80 جيجابايت، أو اثنان من A100 بسعة 80 جيجابايت).
  • طول السياق المدعوم وأي خيارات كمية.
  • الضبط الخاص بوقت التشغيل مثل محللات الاستدعاء والتفكير، مسار التقييم، مجسات الصحة، التزامن مع الطلبات، وأي إعدادات تمديد سياق خاصة بالنموذج.

عندما تقوم ببرمجة نشر، فإنك تشير إلى معرف القالب ويتولى Foundry الباقي. عادة ما يأتي كل نموذج في الكتالوج مع عدة قوالب توازن بين عائلة المسرعات، وطول السياق، وفترة التأخير مقابل معدل النقل. على سبيل المثال، يعرض النموذج qwen3-32b أربعة قوالب جنبا إلى جنب:

Template Runtime مسرع الحل سياق
qwen--qwen3-32b--40k-nvidia-a100 vLLM 1 × A100 80 جيجابايت 40 كيلو
qwen--qwen3-32b--40k-nvidia-h100 vLLM 1 × H100 80 جيجابايت 40 كيلو
qwen--qwen3-32b--128k-nvidia-2xa100 vLLM 2 × A100 80 جيجابايت 128 كيلو
qwen--qwen3-32b--128k-nvidia-2xh100 vLLM 2 × H100 80 جيجابايت 128 كيلو

اختيار القالب هو المقبض الوحيد الذي تدور حول كيفية تشغيل النموذج.

عائلات المسرعات

تستهدف عمليات نشر الحوسبة المدارة عائلة مسرعات، وليس وحدة تخزين آلة افتراضية محددة. العائلات المدعومة هي:

  • NVIDIA A100 80 GB (A100_80GB)
  • NVIDIA H100 80 جيجابايت (H100_80GB)
  • AMD MI300X 192 جيجابايت (MI_300_192GB)

يتم منح الحصة لكل عائلة مسرعات لكل منطقة.

مدة تشغيل النماذج

تعمل الحوسبة المدارة كل نموذج على وقت تشغيل يخدم تقوم Microsoft ببناءه ومسحه ضوحا وتوقيعا وتصحيحا. أنت لا تشغل أو تعيد بناء الحاويات. يتم اختيار محفظة وقت التشغيل حسب بنية النموذج:

Runtime يستخدم لـ Notes
vLLM تقديم نموذج اللغة الكبير عالي الإنتاجية التجميع المستمر، PagedAttention، التوازي في التنسور، التبديل السريع LoRA. افتراضي لمعظم نماذج اللغة الكبيرة.
SGLang تقديم نموذج اللغة الكبير المنظم الناتج JSON وregex والتوليد المقيد بالقواعد لأعباء العمل الوكيلية والمستخدمة في الأدوات.
TensorRT-LLM تقديم نماذج اللغة الكبيرة المحسنة ل NVIDIA استنتاج NVIDIA منخفض الكمون لعائلات النماذج حيث TRT-LLM يربح من حيث زمن الاستجابة أو معدل النقل.
NVIDIA NIM NVIDIA Inference Microservices TensorRT-LLM خلفية مع توافق واجهات برمجة التطبيقات NIM للنماذج المنشورة من NVIDIA.
استنتاج تضمين النصوص (TEI) التضمينات، إعادة الترتيب، المصنفات نوى خاصة بالمسرع لتضمين واسترجاع المسارات الساخنة.
llama.cpp خدمة وحدة معالجة المعالجة المركزية ووحدات معالجة الرسوميات الصغيرة نماذج كمية GGUF خلف نفس واجهة برمجة التطبيقات المتوافقة مع OpenAI.
HF-Serve الرؤية، الصوت، التقسيم، وخطوط معالجة أخرى أصلية لترانسفورمرز هاج خادم متعدد النماذج الخاص ب Face للوسائط خارج نموذج اللغة الكبيرة وتضمين المسارات السريعة.

يتم تطبيق ترقيات وقت التشغيل وتصحيحات CVE تلقائيا على عمليات نشر العملاء المباشرة. لا تعيد نشر نموذجك لالتقاط تحديث وقت التشغيل.

النماذج المدعومة

يمكنك استخدام الحوسبة المدارة في Foundry لنشر نماذج من مجموعة Hugging Face في كتالوج نماذج Foundry، والتي يتم تقديمها من السجل azure-huggingface . تتميز هذه النماذج بالخصائص التالية:

  • يتم تنسيقها وتحديثها أسبوعيا. تضاف النماذج الرائجة من منظومة Hugging Face باستمرار مع نشر المجتمع. يشمل الكتالوج نماذج نصية ورؤية وصوتية ونماذج متعددة الوسائط (نماذج اللغة الكبيرة ونماذج لغة الرؤية للدردشة والوكلاء)، والتعرف التلقائي على الكلام (ASR)، وترجمة الكلام، والتضمينات، والتقسيم، وتوليد الصور.
  • SafeTensors فقط، لا يوجد رمز غير موثوق. يتم فحص كل عارضة في المجموعة. المستودعات التي تتطلب تنفيذ Python طرف ثالث عند وقت التحميل (<أنماط c0 />) يتم إصلاحها أو استبعادها.
  • أوزان معدة مسبقا. يتم سحب أوزان النماذج من Hugging Face مرة واحدة، والتحقق منها، وتخزينها في تخزين Azure المدار من قبل Microsoft في المناطق التي يتم فيها تقديم النموذج. صور الحاويات محفوظة في سجل يديره Microsoft. وبالتالي، لا تحتاج عمليات نشر الحوسبة المدارة إلى وصول الشبكة الصادرة إلى Hugging Face Hub — يمكنك النشر في شبكة خاصة بالكامل بدون مخرج.
  • تم حفظ بيانات الترخيص الوصفية. كل بطاقة نموذج كتالوج تلتقط وتعرض الترخيص الصادر. تتم مراجعة الترخيص مقارنة بسياسة توزيع المؤسسات في Microsoft أثناء التنسيق.

خط أنابيب تنسيق النماذج

كل نموذج في مجموعة وجه العناق يمر عبر خط تنسيق من خمس مراحل قبل أن يظهر في الكتالوج:

  1. تحديد النماذج الرائجة: Microsoft يحدد النماذج الرائجة بناء على إشارات المجتمع، وطلبات الشركاء، وطلب العملاء.
  2. فحص الامتثال والأمان: يخضع كل نموذج لمراجعة وفحص الترخيص للبحث عن trust_remote_code الأنماط والشيفرة التنفيذية المخصصة.
  3. بناء ومسح ونشر صور الحاويات أثناء التشغيل: تم بناؤها بواسطة Microsoft، ومسحها ضوئيا بحثا عن CVEs، وموقعة، ونشرها في سجل مدار Microsoft.
  4. رفع الأوزان لتخزين Azure آمن: يتم التحقق منه مقابل بطاقة النموذج وتخزينه في المناطق التي يتم فيها تقديم النموذج.
  5. التحقق والنشر: يتم اختبار كل تركيبة من النموذج، ووقت التشغيل، والمسرع من حيث توافق وأداء واجهة برمجة التطبيقات، ثم يتم نشرها في الكتالوج بمسار نشر بنقرة واحدة.

نقاط نهاية الاستدلال

نشر نموذج للحوسبة المدارة يجعل النموذج متاحا للاستنتاج على نفس نقطة نهاية مشروع Foundry الموحدة المستخدمة في عمليات الدفع مقابل الرمز وعمليات النقل المجهزة. نقطة النهاية الأساسية تحتوي على النمط https://<account>.services.ai.azure.com.

مسارات النهاية

يمكن استدعاء نشر الحوسبة المدارة عبر عائلتين من المسارات على نقطة النهاية الموحدة. يعتمد المسار الذي تختاره على ما إذا كان النموذج الأساسي ووقت التشغيل يعرضان واجهة برمجة تطبيقات متوافقة مع OpenAI.

Route المسار ينطبق على السلوك
مسار النشر المدار (OSS) <endpoint>/managed-deployments/<deployment-name>/ جميع عمليات نشر الحوسبة المدارة يعمل مع كل نموذج تم نشره على الحوسبة المدارة، بما في ذلك النماذج المخصصة التي تأتي مع SDK خاص بها. يمكن أيضا استدعاء النماذج التي تكشف /chat/completions عبر هذا المسار باستخدام حزمة تطوير البرمجيات OpenAI عن طريق توجيه العميل base_url إلى هذا المسار.
مسار متوافق مع OpenAI <endpoint>/openai/v1/ عمليات نشر الحوسبة المدارة التي يكشف وقت التشغيل فيها واجهة برمجة تطبيقات متوافقة مع OpenAI (مثل vLLM، SGLang، TensorRT-LLM، llama.cpp تقديم الدردشة أو التضمينات) يمكن لمجموعة تطوير البرمجيات OpenAI استدعاء النشر عن طريق ضبط base_url هذا المسار وتمرير اسم النشر في model حقل حمولة الطلب. إذا استهدف طلب هذا المسار باسم نشر لا يدعم النموذج الأساسي أو وقت التشغيل السطح المتوافق مع OpenAI، فإن وقت التشغيل يعيد HTTP 404.

أهم النقاط المستخلصة:

  • كل نشر حوسبة مدارة يمكن الوصول إليه عبر https://<account>.services.ai.azure.com/managed-deployments/<deployment-name>/ المسار
  • أي نشر يكون وقت تشغيله متوافقا مع OpenAI يمكن الوصول إليه أيضا عبر https://<account>.services.ai.azure.com/openai/v1/ المسار.
  • استخدم مسار OpenAI عندما ترغب في مشاركة كود العميل مع عمليات نشر أخرى في Foundry.
  • استخدم مسار النشر المدار للنماذج التي تقدم حزمة تطوير موضع مخصصة أو واجهة برمجة تطبيقات غير OpenAI.

نصيحة

يمكن أيضا إضافة نشر حوسبة إدارة لإكمال الدردشة إلى وكيل Foundry كنموذج متصل بالإدارة واستدعائه عبر واجهة برمجة تطبيقات Foundry Responses مع نفس حزمة تطوير OpenAI، باستخدام نفس المصادقة، ونقطة النهاية، والملاحظة مثل أي نموذج آخر في Foundry.

مصادقة نقطة النهاية

تستخدم عمليات نشر الحوسبة المدارة نفس أنماط المصادقة التي تستخدمها بقية نقطة نهاية Foundry:

  • Microsoft Entra ID (موصى به). احصل على رمز للنطاق https://ai.azure.com/.default ومرره كرمز حامل في الرأس Authorization . لاستدعاء نشر حوسبة مدارة باستخدام Entra ID، تحتاج هوية المداء إلى دور Foundry User في نطاق حساب Foundry. حزمة تطوير البرمجيات OpenAI تعمل في وضع الرموز وتعمل DefaultAzureCredential بدون أي تكوين خاص بالحوسبة المدارة.
  • مفتاح واجهة برمجة التطبيقات للحساب. مرر مفتاح حساب Foundry ك Authorization: Bearer <key>. ترسل حزمة تطوير OpenAI المفتاح تلقائيا بهذا الشكل عند تعيين الوسيط api_key . تمنح المفاتيح نفس الوصول في عمليات نشر الحوسبة المدارة كما تفعل في عمليات الدفع مقابل الرمز ونشرات PTU على نفس الحساب.

كلا خياري المصادقة يعملان على كلا المسارين النهائيين. للحصول على عينات من كود العميل من الطرف إلى الطرف (حزمة تطوير OpenAI مع Entra ID أو مفتاح API)، انظر إرسال طلب اختبار.

Scaling

تقوم بتوسيع نشر الحوسبة المدارة عن طريق تغيير عدد نسخ النماذج. عندما تضبط capacity القيمة على وحدة تخزين النشر، يقوم Foundry بضبط عدد وحدات معالجة الرسومات وفقا لذلك. إجمالي وحدات معالجة الرسومات يساوي عدد نسخ النماذج مضروبا في عدد وحدات معالجة الرسومات لكل مثيل المعرفة بقالب النشر الذي اخترته. Foundry لا يطلب منك تحديد حجم عقدة أو اختيار عائلة آلة افتراضية.

الفوترة، الحصص، ونطاق النشر

يتم احتساب الحوسبة المدارة بالساعة لكل مسرع. على عكس البنية التحتية المعتمدة على الأجهزة الافتراضية حيث تستأجر خوادم GPU كاملة وتدفع مقابل كل بطاقة رسومات على الجهاز سواء استخدمها النموذج أم لا، فإن رسوم الحوسبة المدارة لنماذج النموذج. يقوم Foundry بتعديل حجم كل طراز إلى عدد وحدات معالجة الرسومات التي يحتاجها فعليا (واحد، اثنان، أربعة، أو ثمانية) حتى لا تدفع مقابل مسرعات خاملة بجانب عبء عملك. تكلفة النشر هي:

المسرعات لكل نموذج × معينات النموذج × ساعات تعمل × معدل الساعة

تختلف الأسعار بالساعة حسب عائلة المسرعات (A100، H100، MI300X) وحسب نطاق النشر. للحصول على الأسعار الحالية، راجع حاسبة التسعير Azure.

نطاق النشر

يدعم الحساب المدار (المعاينة) حاليا النشر العالمي ، الذي يتم تعيينه من خلال اسم GlobalManagedComputeSKU الخاص بالنشر. النشر العالمي يمنحك أوسع سعة للمسرعات بأقل معدل.

Quota

يتم منح حصة الحوسبة المدارة لكل عائلة مسرعات لكل منطقة من خلال عملية حصص Foundry. حصة الحوسبة المدارة هي منفصلة عن حصة الآلات الافتراضية Azure. بينما حصة Azure VM هي تخصيص للبنية التحتية كخدمة مرتبط بوحدات SKU إقليمية محددة للأجهزة الافتراضية، فإن الحوسبة المدارة هي خدمة PaaS مدارة. لا يمكن تطبيق حصة Azure VM الحالية على نشر الحوسبة المدارة.

للحصول على تفاصيل حول استخدام المشاهدة، ونسب التكلفة إلى المشروع، وطلب الحصص، راجع التخطيط وإدارة التكاليف ل Microsoft Foundry و إدارة وزيادة الحصص.

عنصر تحكم الوصول

تستخدم الحوسبة المدارة نموذج التحكم في الوصول القائم على الأدوار (RBAC) من فاوندري. مجموعة عمليات مزود الموارد Azure المطلوبة لإنشاء وقراءة وتحديث وحذف نشر حوسبة مدارة موثقة في Role-based control control for Microsoft Foundry — عمليات مستوى التحكم في مستوى الحساب المدارة، إلى جانب الأدوار المدمجة التي تمنح كل عملية.

نظرة سريعة:

  • يمنح مساهم الخدمات المعرفية (أو مالك / حسابمساندري مالك المصنع) إنشاء / قراءة / تحديث / حذف كاملة لعمليات نشر الحوسبة المدارة.
  • يمنح مستخدم خدمات المعريةومستخدم Foundry وصولا للقراءة فقط للنشرات.
  • Foundry Project Manager يمنح وصول القراءة إلى النشرات وبيانات استخدام المسرعات، لكنه لا يمنح إنشاء أو حذف.

يتبع الاستدلال (مستوى البيانات) على نقطة نهاية Foundry الموحدة نمط Foundry القياسي من خلال تعيين Foundry User على نطاق حساب Foundry لاستدعاء النشر باستخدام Microsoft Entra ID.

القيود

الحوسبة المدارة في وضع معاينة عامة. لاحظ ما يلي قبل نشر أعباء العمل الإنتاجية:

  • تصفية المحتوى: فلاتر أمان محتوى الذكاء الاصطناعي في Azure المدمجة ليست جزءا من مسار بيانات الحوسبة المدارة في المعاينة العامة. إذا كنت بحاجة إلى تصفية على مستوى الطلب أو الاستجابة، اتصل بواجهات برمجة التطبيقات أمان محتوى الذكاء الاصطناعي في Azure مباشرة من تطبيقك.
  • توفر المنطقة: عمليات تشغيل الحوسبة المدارة باستخدام النطاق العالمي. يتم طرح عمليات نشر مناطق البيانات والمناطق الإضافية — راجع مصفوفة التوافر العامة للاطلاع على التغطية الحالية.
  • التسعير: الأسعار بالساعة حسب عائلة المسرعات والمنطقة، السعة المحجوزة، وخصومات الالتزام تتطور لنشر الحوسبة المدارة في المعاينة. للاطلاع على الأسعار الحالية، راجع حاسبة أسعار Azure.