إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
ملحوظة
الحساب المدار في Foundry حاليا في المعاينة العامة والتسجيل مطلوب لاستخدامه. يتم توفير هذا العرض التمهيدي دون اتفاقية على مستوى الخدمة، ولا نوصي به لأعباء العمل الإنتاجية. قد لا تكون بعض الميزات مدعومة أو قد تكون ذات قدرات محدودة. لمزيد من المعلومات، راجع شروط الاستخدام الإضافية لمعاينات Microsoft Azure.
يستضيف نشر الحوسبة المدارة (المعاينة) في Microsoft Foundry نماذج مفتوحة المصدر على سعة مخصصة لوحدة معالجة الرسوميات. تمتلك Microsoft طوبولوجيا وحدة معالجة الرسوميات، ووقت التشغيل، وصورة الحاوية، وتصحيحات الأمان. تختار النموذج، وقالب النشر، وعائلة المسرعات، وسلوك التوسع الذي يتناسب مع عبء عملك. تستعرض هذه المقالة سير العمل من البداية إلى النهاية لنشر نموذج مفتوح المصدر على الحوسبة المدارة في Microsoft Foundry.
في هذه المقالة، ستتعرف على كيفية:
- اختر نموذجا في كتالوج النماذج
- اختر قالب نشر
- نشر النموذج باستخدام بوابة Foundry أو حزمة تطوير البرمجيات Python
- قم بالاستدلال باستخدام مجموعة تطوير البرمجيات OpenAI
- توسيع ومراقبة النشر
- اطلب حصة إضافية
للحصول على نظرة عامة على نشر الحوسبة المدارة في Foundry، بما في ذلك نماذج النموذج، قوالب النشر، أوقات التشغيل، عائلات المسرعات، الفوترة، والقيود الحالية، انظر Managed compute in Microsoft Foundry (Preview).
المتطلبات الأساسية
اشتراك Azure نشط. لإنشاء واحد، راجع إنشاء حسابك المجاني Azure.
مجموعة موارد في الاشتراك حيث لديك إذن لإنشاء الموارد.
حساب Microsoft Foundry (حساب خدمات معرفية من النوع
AIServices) ومشروع Foundry. لإنشاء واحد، راجع مشروع إنشاء مسبك.التعيينات التالية لأدوار Azure ضمن نطاق حساب Foundry:
- مساهم الخدمات المعرفية (أومالك حساب مسبك المصانع / ) — مطلوب لإنشاء وتحديث وحذف عمليات نشر الحوسبة المدارة. انظر التحكم في الوصول القائم على الأدوار ل Microsoft Foundry — عمليات مستوى التحكم في الحوسبة المدارة.
- Foundry User — مطلوب لاستدعاء النشر باستخدام Microsoft Entra ID من Playground أو SDK أو REST.
حصة حوسبة مدارة معتمدة لعائلة المسرعات التي تخطط لنشرها عليها (A100، H100، أو MI300X) في المنطقة المستهدفة. حصة الحوسبة المدارة منفصلة عن حصة Azure VM. انظر طلب حصة إضافية في نهاية هذا المقال.
الأدوات المحلية لأمثلة SDK وCLI:
pip install "azure-mgmt-cognitiveservices==15.0.0b2" azure-identity openai requests az loginAzure CLI 2.60 أو أحدث.
هام
الحوسبة المدارة في Foundry قيد المعاينة العامة. قد تتغير واجهات برمجة التطبيقات وأسماء وحدات SKU والمناطق المدعومة قبل التوفر العام. تصفية المحتوى المدمجة ليست جزءا من مسار بيانات الحوسبة المدارة في المعاينة العامة. إذا كنت بحاجة إلى تصفية على مستوى الطلب أو الاستجابة، اتصل بواجهات برمجة التطبيقات أمان محتوى الذكاء الاصطناعي في Azure مباشرة من تطبيقك.
اختر نموذجا من الكتالوج
يقوم الحوسبة المدارة بنشر نماذج من مجموعة Hugging Face في كتالوج نماذج Foundry، ويتم تقديمها من azure-huggingface السجل.
- سجل الدخول إلى Microsoft Foundry. تأكد من تفعيل مفتاح New Foundry . تشير هذه الخطوات إلى Foundry (جديد).
- اختر اشتراكك ومورد Foundry.
- اختر البناء في التنقل العلوي الأيمن، ثم اختر النماذج في اللوحة اليسرى.
- فلتر الكتالوج حسب المجموعات. اختر وجه العناق. يمكنك أيضا استخدام أي من الفلاتر الأخرى لتضييق نطاق النموذج الذي تريد نشره (على سبيل المثال، اختيار عائلة نماذج مثل Qwen) أو حسب الأسلوب أو المهمة. يمكنك أيضا البحث حسب اسم الموديل.
- اختر بطاقة نموذج (على سبيل المثال،
nvidia-nemotron-3-nano-30b-a3b-fp8) لفتح تفاصيلها.
تظهر بطاقة النموذج الترخيص الصادر، والنمطية، والمهام المدعومة، وقوالب النشر المنشورة للنموذج. إذا كنت تخطط للنشر عبر Python SDK أو REST بدلا من استخدام معالج البوابة، فستحتاج إلى ثلاث قيم كمدخل في استدعاء النشر. يمكنك العثور على هذه القيم في بوابة Foundry كما يلي:
معرف النموذج: معرف أصول السجل المؤهل بالكامل للنموذج. متوفر على بطاقة النموذج في الكتالوج (نسخة من لوحة تفاصيل النموذج). مثال:
azureml://registries/azure-huggingface/models/nvidia--nvidia-nemotron-3-nano-30b-a3b-fp8/versions/2معرف قالب النشر: يحدد وقت التشغيل، وعائلة المسرعات والعدد، وطول السياق للنموذج. متوفر في معالج النشر الذي يفتح عند اختيار النشر على بطاقة النموذج. اختر قالبا وانسخ معرف قالب النشر من المعالج. مثال:
azureml://registries/azure-huggingface/deploymenttemplates/nvidia--nvidia-nemotron-3-nano-30b-a3b-fp8--nvidia-h100/labels/latestملحوظة
يجب أن يكون معرف النموذج ومعرف قالب النشر متوافقين؛ كل قالب يسرد نسخ النماذج التي يدعمها. ساحر البوابة يعرض فقط قوالب متوافقة للنموذج الذي اخترته. إذا قمت بالنشر باستخدام الكود، تحقق من أن كلا المدينتين يحلان إلى أصول سجل صحيحة في
azure-huggingfaceالسجل.لمعرفة المزيد عن قوالب النشر، راجع قالب النشر في مقالة نظرة عامة على الحوسبة المدارة.
نوع المعجل: على سبيل المثال
H100_80GB،A100_80GB، أوMI_300_192GB. يظهر بجانب كل قالب في ساحر النشر.
نشر النموذج
اختر النشر على بطاقة الطراز لفتح معالج النشر.
حدد اسم النشر. اسم النشر هو ما يمرره
modelتطبيقك في الحقل عند وقت الاستدلال — اختر اسما مستقرا وصديقا للتطبيق (على سبيل المثال،nemotron-3-nano-30b).نوع النشر (الحوسبة المدارة العالمية) محدد مسبقا في معالج النشر.
اختر قالب النشر الذي يتناسب مع عبء عملك. على سبيل المثال، قالب H100 المسرع الواحد لأقل تكلفة عند طول سياق متوسط، أو قالب مسرعين إذا تجاوزت التعليمات حد السياق للمسرع الواحد.
اختر نوع المسرع، مثل،
H100_80GB.اضبط نماذج العينات على
1(أو أعلى إذا قمت بقياس عبء العمل). نماذج النموذج تحدد حجم الحوسبة المدارة وهي القيمةcapacityالموجودة في وحدة النشر الخاصة بالنشر. كل حالة تستهلك عدد المسرعات المعرف في القالب؛ على سبيل المثال، يستخدم قالب يحدد H100 واحد لكل مثيل بسعة 2 مسرعين ل H100 إجمالا.نصيحة
ابدأ
capacity: 1بنشر أول، ثم توسع السعة بعد قياس عبء العمل. راجع إدارة وتوسيع النشر لمعرفة كيفية زيادة السعة.اختر مربع الاختيار للاعتراف بتكلفة النشر.
اختر النشر. عادة ما يستغرق الإعداد من 10 إلى 15 دقيقة.
تحقق من النشر
تحديث صفحة تفاصيل النشر من Creating إلى Succeeded متى يكون النموذج نشطا خلف نقطة نهاية Foundry. يمكنك رؤية تفاصيل عن النشر، بما في ذلك حالة التوفير، نوع النشر، والخيارات الأخرى التي قمت بها أثناء إنشاء النشر.
إرسال طلب اختبار
عندما يكون النشر جاهزا، اختبره تفاعليا في ملعب الصيادة.
- اختر تبويب Playground للتبديل إليه من صفحة تفاصيل النشر.
- أرسل رسالة لاختبار النشر.
مراقبة النشر
تصدر عمليات نشر الحوسبة المدارة مقاييس على نفس سطح Azure Monitor كما في عمليات نشر Foundry الأخرى. من صفحة تفاصيل النشر في بوابة Foundry، يظهر تبويب Monitor :
- عدد الطلبات مجمع حسب رمز حالة HTTP.
- النسب المئوية لزمن الاستجابة (p50، p90، p99).
- بالنسبة لنماذج إكمال الدردشة: عدد رموز الإدخال والإخراج، ونسبة الوقت إلى أول رمز (TTFT)، ونسب زمنية بين رموز الرمز.
للتحليل أو التنبيهات بشكل أعمق، افتح النشر في بوابة Azure واستخدم Metrics تحت Monitoring لرسم نفس المقاييس، والتجميع حسب النشر، وتكوين التنبيهات. يتم إرسال علامات الفوترة لكل نشر تلقائيا. تصفية إدارة التكاليف بواسطة علامة النشر لتنسب الإنفاق إلى نشر حوسبة مدارة محددة. للتفاصيل، راجع Plan وإدارة التكاليف ل Microsoft Foundry.
حذف النشر
حذف النشر يطلق تخصيص المسرع ويوقف الفوترة فورا. لحذف نشر:
- اذهب إلى قائمة النشرات في بوابة Foundry.
- اختر زر الراديو بجانب اسم النشر.
- في الجزء الأيسر، حدد Delete.
اطلب حصة إضافية
تمنح حصة الحوسبة المدارة لكل عائلة مسرعات لكل منطقة من خلال عملية حصص Foundry وهي منفصلة عن حصة الآلات الافتراضية Azure. لا يمكن تطبيق حصة Azure VM الحالية على نشر الحوسبة المدارة.
لطلب حصة إضافية:
- اختر Operation في التنقل العلوي الأيمن، ثم Quota في اللوحة اليسرى.
- اختر تبويب الحوسبة المدارة . يسرد الجدول التخصيصات الحالية مجمعة حسب عائلة المسرعات والمنطقة.
- اختر طلب الحصة في الزاوية العلوية اليمنى.
- في نموذج الطلب، اختر عائلة المسرعات (A100، H100، أو MI300X)، والمنطقة المستهدفة، والحصة المطلوبة. قدم الطلب.
امنح حتى 15 دقيقة لتغيير الحصة المعتمد للانتشار. قم بتحديث صفحة الحصص للتحقق من التخصيص المحدث. لمزيد من المعلومات حول مفاهيم الحصص، راجع إدارة وزيادة الحصص للحصول على الموارد.
استخدم السكربت Python التالي لنشر النموذج. استبدل البدائل المؤقتة بمعرف الاشتراك الخاص بك، ومجموعة الموارد، واسم حساب Foundry، واسم النشر.
نصيحة
ابدأ capacity: 1 بنشر أول، ثم توسع السعة بعد قياس عبء العمل. راجع إدارة وتوسيع النشر لمعرفة كيفية زيادة السعة.
from azure.identity import DefaultAzureCredential
from azure.mgmt.cognitiveservices import CognitiveServicesManagementClient
SUBSCRIPTION_ID = "<your-subscription-id>"
RESOURCE_GROUP = "<your-resource-group>"
ACCOUNT_NAME = "<your-foundry-account>"
DEPLOYMENT_NAME = "nemotron-3-nano-30b"
MODEL = "azureml://registries/azure-huggingface/models/nvidia--nvidia-nemotron-3-nano-30b-a3b-fp8/versions/2"
TEMPLATE = "azureml://registries/azure-huggingface/deploymenttemplates/nvidia--nvidia-nemotron-3-nano-30b-a3b-fp8--nvidia-h100/labels/latest"
client = CognitiveServicesManagementClient(
DefaultAzureCredential(), SUBSCRIPTION_ID
)
deployment = client.managed_compute_deployments.begin_create_or_update(
resource_group_name=RESOURCE_GROUP,
account_name=ACCOUNT_NAME,
deployment_name=DEPLOYMENT_NAME,
resource={
"sku": {"name": "GlobalManagedCompute", "capacity": 1},
"properties": {
"model": MODEL,
"deploymentTemplate": TEMPLATE,
"acceleratorType": "H100_80GB",
"versionUpgradeOption": "OnceNewDefaultVersionAvailable",
},
},
).result() # blocks until terminal state (~10–15 min)
print(f"State: {deployment.properties.provisioning_state}")
print(f"ID: {deployment.id}")
تحقق من النشر
بعد إنشاء النشر، تأكد من أنه سليم قبل إرسال حركة المرور.
d = client.managed_compute_deployments.get(
resource_group_name=RESOURCE_GROUP,
account_name=ACCOUNT_NAME,
deployment_name=DEPLOYMENT_NAME,
)
print(f"State: {d.properties.provisioning_state}") # expect: Succeeded
print(f"Model: {d.properties.model}")
print(f"Template: {d.properties.deployment_template}")
print(f"Accelerator: {d.properties.accelerator_type}")
print(f"Capacity: {d.sku.capacity}")
بحث عن:
-
provisioningState: Succeededيعني أن النشر نشط. -
acceleratorTypeتطابق القيمة التي طلبتها. -
sku.capacityتطابق عدد الحالات التي طلبتها.
إذا provisioningState كان الأمر كذلك Failed، راجع قسم استكشاف المشكلة.
إرسال طلب اختبار
يمكن الوصول إلى عمليات نشر الحوسبة المدارة من خلال نقطة نهاية Foundry الموحدة على:
https://<account>.services.ai.azure.com/openai/v1/
الحقل model في جسم الطلب يأخذ اسم النشر الذي حددته، وليس معرف النموذج.
from azure.identity import DefaultAzureCredential, get_bearer_token_provider
from openai import OpenAI
ACCOUNT_NAME = "<your-foundry-account>"
DEPLOYMENT_NAME = "nemotron-3-nano-30b"
token_provider = get_bearer_token_provider(
DefaultAzureCredential(),
"https://cognitiveservices.azure.com/.default",
)
client = OpenAI(
base_url=f"https://{ACCOUNT_NAME}.services.ai.azure.com/openai/v1",
api_key="placeholder", # required by OpenAI SDK; overridden by Authorization header
default_headers={"Authorization": f"Bearer {token_provider()}"},
)
resp = client.chat.completions.create(
model=DEPLOYMENT_NAME,
messages=[{"role": "user", "content": "What is the capital of France?"}],
)
print(resp.choices[0].message.content)
استدعاء النشر باستخدام Microsoft Entra ID يتطلب دور المستخدم الذكي Azure في حساب Foundry.
إدارة وتوسيع نطاق النشر
نظرا لأن عمليات نشر الحوسبة المدارة تركز على النموذج، فإنك تقوم بتوسيع عمليات النشر عن طريق تغيير عدد مثيلات النموذج، وليس عن طريق تحديد حجم العقدة.
قدرة التغيير
d = client.managed_compute_deployments.get(
RESOURCE_GROUP, ACCOUNT_NAME, DEPLOYMENT_NAME
)
d.sku.capacity = 3
client.managed_compute_deployments.begin_create_or_update(
resource_group_name=RESOURCE_GROUP,
account_name=ACCOUNT_NAME,
deployment_name=DEPLOYMENT_NAME,
resource=d,
).result()
احصل على تحديثات مدة التشغيل والنماذج
تعيين versionUpgradeOption على OnceNewDefaultVersionAvailable في النشر يختار النشر لالتقاط نسخ جديدة من النماذج ووقت التشغيل Microsoft الافتراضية عند نشرها. يتم تطبيق تصحيحات وقت التشغيل وإصلاحات CVE على عمليات نشر العملاء الحية تلقائيا؛ لا تعيد نشر النموذج لالتقاطها.
مراقبة النشر
تصدر عمليات نشر الحوسبة المدارة مقاييس على نفس سطح Azure Monitor كما في عمليات نشر Foundry الأخرى. للتحليل أو التنبيه بشكل أعمق، افتح النشر في بوابة Azure واستخدم Metrics تحت Monitoring لرسم مقاييس مثل:
- عدد الطلبات مجمع حسب رمز حالة HTTP.
- النسب المئوية لزمن الاستجابة (p50، p90، p99).
- بالنسبة لنماذج إكمال الدردشة: عدد رموز الإدخال والإخراج، ونسبة الوقت إلى أول رمز (TTFT)، ونسب زمنية بين رموز الرمز.
يمكنك أيضا تجميع التنبيهات حسب النشر وتكوين التنبيهات. يتم إرسال علامات الفوترة لكل نشر تلقائيا. تصفية إدارة التكاليف بواسطة علامة النشر لتنسب الإنفاق إلى نشر حوسبة مدارة محددة. للتفاصيل، راجع Plan وإدارة التكاليف ل Microsoft Foundry.
حذف النشر
حذف النشر يطلق تخصيص المسرع ويوقف الفوترة فورا. لحذف نشر:
client.managed_compute_deployments.begin_delete(
resource_group_name=RESOURCE_GROUP,
account_name=ACCOUNT_NAME,
deployment_name=DEPLOYMENT_NAME,
).result()
ملخص التحكم في الوصول
| الإجراء | الدور الأدنى |
|---|---|
| إنشاء أو تحديث أو حذف نشر حوسبة مدارة | مساهم في خدمات الإدراك (أو مالك المصنع / صاحب حساب المصنع) على حساب المصنع |
| اقرأ نشرا أو قوائم نشر | مستخدم خدمات معرفية، مستخدم Foundry، مدير Project في Foundry، أو أي من الأدوار المذكورة أعلاه |
| استدعاء النشر باستخدام Microsoft Entra ID | مستخدم Foundry على حساب Foundry |
| استدعي النشر باستخدام مفتاح API | مفتاح الحساب (لا يتطلب دور Azure للمكالمة نفسها؛ استرجاع المفتاح يتطلب وصول للقراءة) |
للاطلاع على قائمة عمليات مزود الموارد Azure الكاملة، ومصفوفة الدور إلى الأذونات، والمقارنة مع النشرات القياسية، انظر التحكم في الوصول القائم على الأدوار ل Microsoft Foundry — عمليات التحكم في مستوى الحوسبة المدارة.
Troubleshooting
provisioningState: Failed
تأكد من أن عائلة المسرعات المطلوبة قد وافقت على الحصة في المنطقة المستهدفة، وأن قالب النشر المختار يدرج تلك العائلة المسرعة. عدم تطابق نموذج وقالب نشر، مثل قالب نشر لإصدار نموذج مختلف، هو سبب شائع. تحقق من أن كلا المدينين يحصلان على أصول السجل الصالحة في azure-huggingface السجل.
"الحصة تجاوزت" في الإنشاء
حساب Foundry لا يمتلك حصة كافية من الحوسبة المدارة في المنطقة لعائلة المسرعات المطلوبة. اطلب حصة إضافية. حصة Azure VM لا تنطبق على الحوسبة المدارة.
"السعة غير الكافية" في المنطقة
لم ترسل المنطقة أي قدرة سعائية لعائلة المسرعات المطلوبة. جرب عائلة مختلفة (مثلا، نشرها على MI300X بدلا من H100)، اختر قالبا يحتوي على عدد أقل من المسرعات لكل مثيل، أو استهدف منطقة مختلفة. عائلات الذاكرة الأكبر مثل MI300X غالبا ما تحتوي على سعة للنماذج التي لا تناسب A100.
404 من /openai/v1/ الطريق
إذا كان طلب إكمال الدردشة يعيد https://<account>.services.ai.azure.com/openai/v1/chat/completions 404، تحقق من ذلك:
- اسم النشر في جسم الطلب يطابق النشر الذي أنشأته.
- النشر
provisioningStateهوSucceeded. - مدة تشغيل النموذج تكشف عن إكمال الدردشة. بعض أوقات التشغيل (مثل TEI للتضمينات) لا تكشف مسار إكمال الدردشة؛ استخدم المسار الموثق على بطاقة النموذج بدلا من ذلك.
النشر عالق Creating لأكثر من 20 دقيقة
بعض النماذج الأكبر تستغرق وقتا أطول من المعتاد من 10 إلى 15 دقيقة للظهور. إذا provisioningState استمر Creating بعد 20 دقيقة، تحقق من صفحة تفاصيل النشر في بوابة Foundry بحثا عن رسالة حالة العملية، وتأكد من أن المنطقة الأساسية لم تتدهور. إذا استمر النشر بعد Creating 30 دقيقة بدون رسالة عملية، قم بحذفه وإعادة المحاولة. التوفير غير فعال في اسم النشر.