دليل الترحيل لأحمال عومل حوسبة GPU في Azure

مقالة
08/25/2024

مع توفر وحدات معالجة رسومات أكثر قوة في السوق وفي مراكز بيانات Microsoft Azure، نوصي بإعادة تقييم أداء أحمال العمل لديك والتفكير في الترحيل إلى وحدات معالجة الرسومات الأحدث.

للسبب نفسه، بالإضافة إلى الحفاظ على عرض خدمة عالي الجودة وموثوق، يقوم Azure بشكل دوري بإيقاف الأجهزة التي تعمل على تشغيل أحجام الأجهزة الظاهرية القديمة. تتمثل المجموعة الأولى من منتجات GPU التي سيتم إيقافها في Azure في الأجهزة الظاهرية الأصلية من سلسلة NC وNC v2 وND، المدعومة بمسرعات وحدة معالجة الرسومات NVIDIA Tesla K80 وP100 وP40 لمركز البيانات على التوالي. سيتم إيقاف هذه المنتجات في 31 أغسطس 2023، وقد تم تشغيل أقدم الأجهزة الظاهرية في هذه السلسلة في عام 2016.

ومنذ ذلك الحين، خطت وحدات معالجة الرسومات خطوات لا تصدق إلى جانب صناعة التعلم العميق والحوسبة عالية الأداء بأكملها، والتي تتجاوز عادة مضاعفة الأداء بين الأجيال. منذ تشغيل وحدات معالجة الرسومات NVIDIA K80 وP40 وP100، قامت Azure بشحن العديد من الأجيال الجديدة والفئات من منتجات الأجهزة الظاهرية الموجهة نحو الحوسبة المسرَّعة بواسطة وحدة المعالجة الرسومية والذكاء الاصطناعي، استنادًا إلى وحدات معالجة الرسومات T4 وV100 وA100 من NVIDIA، وتمييزها عن طريق الميزات الاختيارية، مثل تصميمات الربط البيني القائمة على InfiniBand. هذه كلها خيارات نشجع العملاء على استكشافها كمسارات ترحيل.

في معظم الحالات، تؤدي الزيادة الهائلة في الأداء التي تقدمها الأجيال الجديدة من وحدات معالجة الرسومات إلى خفض إجمالي تكلفة الملكية عن طريق تقليل مدة الوظيفة، للوظائف القابلة للاندفاع - أو تقليل كمية الأجهزة الظاهرية الإجمالية التي تدعم وحدة معالجة الرسومات المطلوبة لتغطية الطلب ثابت الحجم على موارد الحوسبة، على الرغم من تنوع التكاليف لكل ساعة من وحدات معالجة الرسومات. بالإضافة إلى هذه المزايا، يمكن للعملاء تحسين الوقت المستغرق في الحل عبر الأجهزة الظاهرية عالية الأداء، وتحسين صحة حلولهم وإمكانية دعمها من خلال اعتماد برامج أحدث، ووقت تشغيل CUDA، وإصدارات برامج التشغيل.

الترحيل مقابل التحسين

تدرك Azure أن العملاء لديهم العديد من المتطلبات التي قد تملي اختيار منتج جهاز ظاهري معين لوحدة معالجة الرسومات، بما في ذلك الاعتبارات البنيوية لوحدة معالجة الرسومات، والتوصيلات البينية، وإجمالي تكلفة الملكية، ووقت الحل، والتوفر الإقليمي استنادًا إلى متطلبات موقع التوافق أو زمن الوصول - وبعض هذه المتطلبات تتغير بمرور الوقت.

في الوقت نفسه، يعد تسريع GPU مجالاً جديدًا وسريع التطور.

وبالتالي، لا يوجد إرشادات حقيقية واحدة تناسب الجميع لمنطقة المنتج هذه، ويعد الترحيل هو الوقت المثالي لإعادة تقييم التغييرات الدراماتيكية المحتملة في حمل العمل - مثل الانتقال من نموذج توزيع تجميعي إلى جهاز ظاهري واحد كبير مكون من 8 وحدات معالجة رسومات أو العكس، والاستفادة من أنواع البيانات منخفضة الدقة، واعتماد ميزات مثل وحدة معالجة الرسومات متعددة المثيلات، وأكثر من ذلك بكثير.

هذه الأنواع من الاعتبارات - عند وضعها في سياق زيادة أداء وحدة معالجة الرسومات الدراماتيكية بالفعل لكل جيل، حيث يمكن لميزة مثل إضافة TensorCores زيادة الأداء بمقدار كبير، تكون خاصة للغاية بحمل العمل.

يمكن أن يؤدي الجمع بين الترحيل وإعادة بنية التطبيق إلى قيمة هائلة وتحسين في التكلفة والوقت اللازم للحل.

ومع ذلك، فإن هذه الأنواع من التحسينات تتجاوز نطاق هذا المستند، الذي يهدف إلى التركيز على فئات التكافؤ المباشر لأحمال العمل المعممة التي قد يديرها العملاء اليوم، لتحديد خيارات الأجهزة الظاهرية الأكثر تشابهًا في كل من السعر والأداء لكل وحدة معالجة رسومات لعائلات الأجهزة الظاهرية الحالية الخاضعة للإيقاف.

وبالتالي، يفترض هذا المستند أن المستخدم قد لا تكون لديه أي رؤية أو تحكم في الخصائص الخاصة بحمل العمل، مثل عدد مثيلات الجهاز الظاهري المطلوبة ووحدات معالجة الرسومات والتوصيلات البينية والمزيد.

مسارات الترقية الموصى بها

الأجهزة الظاهرية من سلسلة NC تتميز بوحدات معالجة الرسومات NVIDIA K80

تعد أجهزة الظاهرية من سلسلة NC (v1) أقدم نوع من أجهزة الكمبيوتر المسرعة لوحدة معالجة الرسومات من Azure، المدعومة بمسرعات GPU لمركز بيانات NVIDIA Tesla K80 من 1 إلى 4 مقترنة بمعالجات Intel Xeon E5-2690 v3 (Haswell). بمجرد أن أصبح نوع الجهاز الظاهري رائدًا للمطالبة بتطبيقات الذكاء الاصطناعي والتعلم الآلي والحوسبة عالية الأداء، فقد ظلت خيارًا شائعًا في وقت متأخر من دورة حياة المنتج (لا سيما عبر الأسعار الترويجية لسلسلة NC) للمستخدمين الذين قدروا وجود تكلفة مطلقة منخفضة جدًا لكل ساعة GPU على وحدات معالجة الرسومات مع معدل نقل أعلى لكل دولار.

واليوم، نظرًا لأداء الحوسبة المنخفض نسبيًا للنظام الأساسي لـ NVIDIA K80 GPU القديمة، بالمقارنة مع سلسلة الأجهزة الظاهرية التي تتميز بوحدات معالجة رسومات أحدث، فإن حالة الاستخدام الشائعة لسلسلة NC هي أحمال عمل الاستدلال والتحليلات في الوقت الفعلي، حيث يجب أن يتوفر الجهاز الظاهري المتسارع في حالة ثابتة لخدمة الطلب من التطبيقات عند وصولها. في هذه الحالات، قد يكون حجم الطلبات أو حجم الدفعة غير كافٍ للاستفادة من وحدات معالجة الرسومات الأكثر أداء. تحظى الأجهزة الظاهرية من سلسلة NC أيضًا بشعبية كبيرة بين المطورين والطلاب الذين يتعلمون أو يطورون أو يجربون تسريع وحدة معالجة الرسومات، والذين يحتاجون إلى هدف توزيع CUDA غير مكلف قائم على السحابة لتكرار ذلك لا يحتاج إلى الأداء إلى مستويات الإنتاج.

بشكل عام، يجب على عملاء NC-Series التفكير في الانتقال مباشرة من أحجام NC إلى أحجام NC T4 v3 ، وهي منصة Azure الجديدة المسرعة بوحدة معالجة الرسومات لأحمال العمل الخفيفة التي تعمل بوحدات معالجة الرسومات NVIDIA Tesla T4.

حجم الجهاز الظاهري الحالي	حجم الجهاز الظاهري الهدف	الفرق في المواصفات
Standard_NC6 Standard_NC6_Promo	Standard_NC4as_T4_v3 أو Standard_NC8as_T4	وحدة المعالجة المركزية: Intel Haswell مقابل AMD Rome عدد وحدات معالجة الرسومات: 1 (نفسه) جيل وحدة معالجة الرسومات: NVIDIA Keppler مقابل Turing (+2 أجيال، ~2x FP32 FLOPs) ذاكرة وحدة معالجة الرسومات (جيبي بايت لكل وحدة معالجة رسومات): 16 (+4) وحدة المعالجة المركزية الظاهرية: 4 (-2) أو 8 (+2) عدد وحدات الجيبي بايت في الذاكرة: 16 (-40) أو 56 (نفسه) التخزين الحراري (SSD) بوحدة الجيبي بايت: 180 (-160) أو 360 (+20) الحد الأقصى لأقراص البيانات: 8 (-4) أو 16 (+4) الشبكات المتسارعة: نعم (+) تخزين Premium: نعم (+)
Standard_NC12 Standard_NC12_Promo	Standard_NC16as_T4_v3	وحدة المعالجة المركزية: Intel Haswell مقابل AMD Rome عدد وحدات معالجة الرسومات: 1 (-1) جيل وحدة معالجة الرسومات: NVIDIA Keppler مقابل Turing (+2 أجيال، ~2x FP32 FLOPs) ذاكرة وحدة معالجة الرسومات (جيبي بايت لكل وحدة معالجة رسومات): 16 (+4) وحدة المعالجة المركزية الظاهرية: 16 (+4) وحدة الجيبي بايت للذاكرة: 110 (-2) التخزين الحراري (SSD) بوحدة الجيبي بايت: 360 (-320) الحد الأقصى لأقراص البيانات: 48 (+16) الشبكات المتسارعة: نعم (+) تخزين Premium: نعم (+)
Standard_NC24 Standard_NC24_Promo	Standard_NC64as_T4_v3*	وحدة المعالجة المركزية: Intel Haswell مقابل AMD Rome عدد وحدات معالجة الرسومات: 4 (نفسه) جيل وحدة معالجة الرسومات: NVIDIA Keppler مقابل Turing (+2 أجيال، ~2x FP32 FLOPs) ذاكرة وحدة معالجة الرسومات (جيبي بايت لكل وحدة معالجة رسومات): 16 (+4) وحدة المعالجة المركزية الظاهرية: 64 (+40) وحدة الجيبي بايت للذاكرة: 440 (+216) التخزين الحراري (SSD) بوحدة الجيبي بايت: 2880 (+1440) الحد الأقصى لأقراص البيانات: 32 (-32) الشبكات المتسارعة: نعم (+) تخزين Premium: نعم (+)
Standard_NC24r Standard_NC24r_Promo	Standard_NC64as_T4_v3*	وحدة المعالجة المركزية: Intel Haswell مقابل AMD Rome عدد وحدات معالجة الرسومات: 4 (نفسه) جيل وحدة معالجة الرسومات: NVIDIA Keppler مقابل Turing (+2 أجيال، ~2x FP32 FLOPs) ذاكرة وحدة معالجة الرسومات (جيبي بايت لكل وحدة معالجة رسومات): 16 (+4) وحدة المعالجة المركزية الظاهرية: 64 (+40) وحدة الجيبي بايت للذاكرة: 440 (+216) التخزين الحراري (SSD) بوحدة الجيبي بايت: 2880 (+1440) الحد الأقصى لأقراص البيانات: 32 (-32) الشبكات المتسارعة: نعم (+) التخزين المتميز: نعم (+) InfiniBand interconnect: لا

الأجهزة الظاهرية من سلسلة NC v2 تتميز بوحدات معالجة الرسومات NVIDIA Tesla P100

الأجهزة الظاهرية من سلسلة NC v2 عبارة عن نظام أساسي رائد مصمم أصلاً لأحمال عمل الذكاء الاصطناعي والتعلم العميق. لقد قدمت أداءً ممتازًا للتدريب على التعلم العميق، مع أداء لكل وحدة معالجة رسومات يبلغ حوالي ضعفي أداء الأجهزة من سلسلة NC الأصلية، ويتم تشغيلها بواسطة وحدات معالجة الرسومات NVIDIA Tesla P100 ووحدات المعالجة المركزية Intel Xeon E5-2690 v4 (Broadwell). مثل سلسلة NC وND، توفر سلسلة NC v2 تكوينًا باستخدام شبكة ذات زمن انتقال ثانوي أقل ومعدل نقل عالٍ من خلال اتصال RDMA وInfiniBand حتى تتمكن من تشغيل مهام تدريب واسعة النطاق تغطي العديد من وحدات معالجة الرسومات.

بشكل عام، يجب على عملاء NCv2-Series التفكير في الانتقال مباشرة إلى أحجام NC A100 v4 ، وهو النظام الأساسي الجديد المتسارع لوحدة معالجة الرسومات في Azure الذي يتم تشغيلها بواسطة NVIDIA Ampere A100 PCIe GPUs.

حجم الجهاز الظاهري الحالي	حجم الجهاز الظاهري الهدف	الفرق في المواصفات
Standard_NC6s_v2	Standard_NC24ads_A100_v4	وحدة المعالجة المركزية: Intel Broadwell مقابل AMD Milan عدد وحدات معالجة الرسومات: 1 (نفسه) إنشاء GPU: NVIDIA Pascal vs. Ampere (+2 generation) ذاكرة وحدة معالجة الرسومات (GiB لكل وحدة معالجة الرسومات): 80 (+64) وحدة المعالجة المركزية الظاهرية: 24 (+18) الذاكرة جيبي بايت: 220 (+108) Temp Storage (SSD) GiB: 1123 (+387) الحد الأقصى لأقراص البيانات: 12 (نفسه) الشبكات المتسارعة: نعم (+) تخزين Premium: نعم (+)
Standard_NC12s_v2	Standard_NC48ads_A100_v4	وحدة المعالجة المركزية: Intel Broadwell مقابل AMD Milan عدد وحدات معالجة الرسومات: 2 (نفسه) إنشاء GPU: NVIDIA Pascal مقابل Ampere (+2 جيل) ذاكرة وحدة معالجة الرسومات (GiB لكل وحدة معالجة الرسومات): 80 (+64) وحدة المعالجة المركزية الظاهرية: 48 (+36) وحدة الجيبي بايت للذاكرة: 440 (+216) Temp Storage (SSD) GiB: 2246 (+772) الحد الأقصى لأقراص البيانات: 24 (نفسه) الشبكات المتسارعة: نعم (+) تخزين Premium: نعم (+)
Standard_NC24s_v2	Standard_NC96ads_A100_v4	وحدة المعالجة المركزية: Intel Broadwell مقابل AMD Milan عدد وحدات معالجة الرسومات: 4 (نفسه) إنشاء GPU: NVIDIA Pascal مقابل Ampere (+2 جيل) ذاكرة وحدة معالجة الرسومات (GiB لكل وحدة معالجة الرسومات): 80 (+64) وحدة المعالجة المركزية الظاهرية: 96 (+72) الذاكرة جيبي بايت: 880 (+432) Temp Storage (SSD) GiB: 4492 (+1544) الحد الأقصى لأقراص البيانات: 32 (نفسه) الشبكات المتسارعة: نعم (+) تخزين Premium: نعم (+)
Standard_NC24rs_v2	Standard_NC96ads_A100_v4	وحدة المعالجة المركزية: Intel Broadwell مقابل AMD Milan عدد وحدات معالجة الرسومات: 4 (نفسه) إنشاء GPU: NVIDIA Pascal مقابل Ampere (+2 جيل) ذاكرة وحدة معالجة الرسومات (GiB لكل وحدة معالجة الرسومات): 80 (+64) وحدة المعالجة المركزية الظاهرية: 96 (+72) الذاكرة جيبي بايت: 880 (+432) Temp Storage (SSD) GiB: 4492 (+1544) الحد الأقصى لأقراص البيانات: 32 (نفسه) الشبكات المتسارعة: نعم (+) تخزين Premium: نعم (+) InfiniBand interconnect: لا (-)

الأجهزة الظاهرية من سلسلة ND تتميز بوحدات معالجة الرسومات NVIDIA Tesla P40

الأجهزة الظاهرية من سلسلة ND عبارة عن نظام أساسي متوسط المدى مصمم أصلاً لأحمال عمل الذكاء الاصطناعي والتعلم العميق. لقد قدمت أداءً ممتازًا للاستدلال على الدفعات من خلال عمليات النقطة العائمة المحسنة أحادية الدقة مقارنة بأسلافها، ويتم تشغيلها بواسطة وحدات معالجة الرسومات NVIDIA Tesla P40 ووحدات المعالجة المركزية Intel Xeon E5-2690 v4 (Broadwell). مثل سلسلة NC وNC v2، توفر سلسلة ND تكوينًا باستخدام شبكة ذات زمن انتقال ثانوي أقل ومعدل نقل عالٍ من خلال اتصال RDMA وInfiniBand حتى تتمكن من تشغيل مهام تدريب واسعة النطاق تغطي العديد من وحدات معالجة الرسومات.

حجم الجهاز الظاهري الحالي	حجم الجهاز الظاهري الهدف	الفرق في المواصفات
Standard_ND6	Standard_NC4as_T4_v3 أو Standard_NC8as_T4_v3	وحدة المعالجة المركزية: Intel Broadwell مقابل AMD Rome عدد وحدات معالجة الرسومات: 1 (نفسه) جيل وحدة معالجة الرسومات: NVIDIA Pascal مقابل Turing (+1 جيل) ذاكرة وحدة معالجة الرسومات (جيبي بايت لكل وحدة معالجة رسومات): 16 (-8) وحدة المعالجة المركزية الظاهرية: 4 (-2) أو 8 (+2) وحدات الجيبي بايت للذاكرة: 16 (-40) أو 56 (-56) التخزين الحراري (SSD) بوحدة الجيبي بايت: 180 (-552) أو 360 (-372) الحد الأقصى لأقراص البيانات: 8 (-4) أو 16 (+4) الشبكات المتسارعة: نعم (+) تخزين Premium: نعم (+)
Standard_ND12	Standard_NC16as_T4_v3	وحدة المعالجة المركزية: Intel Broadwell مقابل AMD Rome عدد وحدات معالجة الرسومات: 1 (-1) جيل وحدة معالجة الرسومات: NVIDIA Pascal مقابل Turing (+1 جيل) ذاكرة وحدة معالجة الرسومات (جيبي بايت لكل وحدة معالجة رسومات): 16 (-8) وحدة المعالجة المركزية الظاهرية: 16 (+4) وحدة الجيبي بايت للذاكرة: 110 (-114) التخزين الحراري (SSD) بوحدة الجيبي بايت: 360 (-1,114) الحد الأقصى لأقراص البيانات: 48 (+16) الشبكات المتسارعة: نعم (+) تخزين Premium: نعم (+)
Standard_ND24	Standard_NC64as_T4_v3*	وحدة المعالجة المركزية: Intel Broadwell مقابل AMD Rome عدد وحدات معالجة الرسومات: 4 (نفسه) جيل وحدة معالجة الرسومات: NVIDIA Pascal مقابل Turing (+1 جيل) ذاكرة وحدة معالجة الرسومات (جيبي بايت لكل وحدة معالجة رسومات): 16 (-8) وحدة المعالجة المركزية الظاهرية: 64 (+40) وحدات الجيبي بايت للذاكرة: 440 (نفسه) التخزين الحراري (SSD) بوحدة الجيبي بايت: 2880 (نفسه) الحد الأقصى لأقراص البيانات: 32 (نفسه) الشبكات المتسارعة: نعم (+) تخزين Premium: نعم (+)
Standard_ND24r	Standard_ND96amsr_A100_v4	وحدة المعالجة المركزية: Intel Broadwell مقابل AMD Rome عدد وحدات معالجة الرسومات: 8 (+4) إنشاء GPU: NVIDIA Pascal vs. Ampere (+2 generation) ذاكرة وحدة معالجة الرسومات (GiB لكل وحدة معالجة الرسومات): 80 (+56) وحدة المعالجة المركزية الظاهرية: 96 (+72) الذاكرة جيبي بايت: 1900 (+1452) Temp Storage (SSD) GiB: 6400 (+3452) الحد الأقصى لأقراص البيانات: 32 (نفسه) الشبكات المتسارعة: نعم (+) تخزين Premium: نعم (+) التوصيل البيني InfiniBand: نعم (نفسه)

خطوات الترحيل

تغييرات عامة

اختر سلسلة وحجماً للترحيل. استفد من حاسبة الأسعار لمزيد من النتائج المعرفية.
احصل على حصة لسلسلة الجهاز الظاهري المستهدف
قم بتغيير حجم الجهاز الظاهري الحالي من السلسلة N* إلى الحجم المستهدف. قد يكون هذا أيضًا وقتًا مناسبًا لتحديث نظام التشغيل الذي تستخدمه صورة الجهاز الظاهري، أو اعتماد إحدى صور الحوسبة عالية الأداء مع برامج التشغيل المثبتة مسبقًا كنقطة بداية.

هام

ربما تم إنتاج صورة الجهاز الظاهري باستخدام إصدار أقدم من وقت تشغيل CUDA وبرنامج تشغيل NVIDIA و(إن أمكن، للأحجام التي تدعم RDMA فقط) برامج تشغيل Mellanox OFED مما تتطلبه سلسلة الأجهزة الظاهرية المزودة بوحدات معالجة الرسومات الجديدة، والتي يمكن تحديثها باتباع الإرشادات الواردة في وثائق Azure.

كسر التغييرات

تحديد الحجم المستهدف للترحيل

بعد تقييم استخدامك الحالي، حدد نوع الجهاز الظاهري بوحدة معالجة الرسومات الذي تحتاجه. واعتمادًا على متطلبات حمل العمل، يتوفر لديك عدد قليل من الخيارات المختلفة.

إشعار

تتمثل أفضل الممارسات في تحديد حجم جهاز ظاهري بناء على كل من التكلفة والأداء. تستند التوصيات الواردة في هذا الدليل إلى مقارنة فردية للأغراض العامة لمقاييس الأداء وأقرب مطابقة في سلسلة أجهزة ظاهرية أخرى. قبل اتخاذ قرار بشأن الحجم المناسب، احصل على مقارنة التكلفة باستخدام حاسبة أسعار Azure.

هام

تتوفر جميع أحجام سلاسل NC وNC v2 وND القديمة بأحجام متعددة لوحدات معالجة الرسومات، بما في ذلك أحجام 4-GPU مع وبدون توصيل InfiniBand البيني لأحمال العمل الموسعة والمقترنة بإحكام، والتي تتطلب طاقة حوسبة أكبر من جهاز ظاهري واحد مكون من 4 وحدات معالجة رسومات، أو وحدة معالجة رسومات K80 أو P40 أو P100 واحدة يمكن توفيرها على التوالي. وعلى الرغم من أن التوصيات الواردة أعلاه توفر مسارًا مباشرًا إلى الأمام، فإنه يجب على مستخدمي هذه الأحجام التفكير في تحقيق أهداف أدائهم باستخدام سلسلة الأجهزة الظاهرية المستندة إلى وحدة معالجة الرسومات NVIDIA V100 الأكثر قوة، مثل سلسلة NC v3 وسلسلة ND v2، والتي عادة ما تمكن نفس المستوى من أداء حمل العمل بتكاليف أقل ومع إمكانية إدارة محسنة من خلال توفير أداء أكبر بكثير لكل وحدة معالجة رسومات ولكل جهاز ظاهري قبل الحاجة إلى تكوينات متعددة لوحدات معالجة الرسومات ومتعددة العقد، على التوالي.

احصل على حصة نسبية لعائلة الجهاز الظاهري المستهدف

اتبع الدليل من أجل طلب زيادة حصة وحدات المعالجة المركزية الظاهرية حسب عائلة الجهاز الظاهري. حدد حجم الجهاز الظاهري المستهدف الذي حددته للترحيل.

تغيير حجم الجهاز الظاهري الحالي

يمكنك تغيير حجم الجهاز الظاهري.

الخطوات التالية

للحصول على قائمة كاملة بأحجام الأجهزة الظاهرية التي تم تمكين وحدة معالجة الرسومات عليها، راجع نظرة عامة على وحدة معالجة الرسومات - الحوسبة المسرعة

مشاركة عبر