التدريب الموزع

عندما يكون ذلك ممكنا، توصي Azure Databricks بتدريب الشبكات العصبية على جهاز واحد؛ التعليمات البرمجية الموزعة للتدريب والاستدلال أكثر تعقيدا من التعليمات البرمجية لجهاز واحد وأبطأ بسبب الحمل الزائد للاتصال. ومع ذلك، يجب أن تفكر في التدريب الموزع والاستدلال إذا كان النموذج الخاص بك أو بياناتك كبيرة جدا بحيث لا يمكن احتواؤها في الذاكرة على جهاز واحد. بالنسبة لأحمال العمل هذه، يتضمن التعلم الآلي من Databricks Runtime حزم TorchDistributor وموزع DeepSpeed وحزم Ray.

يوفر Azure Databricks أيضا تدريبا موزعا لنماذج Spark ML مع pyspark.ml.connect الوحدة النمطية، راجع تدريب نماذج Spark ML على Databricks Connect باستخدام pyspark.ml.connect.

إشعار

لا توصي Databricks بتشغيل التدريب الموزع متعدد العقد باستخدام الأجهزة الظاهرية من سلسلة NC بسبب انخفاض أداء الشبكة بين العقد. بدلا من ذلك، استخدم عقدة واحدة متعددة وحدات معالجة الرسومات، أو استخدم حجم جهاز ظاهري GPU مختلفا مثل سلسلة NCasT4_v3، والتي تدعم الشبكات المتسارعة.

موزع DeepSpeed

تم بناء الموزع DeepSpeed على رأس TorchDistributor وهو حل موصى به للعملاء الذين لديهم نماذج تتطلب قوة حساب أعلى، ولكنها محدودة بقيود الذاكرة. DeepSpeed هي مكتبة مفتوحة المصدر طورتها Microsoft وتوفر استخداما محسنا للذاكرة وتقليل حمل الاتصال وتوازيا متقدما للبنية الأساسية لبرنامج ربط العمليات التجارية. تعرف على المزيد حول التدريب الموزع مع موزع DeepSpeed

TorchDistributor

TorchDistributor هي وحدة مفتوحة المصدر في PySpark تساعد المستخدمين على إجراء تدريب موزع باستخدام PyTorch على مجموعات Spark الخاصة بهم، لذلك يتيح لك تشغيل مهام التدريب PyTorch كوظائف Spark. تحت الغطاء، فإنه يقوم بتهيئة البيئة وقنوات الاتصال بين العمال ويستخدم أمر torch.distributed.run CLI لتشغيل التدريب الموزع عبر العقد العاملة. تعرف على المزيد حول التدريب الموزع باستخدام TorchDistributor.

شعاع

Ray هو إطار عمل مفتوح المصدر متخصص في معالجة الحوسبة المتوازية لتوسيع نطاق سير عمل التعلم الآلي وتطبيقات الذكاء الاصطناعي. راجع ما هو Ray على Azure Databricks؟.