إعداد البيانات والبيئة ل ML وDL

يصف هذا القسم كيفية إعداد بياناتك وبيئة Azure Databricks للتعلم الآلي والتعلم العميق.

إعداد البيانات

تغطي المقالات الواردة في هذا القسم جوانب تحميل البيانات الخاصة بتطبيقات ML وDL والمعالجة المسبقة لها.

تهيئة البيئة

Databricks Runtime for التعلم الآلي (Databricks Runtime ML) هو بيئة جاهزة للاستخدام الأمثل للتعلم الآلي وعلوم البيانات. يتضمن التعلم الآلي من Databricks Runtime العديد من المكتبات الخارجية، بما في ذلك TensorFlow وPyTorch وHorovod وscikit-learn وXGBoost، ويوفر ملحقات لتحسين الأداء، بما في ذلك تسريع GPU في XGBoost، والتعلم العميق الموزع باستخدام HorovodRunner، ونقاط التحقق النموذجية باستخدام تحميل نظام ملفات Databricks (DBFS) FUSE.

لاستخدام Databricks Runtime ML، حدد إصدار التعلم الآلي من وقت التشغيل عند إنشاء نظام المجموعة.

إشعار

للوصول إلى البيانات في كتالوج Unity لسير عمل التعلم الآلي، يجب أن يكون وضع الوصول لنظام المجموعة مستخدما واحدا (معينا). المجموعات المشتركة غير متوافقة مع وقت تشغيل Databricks التعلم الآلي.

تثبيت مكتبة التعليمات البرمجية

يمكنك تثبيت مكتبات إضافية لإنشاء بيئة مخصصة لدفتر الملاحظات أو نظام المجموعة.

استخدام مجموعات GPU

يمكنك إنشاء مجموعات GPU لتسريع مهام التعلم العميق. للحصول على معلومات حول إنشاء مجموعات Azure Databricks GPU، راجع الحوسبة الممكنة بواسطة وحدة معالجة الرسومات. يتضمن التعلم الآلي من Databricks Runtime برامج تشغيل أجهزة GPU ومكتبات NVIDIA مثل CUDA.