التعلم الآلي في Azure Databricks

مكتمل

يوفر Azure Databricks بيئة شاملة مستندة إلى السحابة لتطوير نموذج التعلم الآلي. التعلم الآلي هو تخصص يتضمن التعاون بين علماء البيانات، الذين يحللون البيانات وينمذجونها، ومهندسي التعلم الآلي الذين ينشرون النماذج ويديرونها. تمكن Azure Databricks علماء البيانات من تنفيذ مهام استيعاب البيانات واستكشافها وإعدادها بالإضافة إلى مهام التدريب والتقييم والإدارة النموذجية.

لقطة شاشة لمدخل Azure Databricks لشخصية التعلم الآلي.

أوقات تشغيل Databricks للتعلم الآلي

عند إنشاء نظام مجموعة في مساحة عمل Azure Databricks، يمكنك تحديد وقت تشغيل Databricks لتثبيته في نظام المجموعة. يتضمن Azure Databricks بعض أوقات تشغيل databricks التي تم تحسينها للتعلم الآلي. وهي تشمل دعم المكتبات التي تستخدم بشكل شائع في أحمال عمل التعلم الآلي، بما في ذلك أطر عمل التعلم الآلي والأدوات المساعدة لإدارة عمليات التعلم الآلي.

إذا كنت ستقوم بتنفيذ حلول التعلم الآلي، فقم بإنشاء مجموعة باستخدام أحد أوقات تشغيل التعلم الآلي . يمكنك اختيار وقت تشغيل يستند إلى وحدة المعالجة المركزية لسيناريوهات التعلم الآلي الكلاسيكية، أو وقت تشغيل يستند إلى وحدة معالجة الرسومات إذا كنت بحاجة إلى إنشاء شبكات عصبية معقدة مع أطر التعلم العميق، والتي يمكن أن تستفيد من قدرة وحدات معالجة الرسومات على معالجة البيانات المستندة إلى المصفوفة والمتجه بكفاءة.

أطر عمل التعلم الآلي في Azure Databricks

تم إنشاء Azure Databricks على Apache Spark، وهو نظام أساسي قابل للتطوير بدرجة كبيرة لمعالجة البيانات الموزعة. في Spark، عادة ما يعمل علماء البيانات ومهندسو التعلم الآلي في دفاتر ملاحظات تفاعلية حيث تكتب التعليمات البرمجية لإعداد البيانات واستخدامها لتدريب نماذج التعلم الآلي في PySpark (متغير Python محسن ل Spark). يوجد داخل نظام Python البنائي العديد من أطر التعلم الآلي شائعة الاستخدام، بما في ذلك:

  • Scikit-Learn: إطار عمل شائع للتعلم الآلي يوفر مجموعة واسعة من الخوارزميات والمكتبات الأخرى لمساعدتك على تدريب وتقييم النماذج التنبؤية.
  • Spark MLlib: مكتبة التعلم الآلي التي تم إنشاؤها خصيصا ل Spark. يوفر MLlib طريقتين لتدريب وتقييم نماذج التعلم الآلي:
    • الفئات المستندة إلى بنية مجموعة البيانات الموزعة المرنة (RDD) في Spark.
    • الفئات المستندة إلى بنية إطار بيانات Spark. هذا الإطار (يشار إليه عادة باسم Spark ML) هو الإطار المفضل لاستخدام MLlib.
  • PyTorch: إطار عمل للتعلم العميق يستخدم لبناء نماذج شبكة عصبية للتنبؤ المعقد ورؤية الكمبيوتر وأحمال عمل معالجة اللغة الطبيعية.
  • TensorFlow: إطار عمل آخر شائع الاستخدام للتعلم العميق.

يمكنك استخدام أي من هذه الأطر (والمزيد) في Azure Databricks لتدريب وتقييم نماذج التعلم الآلي.