فهم كيفية تدريب نماذج التعلم الآلي

مكتمل

تعتمد كيفية تدريب نموذج التعلم الآلي على نوع النموذج الذي تريد تدريبه. دعونا نستكشف بعض أطر العمل شائعة الاستخدام التي يمكنك استخدامها لتدريب نموذج التعلم الآلي في Microsoft Fabric.

استكشاف أطر عمل التعلم الآلي

يعمل العديد من علماء البيانات في Python، وقد تم تصميم العديد من مكتبات التعلم الآلي للعمل بشكل جيد مع Python.

بعض المكتبات واستخداماتها الشائعة التي يمكنك العمل معها في Microsoft Fabric هي:

  • Scikit-learn: تدريب نماذج التعلم الآلي التقليدية لمهام مثل التصنيف والانحدار والتكتمل.
  • PyTorchوTensorFlow: تدريب نماذج التعلم العميق لمعالجة اللغة الطبيعية أو مهام رؤية الكمبيوتر.
  • SynapseML: يسمح لك بإنشاء مسارات تعلم آلي قابلة للتطوير لمزيد من التدريب الأمثل على النموذج.

استخدام دفاتر الملاحظات في Microsoft Fabric

عندما تريد تدريب نموذج في Microsoft Fabric، يمكنك استخدام دفاتر الملاحظات.

كعالم بيانات، قد تكون على دراية بالفعل بدفاتر Jupyter. دفاتر الملاحظات المتوفرة في مساحة عمل Microsoft Fabric مشابهة لدفاتر ملاحظات Jupyter، مما يسهل عليك تشغيل التعليمات البرمجية الخاصة بك كما هو متوقع.

يتم تشغيل دفاتر الملاحظات في Microsoft Fabric بواسطة حساب Spark، مما يعني أنه يمكنك استخدام PySpark وPython. تعمل معظم أطر التعلم الآلي مثل scikit-learn وPyTorch وTensorFlow مع Python وPandas DataFrames.

PySpark هي مكتبة Python تم إنشاؤها لمعالجة البيانات الموزعة. كلما لاحظت الحاجة إلى مسار تدريب آلي أكثر قابلية للتطوير، يمكنك استكشاف استخدام PySpark وSynapseML في مشاريعك.

تدريب نموذج

تعتمد كيفية التعامل مع تدريب التعلم الآلي على نوع النموذج الذي تقوم بتدريبه. يتمثل النهج الشائع مع النماذج التقليدية في التكرار من خلال الخطوات التالية:

  • قم بتحميل البيانات عن طريق إتاحتها في دفتر الملاحظات ك DataFrame.
  • استكشف البيانات من خلال تصور البيانات وفهم العلاقة بين الميزات (إدخال النموذج) وكيفية تأثيرها على التسمية (إخراج النموذج).
  • قم بإعداد البيانات، والمعروفة أيضا باسم هندسة الميزات.
  • تقسيم البيانات إلى مجموعة بيانات تدريب واختبار مجموعة بيانات.
  • تدريب النموذج.
  • تقييم النموذج عن طريق فحص مقاييس الأداء.

دعونا نستكشف مثالا ونفترض أن لديك بالفعل مجموعة بيانات قمت باستكشافها وإعدادها لتدريب النموذج. تخيل أنك تريد تدريب نموذج انحدار واختر استخدام scikit-learn.

يمكنك تقسيم مجموعة البيانات المعدة مع التعليمات البرمجية التالية:

from sklearn.model_selection import train_test_split

X, y = df[['feature1','feature2','feature3']].values, df['label'].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

نتيجة لتقسيم مجموعة البيانات الخاصة بك، سيكون لديك أربعة DataFrames:

  • X_train: مجموعة بيانات التدريب بما في ذلك الميزات فقط.
  • X_test: اختبار مجموعة البيانات بما في ذلك الميزات فقط.
  • y_train: مجموعة بيانات التدريب بما في ذلك التسمية فقط.
  • y_test: اختبار مجموعة البيانات بما في ذلك التسمية فقط.

عندما تريد تدريب نموذج، يمكنك تحديد إحدى الخوارزميات (على سبيل المثال الانحدار الخطي) لمهمتك (على سبيل المثال الانحدار) المتوفرة في إطار العمل الذي تختاره (على سبيل المثال scikit-learn). توضح التعليمات البرمجية التالية مثالا لتدريب نموذج الانحدار:

from sklearn.linear_model import LinearRegression

model = LinearRegression() 
model.fit(X_train, y_train)

بعد ملاءمة النموذج، يمكنك استخدام النموذج لإنشاء تنبؤات على مجموعة بيانات الاختبار لإنشاء مقاييس أداء النموذج. عند استخدام MLflow لتعقب النموذج الخاص بك، يمكنك تتبع مقاييس الأداء التي تحسبها. بدلا من ذلك، يمكنك السماح ل MLflow بإنشاء مقاييس الأداء القياسية وتتبعها نيابة عنك.

عند التتبع باستخدام MLflow، يمكنك أيضا التأكد من حفظ النموذج الخاص بك بتنسيق لتمكين تسجيل النموذج في مرحلة لاحقة.