تدريب نموذج التعلم الآلي
يتضمن تدريب نموذج التعلم الآلي ملاءمة خوارزمية التعلم الآلي لبيانات التدريب الخاصة بك من أجل تحديد وظيفة دقيقة بشكل مقبول يمكن تطبيقها على ميزاته وحساب التسميات المقابلة. قد تبدو هذه فكرة بسيطة من الناحية المفاهيمية؛ ولكن العملية الفعلية لتدريب نموذج ينتج تنبؤات دقيقة على البيانات الجديدة، وليس فقط البيانات التي تم تدريبه بها، يمكن أن تكون صعبة وتتضمن نهجا تكراريا لتدريب وتقييم النماذج بشكل متكرر باستخدام خوارزميات ومعلمات متعددة.
بيانات التدريب والتحقق من الصحة
النهج الشائع عند تدريب نموذج التعلم الآلي هو تقسيم البيانات عشوائيا إلى مجموعات فرعية للتدريبوالتحقق من الصحة. يمكنك بعد ذلك استخدام مجموعة بيانات التدريب لاحتواء خوارزمية وتدريب نموذج، ثم اختبار مدى أداء النموذج مع بيانات التحقق التي قمت بالاحتفاظ بها. يساعد هذا على ضمان تعميم النموذج بشكل جيد - بمعنى آخر أنه يولد تنبؤات دقيقة للتدريب الذي لم يتم تدريبه عليه.
ملاحظه
توصف النماذج التي تتنبأ جيدا بالبيانات التي تم تدريبهم عليها ولكنها لا تعمل بشكل جيد مع البيانات الجديدة على أنها مفرطة في احتواء بيانات التدريب.
عادة، يجب تدريب النموذج مع حوالي 70% من البيانات والاحتفاظ بحوالي 30% للتحقق من الصحة.
خوارزميات التعلم الآلي
هناك العديد من خوارزميات التعلم الآلي، مجمعة في أنواع خوارزميات مختلفة بناء على نوع مشكلة التعلم الآلي التي تحتاج إلى حلها. تتضمن معظم أطر التعلم الآلي خوارزميات متعددة للتراجع والتصنيف، وخوارزميات لمشاكل التعلم الآلي غير الخاضعة للإشراف مثل التجميع.
بعد تحديد نوع المشكلة التي تريد إنشاء نموذج لحلها، يمكنك الاختيار من بين خوارزميات متعددة من هذا النوع. ضمن كل نوع، قد تكون هناك خوارزميات متعددة للاختيار من بينها، غالبا ما تستند إلى أنواع مختلفة من العمليات الرياضية. على سبيل المثال، ضمن مجموعة الخوارزميات للتصنيف، هناك خوارزميات من النوع التالي:
- خوارزميات الانحدار اللوجستي التي تطبق دالات لوجستية بشكل متكرر لحساب قيمة بين 0 و1 تمثل الاحتمال لكل فئة ممكنة، وتحسين معاملات الدالة استنادا إلى الاختلافات بين الفئة المتوقعة وقيمة التسمية الفعلية المعروفة.
- الوظائف المستندة إلى الشجرة التي تحدد شجرة القرار التي يتم فيها النظر في ميزة فردية؛ واستنادا إلى قيمتها، يتم النظر في ميزة أخرى، وهكذا، حتى يتم تحديد تسمية فئة مناسبة.
- تجميع الخوارزميات التي تجمع بين تقنيات متعددة للعثور على الوظيفة التنبؤية الشاملة المثلى.
تعتمد الخوارزمية "الأفضل" على بياناتك، وعادة ما تتطلب تجربة متكررة وخطأ لتحديدها.
المعلمات الفائقة
المعلمات لخوارزمية التعلم الآلي هي ميزات البيانات (والتسميات) التي تم تدريبها عليها. بالإضافة إلى ذلك، توفر معظم خوارزميات التعلم الآلي مقاييس فائقة يمكنك استخدامها للتأثير على طريقة عمل الخوارزمية. تمكنك المعلمات الفائقة من التحكم في أشياء مثل مستوى العشوائية التي تريد السماح بها في النموذج (لذلك يتم تعميمها بشكل جيد ولكنها لا تزال تنتج تنبؤات دقيقة بشكل مقبول)، وعدد التكرارات التي يتم إجراؤها للعثور على نموذج مثالي (مما يتيح لك تجنب الإفراط في ضبط وقت التدريب وتحسينه)، وعدد الفروع المدروسة في نموذج الشجرة، وعوامل أخرى خاصة خوارزمية.
تركيب نموذج
لتدريب نموذج بالفعل، تحتاج إلى ملاءمة الخوارزمية للبيانات. يمكن أن يختلف بناء الجملة وتنسيقات البيانات المحددة المستخدمة للقيام بذلك عبر أطر عمل التعلم الآلي، ولكن المبدأ هو نفسه دائما. للتعلم الآلي الخاضع للإشراف، يمكنك ملاءمة الخوارزمية مع الميزات استنادا إلى التسميات المعروفة. للتعلم الآلي غير الخاضع للإشراف، يمكنك توفير الميزات وتحاول الخوارزمية فصلها إلى مجموعات منفصلة.
يوضح المثال التالي التعليمات البرمجية المستخدمة لبدء تدريب نموذج انحدار لوجستي باستخدام إطار عمل Spark MLlib. يتم توفير بيانات التدريب كإطار بيانات تكون فيه التسميات في عمود من قيم الأعداد الصحيحة، ويتم تمثيل الميزات المقابلة كمتجه واحد (صفيف) من القيم. في هذا المثال، تم أيضا تحديد اثنين من المعلمات الفائقة (maxIter و regParam).
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression(labelCol="label", featuresCol="features", maxIter=10, regParam=0.3)
model = lr.fit(training_df)