كيفية تحديد الخوارزميات للتعلم الآلي من Azure

السؤال الشائع هو "ما هي خوارزمية التعلم الآلي التي يجب أن أستخدمها؟" تعتمد الخوارزمية التي تحددها بشكل أساسي على جانبين مختلفين من سيناريو علم البيانات الخاص بك:

  • ماذا تريد أن تفعل ببياناتك؟ على وجه التحديد، ما هو السؤال التجاري الذي تريد الإجابة عليه من خلال التعلم من بياناتك السابقة؟

  • ما هي متطلبات سيناريو علم البيانات الخاص بك؟ على وجه التحديد، ما هي الدقة ووقت التدريب والخطية وعدد المعلمات وعدد الميزات التي يدعمها الحل الخاص بك؟

Considerations for choosing algorithms: What do you want to know? What are the scenario requirements?

إشعار

يدعم المصمم نوعين من المكونات، المكونات الكلاسيكية التي تم إنشاؤها مسبقا (v1) والمكونات المخصصة (v2). هذان النوعان من المكونات غير متوافقين.

توفر المكونات الكلاسيكية التي تم إنشاؤها مسبقا مكونات تم إنشاؤها مسبقا بشكل رئيسي لمعالجة البيانات ومهام التعلم الآلي التقليدية مثل الانحدار والتصنيف. يستمر دعم هذا النوع من المكونات ولكن لن تتم إضافة أي مكونات جديدة.

تسمح لك المكونات المخصصة بتضمين التعليمات البرمجية الخاصة بك كمكون. وهو يدعم مشاركة المكونات عبر مساحات العمل والتأليف السلس عبر واجهات Studio وCLI v2 وSDK v2.

بالنسبة للمشاريع الجديدة، نقترح بشدة استخدام مكون مخصص متوافق مع AzureML V2 وسيستمر في تلقي التحديثات الجديدة.

تنطبق هذه المقالة على المكونات الكلاسيكية التي تم إنشاؤها مسبقا وغير متوافقة مع CLI v2 وSDK v2.

سيناريوهات العمل وصحيفة الغش في خوارزمية التعلم الآلي

تساعدك ورقة غش خوارزمية التعلم الآلي في Azure في الاعتبار الأول: ماذا تريد أن تفعل ببياناتك؟ في ورقة المعلومات المرجعية للخوارزمية التعلم الآلي، ابحث عن المهمة التي تريد القيام بها، ثم ابحث عن خوارزمية مصمم Azure التعلم الآلي لحل التحليلات التنبؤية.

يوفر مصمم التعلم الآلي مجموعة شاملة من الخوارزميات، مثل غابة قرار متعددة الطبقات وأنظمة التوصيات وانحدار الشبكة العصبية والشبكة العصبية متعددة الفئات ونظام المجموعات K-Means. تم تصميم كل خوارزمية لمعالجة نوع مختلف من مشكلة التعلم الآلي. راجع خوارزمية مصمم التعلم الآلي ومرجع المكون للحصول على قائمة كاملة مع الوثائق حول كيفية عمل كل خوارزمية وكيفية ضبط المعلمات لتحسين الخوارزمية.

إشعار

قم بتنزيل ورقة المعلومات المرجعية هنا: ورقة غش خوارزمية التعلم الآلي من Microsoft Azure (11x17 in.)

جنبًا إلى جنب مع الإرشادات الواردة في ورقة غش خوارزمية التعلم الآلي في Azure، ضع في اعتبارك المتطلبات الأخرى عند اختيار خوارزمية التعلم الآلي للحل الخاص بك. فيما يلي عوامل إضافية يجب مراعاتها، مثل الدقة ووقت التدريب والخطية وعدد المعلمات وعدد الميزات.

مقارنة خوارزميات التعلم الآلي

تضع بعض خوارزميات التعلم افتراضات معينة حول بنية البيانات أو النتائج المرجوة. إذا تمكنت من العثور على واحد يناسب احتياجاتك، فيمكن أن يمنحك نتائج أكثر فائدة، أو تنبؤات أكثر دقة، أو أوقات تدريب أسرع.

يلخص الجدول التالي بعض أهم خصائص الخوارزميات من فئات التصنيف والانحدار والتكتل:

خوارزميه دقه وقت التدريب الخطية معلمات ملاحظات
عائلة التصنيف
الانحدار اللوجستي من فئتين Good سريع ‏‏نعم‬ 4
غابة قرار ثنائية الطبقة ممتاز متوسط لا 5 يظهر أبطأ مرات التهديف. اقترح عدم العمل مع One-vs-All Multiclass، بسبب أوقات التسجيل البطيئة الناتجة عن قفل المداس في تنبؤات الشجرة المتراكمة
شجرة القرار المعززة ثنائية الطبقة ممتاز متوسط لا 6 بصمة ذاكرة كبيرة
الشبكة العصبية ثنائية الطبقة Good متوسط لا 8
بيرسبترون متوسط ثنائي الطبقة Good متوسط ‏‏نعم‬ 4
جهاز متجه الدعم ثنائي الطبقة Good سريع ‏‏نعم‬ 5 جيد لمجموعات الميزات الكبيرة
الانحدار اللوجستي متعدد الطبقات Good سريع ‏‏نعم‬ 4
غابة قرار متعددة الطبقات ممتاز متوسط لا 5 يظهر مرات تسجيل أبطأ
شجرة قرار معززة متعددة الطبقات ممتاز متوسط لا 6 يميل إلى تحسين الدقة مع بعض المخاطر الصغيرة بتغطية أقل
الشبكة العصبية متعددة الطبقات Good متوسط لا 8
واحد مقابل الكل متعدد الطبقات - - - - راجع خصائص طريقة الفئتين المختارة
عائلة الانحدار
الانحدار الخطي Good سريع ‏‏نعم‬ 4
انحدار غابة القرار ممتاز متوسط لا 5
انحدار شجرة القرار المعزز ممتاز متوسط لا 6 بصمة ذاكرة كبيرة
انحدار الشبكة العصبية Good متوسط لا 8
عائلة تكوين أنظمة المجموعات
تكوين أنظمة المجموعات في K-means ممتاز متوسط ‏‏نعم‬ 8 خوارزمية تكوين أنظمة المجموعات

متطلبات سيناريو علم البيانات

بمجرد أن تعرف ما تريد القيام به ببياناتك، فإنك تحتاج إلى تحديد متطلبات إضافية للحل الخاص بك.

حدد الخيارات وربما المفاضلات للمتطلبات التالية:

  • الدقة
  • وقت التدريب
  • الخطية
  • عدد المعلمات
  • عدد الميزات

الدقة

تقيس الدقة في التعلم الآلي فعالية النموذج كنسبة النتائج الحقيقية إلى إجمالي الحالات. في مصمم التعلم الآلي، يحسب مكون النموذج مجموعة من مقاييس التقييم المتوافقة مع معايير الصناعة. يمكنك استخدام هذا المكون لقياس دقة نموذج مدرب.

ليس من الضروري دائمًا الحصول على أدق إجابة ممكنة. أحيانًا يكون التقريب مناسبًا، اعتمادًا على ما تريد استخدامه من أجله. إذا كان الأمر كذلك، فقد تتمكن من تقليل وقت المعالجة بشكل كبير من خلال الالتزام بأساليب أكثر تقريبية. تميل الطرق التقريبية أيضًا بشكل طبيعي إلى تجنب فرط التجهيز.

هناك ثلاث طرق لاستخدام مكون نموذج التقييم:

  • قم بتوليد درجات على بيانات التدريب الخاصة بك من أجل تقييم النموذج
  • قم بتوليد الدرجات على النموذج، لكن قارن تلك الدرجات مع الدرجات على مجموعة اختبار محجوزة
  • قارن الدرجات لنموذجين مختلفين لكن مرتبطين، باستخدام نفس مجموعة البيانات

للحصول على قائمة كاملة بالمقاييس والأساليب التي يمكنك استخدامها لتقييم دقة نماذج التعلم الآلي، راجع تقييم مكون النموذج.

وقت التدريب

في التعلم الخاضع للإشراف، يعني التدريب استخدام البيانات التاريخية لبناء نموذج تعلم آلي يقلل من الأخطاء. يختلف عدد الدقائق أو الساعات اللازمة لتدريب النموذج بشكل كبير بين الخوارزميات. غالبًا ما يرتبط زمن التدريب ارتباطًا وثيقًا بالدقة، عادةً ما يصاحب أحد الأمرين الآخر.

بالإضافة إلى ذلك، فإن بعض الخوارزميات أكثر حساسية لعدد نقاط البيانات من غيرها. قد تختار خوارزمية معينة لأن لديك قيودًا زمنية، خاصة عندما تكون مجموعة البيانات كبيرة.

في مصمم التعلم الآلي، عادةً ما يكون إنشاء نموذج التعلم الآلي واستخدامه عملية من ثلاث خطوات:

  1. قم بتكوين نموذج باختيار نوع معين من الخوارزمية، ثم تحديد معلماته أو معلماته الفائقة.

  2. قم بتوفير مجموعة بيانات مصنفة وتحتوي على بيانات متوافقة مع الخوارزمية. اربط كلاً من البيانات والنموذج بـ تدريب مكون النموذج .

  3. بعد اكتمال التدريب، استخدم النموذج المدرب مع أحد مكونات التسجيل لعمل تنبؤات بشأن البيانات الجديدة.

الخطية

تعني الخطية في الإحصاء والتعلم الآلي أن هناك علاقة خطية بين متغير وثابت في مجموعة البيانات الخاصة بك. على سبيل المثال، تفترض خوارزميات التصنيف الخطي أنه يمكن فصل الفئات بخط مستقيم (أو تناظرية ذات أبعاد أعلى).

تستفيد الكثير من خوارزميات التعلم الآلي من الخطية. في مصمم التعلم الآلي من Microsoft Azure، تشمل:

تفترض خوارزميات الانحدار الخطي أن اتجاهات البيانات تتبع خطاً مستقيماً. هذا الافتراض ليس سيئًا بالنسبة لبعض المشكلات، ولكنه يقلل الدقة بالنسبة للآخرين. على الرغم من عيوبها، فإن الخوارزميات الخطية شائعة كإستراتيجية أولى. تميل إلى أن تكون بسيطة حسابيًا وسريعة التدريب.

Nonlinear class boundary

حدود الفئة غير الخطية: الاعتماد على خوارزمية تصنيف خطية قد ينتج عنه دقة منخفضة.

Data with a nonlinear trend

البيانات ذات الاتجاه غير الخطي: قد يؤدي استخدام طريقة الانحدار الخطي إلى حدوث أخطاء أكبر بكثير مما هو ضروري.

عدد المعلمات

المعلمات هي المقابض التي يجب على عالم البيانات تشغيلها عند إعداد خوارزمية. إنها الأرقام التي تؤثر على سلوك الخوارزمية، مثل تحمل الخطأ أو عدد التكرارات، أو الخيارات بين المتغيرات الخاصة بكيفية تصرف الخوارزمية. قد يكون وقت التدريب ودقة الخوارزمية حساسين أحيانًا للحصول على الإعدادات الصحيحة فقط. عادةً ما تتطلب الخوارزميات التي تحتوي على عدد كبير من المعلمات أكبر قدر من المحاولة والخطأ للعثور على مجموعة جيدة.

بدلاً من ذلك، هناك مكون Tune Model Hyperparameters في مصمم التعلم الآلي: الهدف من هذا المكون هو تحديد المعلمات التشعبية المثلى لنموذج التعلم الآلي. يبني المكون ويختبر نماذج متعددة باستخدام مجموعات مختلفة من الإعدادات. يقارن المقاييس عبر جميع النماذج للحصول على مجموعات الإعدادات.

في حين أن هذه طريقة رائعة للتأكد من أنك قد امتدت مساحة المعلمة، فإن الوقت المطلوب لتدريب نموذج يزداد أضعافًا مضاعفة مع عدد المعلمات. الجانب الإيجابي هو أن وجود العديد من المعلمات يشير عادةً إلى أن الخوارزمية تتمتع بقدر أكبر من المرونة. يمكن أن تحقق غالبًا دقة جيدة جدًا، بشرط أن تتمكن من العثور على المجموعة الصحيحة من إعدادات المعلمات.

عدد الميزات

في التعلم الآلي، الميزة هي متغير قابل للقياس الكمي للظاهرة التي تحاول تحليلها. بالنسبة لأنواع معينة من البيانات، يمكن أن يكون عدد الميزات كبيرًا جدًا مقارنة بعدد نقاط البيانات. هذا هو الحال غالبًا مع علم الوراثة أو البيانات النصية.

يمكن لعدد كبير من الميزات أن يعيق بعض خوارزميات التعلم، مما يجعل وقت التدريب طويلاً بشكل غير مجد. آلات المتجهات الداعمة تعد مناسبة تمامًا للسيناريوهات التي تحتوي على عدد كبير من الميزات. لهذا السبب، تم استخدامها في العديد من التطبيقات من استرجاع المعلومات إلى تصنيف النصوص والصور. يمكن استخدام آلات المتجهات الداعمة لكل من مهام التصنيف والانحدار.

يشير اختيار الميزة إلى عملية تطبيق الاختبارات الإحصائية على المدخلات، مع إعطاء مخرجات محددة. الهدف هو تحديد الأعمدة الأكثر تنبؤاً بالمخرجات. يوفر مكون تحديد الميزات المستند إلى التصفية في مصمم التعلم الآلي خوارزميات متعددة لاختيار الميزات للاختيار من بينها. يشتمل المكون على طرق الارتباط مثل ارتباط بيرسون وقيم مربع كاي.

يمكنك أيضًا استخدام مكوِّن أهمية ميزة التبديل لحساب مجموعة من نقاط أهمية الميزة لمجموعة البيانات الخاصة بك. يمكنك بعد ذلك الاستفادة من هذه الدرجات لمساعدتك في تحديد أفضل الميزات لاستخدامها في النموذج.

الخطوات التالية