غابات عشوائية وتحديد البنيات،

مكتمل

غالبا ما يكون التجريب مع البنيات محورًا رئيسيًا لبناء نماذج حديثة فعالة. لقد فعلنا ذلك إلى مستوى أساسي مع أشجار القرار، ولكن الحد الوحيد لهذا هو خيالنا، وربما ذاكرة الكمبيوتر لدينا. في الواقع، أدى التفكير على نطاق أوسع على أشجار القرار إلى بنية نموذج شائعة للغاية تقلل من ميل أشجار القرار إلى الإفراط في احتواء البيانات.

ما هي الغابة العشوائية؟

الغابة العشوائية هي مجموعة من أشجار القرار التي تستخدم معا لتقدير التسمية التي يجب تعيين عينة لها. على سبيل المثال، إذا قمنا بتدريب غابة عشوائية للتنبؤ بالفائزين بالميداليات، فقد ندرب 100 شجرة قرار مختلفة، وللتنؤ، قد نستخدم جميع الأشجار بشكل مستقل. وهذا من شأنه أن "يصوت" بشكل فعال على ما إذا كان الرياضي سيفوز بميدالية، ما يوفر قرارا نهائيا.

كيف تًدرب غابة عشوائية؟

بنيت الغابات العشوائية على فكرة أنه في حين أن شجرة قرار واحد منحازة للغاية، أو مفرطة الملائمة إذا دربنا العديد من أشجار القرار، فإنها ستكون منحازة بطرق مختلفة. وهذا يتطلب أن يتم تدريب كل شجرة بشكل مستقل وكل منها على مجموعة تدريب مختلفة قليلا.

لتدريب شجرة قرار واحدة، يتم استخراج عدد معين من العينات – الرياضيين في السيناريو الخاص بنا – من مجموعة التدريب الكاملة. يمكن اختيار كل عينة أكثر من مرة، ويكون ذلك بشكل عشوائي، ثم تُدرب الشجرة بالطريقة القياسية، وتُكرر هذه العملية لكل شجرة. كما تُدرب كل شجرة على مزيج مختلف من أمثلة التدريب وتكون كل شجرة تُنهي التدريب تكون منحازة بشكل مختلف عن الآخرين.

مزايا الغابة العشوائية

يكون أداء الغابات العشوائية غالبا مثيرًا للإعجاب، وبالتالي غالبا ما تُجرى المقارنات على أفضل وجه ضد الشبكات العصبية، التي تُعد نوع آخر نوع نموذج شائع وأعلى أداء. على عكس الشبكات العصبية، من السهل تدريب نماذج الغابات العشوائية: توفر الأطر الحديثة أساليب مفيدة تتيح لك القيام بذلك في بضعة أسطر فقط من التعليمات البرمجية. الغابات العشوائية أيضا سريعة في التدريب ولا تحتاج إلى مجموعات بيانات كبيرة لأداء جيد. وهذا يفصلها عن الشبكات العصبية، والتي قد تستغرق في كثير من الأحيان دقائق أو أياما للتدريب، وتتطلب خبرة كبيرة، وغالبا ما تتطلب مجموعات بيانات كبيرة جدا. قرارات البنية للغابات العشوائية أبسط بكثير من الشبكات العصبية في حين أنها أكثر تعقيدًا من نماذج مثل التراجع الخطي.

مساوئ الغابة العشوائية

العيب الرئيسي للغابات العشوائية هو أنه من الصعب فهمها. على وجه التحديد، في حين أن هذه النماذج شفافة بالكامل - يمكن فحص كل شجرة وفهمها - فإنها غالبا ما تحتوي على العديد من الأشجار التي يكون القيام بذلك مستحيلا تقريبا.

كيف يمكنني تخصيص هذه البنيات؟

يوجد خيارات بنيات مختلفة للغابات العشوائية مثل العديد من النماذج. أسهل ما يمكن مراعاته هو حجم الغابة: عدد الأشجار المشاركة، إلى جانب حجم هذه الأشجار. على سبيل المثال، سيكون من الممكن طلب غابة للتنبؤ بالفائزين بالميداليات الذين تحتوي على 100 شجرة كل منها يبلغ عمقه الأقصى ست عقد. وهذا يعني أن القرار النهائي بشأن ما إذا كان الرياضي سيفوز بميدالية يجب أن يتم مع ما لا يزيد عن ستة عبارات "إذا".

كما تعلمنا بالفعل، فإن زيادة حجم الشجرة (من حيث العمق أو عدد الأوراق) يجعل من المرجح أن تفرط في احتواء البيانات التي تم تدريبها عليها. ينطبق هذا القيد أيضًا على الغابات العشوائية. ومع ذلك، مع الغابات العشوائية يمكننا مواجهة ذلك عن طريق زيادة عدد الأشجار على افتراض أن كل شجرة ستكون منحازة بطريقة مختلفة. يمكننا أيضا تقييد كل شجرة بعدد معين من الميزات فقط، أو عن طريق عدم السماح بإنشاء الأوراق عندما يحدث فرقا هامشيا فقط في أداء التدريب. قدرة الغابات العشوائية لإنتاج التنبؤات الجيدة ليست لانهائية. في مرحلة ما، لا تعطي زيادة حجم وعدد الأشجار أي تحسن إضافي بسبب التنوع المحدود لبيانات التدريب التي لدينا.