عنصر Two-Class Decision Forest

مقالة
06/01/2023

توضح هذه المقالة مكونا في مصمم التعلم الآلي Azure.

استخدم هذا المكون لإنشاء نموذج التعلم الآلي استنادًا إلى خوارزمية غابات القرار.

غابات القرار هي نماذج مجموعة سريعة خاضعة للإشراف. هذا المكون هو خيار جيد إذا كنت ترغب في توقع هدف بحد أقصى نتيجتين.

فهم غابات القرار

خوارزمية غابة القرار هذه هي طريقة تعلم مجموعة مخصصة لمهام التصنيف. تستند أساليب المجموعة إلى المبدأ العام الذي مفاده أنه بدلا من الاعتماد على نموذج واحد، يمكنك الحصول على نتائج أفضل ونموذج أكثر عمومية من خلال إنشاء نماذج متعددة ذات صلة والجمع بينها بطريقة ما. بشكل عام، توفر نماذج المجموعات تغطية ودقة أفضل من الأشجار ذات القرار الفردي.

هناك العديد من الطرق لإنشاء نماذج فردية ودمجها في المجموعة. يعمل هذا التنفيذ الخاص لغابة القرار عن طريق بناء أشجار قرارات متعددة ثم التصويت على فئة الإخراج الأكثر شعبية. التصويت هو واحد من الطرق المعروفة بشكل أفضل لتوليد النتائج في نموذج مجموعة.

يتم إنشاء العديد من أشجار التصنيف الفردية، باستخدام مجموعة البيانات بأكملها، ولكن نقاط بداية مختلفة (عادة عشوائية). يختلف هذا عن نهج الغابة العشوائية، حيث قد تستخدم أشجار القرار الفردية جزءًا عشوائيًا فقط من البيانات أو الميزات.
تنتج كل شجرة في شجرة غابة القرار مدرج تكرار غير عادي للتسميات.
تجمع عملية التجميع هذه الرسوم البيانية وتطبيع النتيجة للحصول على "الاحتمالات" لكل تسمية.
الأشجار التي لديها ثقة عالية التنبؤ سيكون لها وزن أكبر في القرار النهائي من الفرقة.

تتمتع أشجار القرار بشكل عام بالعديد من المزايا لمهام التصنيف:

يمكنهم التقاط حدود القرار غير الخطية.
يمكنك التدريب والتنبؤ على الكثير من البيانات، لأنها فعالة في الحساب واستخدام الذاكرة.
يتم دمج اختيار الميزات في عمليات التدريب والتصنيف.
يمكن للأشجار استيعاب البيانات صاخبة والعديد من الميزات.
وهي نماذج غير نموذجية، ما يعني أنها يمكن أن تتعامل مع البيانات مع توزيعات متنوعة.

ومع ذلك، يمكن أن تفرط أشجار القرارات البسيطة في احتواء البيانات، وهي أقل قابلية للتعميم من مجموعات الأشجار.

لمزيد من المعلومات، راجع Decision Forests.

كيفية التهيئة

أضف مكون مجموعة القرار من فئتين إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك في التعلم الآلي من Azure، وافتح جزء Properties للمكون.

يمكنك العثور على المكون ضمن التعلم الآلي. قم بتوسيع Initialize، ثم Classification.
بالنسبة إلى طريقة إعادة التشكيل، اختر الطريقة المستخدمة لإنشاء الأشجار الفردية. يمكنك الاختيار من بين وضع العلامات أو النسخ المتماثل.
- التعبئة: يُطلق على التعبئة أيضاً تجميع التمهيد. في هذه الطريقة، تتم زراعة كل شجرة على عينة جديدة، يتم إنشاؤها عن طريق أخذ عينات عشوائية من مجموعة البيانات الأصلية مع الاستبدال حتى تحصل على مجموعة بيانات بحجم الأصل.
  
  يتم دمج مخرجات النماذج عن طريق التصويت، وهو شكل من أشكال التجميع. تنتج كل شجرة في غابة قرارات التصنيف مدرج تكرار تكراري غير متناسق للتسميات. التجميع هو جمع هذه المدرجات التكرارية والتطبيع للحصول على "الاحتمالات" لكل تسمية. وبهذه الطريقة، فإن الأشجار التي تتمتع بثقة عالية في التنبؤ سيكون لها وزن أكبر في القرار النهائي للنسمة.
  
  لمزيد من المعلومات، راجع إدخال Wikipedia لتجميع Bootstrap.
- تكرار: في النسخ المتماثل، يتم تدريب كل شجرة على نفس بيانات الإدخال بالضبط. تحديد المسند المنقسم الذي يتم استخدامه لكل عقدة شجرة يبقى عشوائيا وستكون الأشجار متنوعة.
حدد الطريقة التي تريد تدريب النموذج بها عن طريق تعيين خيار إنشاء وضع المدرب.
- معلمة واحدة: إذا كنت تعرف كيف تريد تكوين النموذج، يمكنك توفير مجموعة معينة من القيم كوسيطات.
- نطاق المعلمات: إذا لم تكن متأكدا من أفضل المعلمات، يمكنك العثور على المعلمات المثلى باستخدام مكون Tune Model Hyperparameters. يمكنك توفير بعض مجموعة من القيم، ويكرر المدرب على مجموعات متعددة من الإعدادات لتحديد مجموعة القيم التي تنتج أفضل نتيجة.
بالنسبة إلى عدد أشجار القرار، اكتب الحد الأقصى لعدد أشجار القرار التي يمكن إنشاؤها في المجموعة. من خلال إنشاء المزيد من أشجار القرار، يمكنك الحصول على تغطية أفضل، ولكن يزيد وقت التدريب.

ملاحظة

إذا قمت بتعيين القيمة إلى 1. ومع ذلك، يمكن إنتاج شجرة واحدة فقط (الشجرة مع مجموعة أولية من المعلمات) ولا يتم تنفيذ تكرارات أخرى.
للحصول على أقصى عمق لأشجار القرار، اكتب رقمًا للحد من الحد الأقصى لعمق أي شجرة قرار. قد تؤدي زيادة عمق الشجرة إلى زيادة الدقة، مع خطر حدوث بعض التجهيز الزائد وزيادة وقت التدريب.
بالنسبة إلى الحد الأدنى لعدد العينات لكل عقدة طرفية، قم بالإشارة إلى الحد الأدنى لعدد الحالات المطلوبة لإنشاء أي عقدة طرفية (طرفية) في شجرة.

بزيادة هذه القيمة، يمكنك زيادة حد إنشاء قواعد جديدة. على سبيل المثال، مع القيمة الافتراضية 1، يمكن أن تتسبب حالة واحدة في إنشاء قاعدة جديدة. إذا قمت بزيادة القيمة إلى 5، يجب أن تحتوي بيانات التدريب على خمس حالات على الأقل تفي بنفس الشروط.
حدد الخيار السماح بالقيم غير المعروفة للميزات الفئوية لإنشاء مجموعة للقيم غير المعروفة في مجموعات التدريب أو التحقق من الصحة. قد يكون النموذج أقل دقة للقيم المعروفة، ولكنه يمكن أن يوفر تنبؤات أفضل للقيم الجديدة (غير المعروفة).

إذا قمت بإلغاء تحديد هذا الخيار، يمكن للنموذج قبول القيم المضمنة في بيانات التدريب فقط.
إرفاق مجموعة بيانات مسماة، وتدريب النموذج:
- إذا قمت بتعيين Create trainer mode إلى Single Parameter، فقم بتوصيل مجموعة بيانات ذات علامة ومكون Train Model.
- إذا قمت بتعيينوضع إنشاء المدربلـنطاق المعلمات، فقم بتوصيل مجموعة البيانات ذات العلامة وتدريب النموذج باستخدامضبط المعلمات الفائقة للنموذج.
ملاحظة

إذا قمت بتمرير النطاق المتعلق بمعلمة إلىتدريب النموذج، فإنه يستخدم القيمة الافتراضية فقط في قائمة المعلمات الفردية.

إذا قمت بتمرير مجموعة واحدة من قيم المعلمات إلى المكونلضبط المعلمات الفائقة، عندما يتوقع نطاقاً من الإعدادات لكل معلمة، فإنه يتجاهل القيم ويستخدم القيم الافتراضية للمتعلم.

إذا حددت الخيار نطاق المعلمات وأدخلت قيمة واحدة لأي معلمة، يتم استخدام هذه القيمة المفردة التي حددتها طوال عملية المسح، حتى إذا تغيرت المعلمات الأخرى عبر نطاق من القيم.

النتائج

بعد انتهاء التدريب:

لحفظ لقطة للنموذج المدرب، حدد علامة التبويب Outputs في اللوحة اليمنى لمكون نموذج Train. حدد أيقونة تسجيل مجموعة البيانات لحفظ النموذج كمكوِّن قابل لإعادة الاستخدام.
لاستخدام النموذج لتسجيل النقاط، أضف مكون Score Model إلى البنية الأساسية لبرنامج ربط العمليات التجارية.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.

عنصر Two-Class Decision Forest

فهم غابات القرار

كيفية التهيئة

النتائج

الخطوات التالية

الموارد الإضافية