تحديد الميزة المستندة إلى عامل التصفية

توضح هذه المقالة كيفية استخدام مكون تحديد الميزة المستند إلى التصفية في مصمم التعلم الآلي من Microsoft Azure. يساعدك هذا المكون في تحديد الأعمدة في مجموعة بيانات الإدخال التي تتمتع بأكبر قدر من القدرة التنبئية.

بشكل عام، يشير تحديد الميزة إلى عملية تطبيق الاختبارات الإحصائية على المدخلات، في ضوء مخرجات محددة. الهدف هو تحديد الأعمدة الأكثر تنبؤاً بالمخرجات. يوفر مكون تحديد الميزة المستند إلى عامل التصفية خوارزميات متعددة لاختيار الميزات للاختيار من بينها. يشتمل المكون على طرق الارتباط مثل ارتباط Pearson وقيم chi-squared.

عند استخدام مكون تحديد الميزة المستند إلى التصفية، فإنك توفر مجموعة بيانات وتحدد العمود الذي يحتوي على التسمية أو المتغير التابع. يمكنك بعد ذلك تحديد طريقة واحدة لاستخدامها في قياس أهمية الميزة.

يقوم المكون بإخراج مجموعة بيانات تحتوي على أفضل أعمدة الميزة، حسب ترتيبها حسب القدرة التنبئية. كما يقوم بإخراج أسماء المعالم ودرجاتها من المقياس المحدد.

ما هو اختيار الميزة على أساس عامل التصفية

يُطلق على هذا المكوِّن الخاص بتحديد الميزة "مستند إلى عامل التصفية" لأنك تستخدم المقياس المحدد للعثور على سمات غير ملائمة. تقوم بعد ذلك بتصفية الأعمدة الزائدة عن الحاجة من نموذجك. أنت تختار مقياساً إحصائياً واحداً يناسب بياناتك، ويحسب المكون الدرجة لكل عمود ميزة. يتم إرجاع الأعمدة مرتبة حسب درجاتها المميزة.

باختيار الميزات الصحيحة، يمكنك تحسين دقة وكفاءة التصنيف.

عادةً ما تستخدم فقط الأعمدة التي حصلت على أفضل الدرجات لبناء نموذجك التنبئي. يمكن ترك الأعمدة ذات الدرجات الضعيفة لاختيار المعالم في مجموعة البيانات وتجاهلها عند إنشاء نموذج.

كيفية اختيار مقياس اختيار الميزة

يوفر مكون تحديد الميزة المستند إلى عامل التصفية مجموعة متنوعة من القياسات لتقييم قيمة المعلومات في كل عمود. يقدم هذا القسم وصفاً عاماً لكل مقياس وكيفية تطبيقه. يمكنك العثور على متطلبات إضافية لاستخدام كل مقياس في ملاحظات فنية وفي تعليمات تكوين كل مكون.

  • ارتباط Pearson

    إحصائية ارتباط Pearson، أو معامل ارتباط Pearson، تُعرف أيضاً في النماذج الإحصائية بالقيمة r. لأي متغيرين، تقوم بإرجاع قيمة تشير إلى قوة الارتباط.

    يُحسب معامل ارتباط Pearson بأخذ التغاير بين متغيرين والقسمة على حاصل ضرب انحرافاتهم المعيارية. لا تؤثر تغييرات المقياس في المتغيرين على المعامل.

  • مربع تشي

    اختبار مربع كاي ثنائي الاتجاه هو طريقة إحصائية تقيس مدى قرب القيم المتوقعة من النتائج الفعلية. تفترض الطريقة أن المتغيرات عشوائية ومستمدة من عينة مناسبة من المتغيرات المستقلة. يشير إحصاء مربع كاي الناتج إلى مدى بُعد النتائج عن النتيجة المتوقعة (العشوائية).

تلميح

إذا كنت بحاجة إلى خيار مختلف لطريقة تحديد الميزة المخصصة، فاستخدم المكون تنفيذ البرنامج النصي R.

كيفية تكوين اختيار الميزة المعتمد على التصفية

أنت تختار مقياساً إحصائياً قياسياً. يحسب المكون الارتباط بين زوج من الأعمدة: عمود التسمية وعمود الميزة.

  1. أضف مكون تحديد الميزة المستند إلى التصفية إلى مسار التدفق الخاص بك. يمكنك العثور عليها في فئة Feature Selection في المصمم.

  2. قم بتوصيل مجموعة بيانات إدخال تحتوي على عمودين على الأقل من الميزات المحتملة.

    للتأكد من تحليل عمود وإنشاء درجة ميزة، استخدم مكون تحرير بيانات التعريف لتعيين سمة IsFeature.

    هام

    تأكد من أن الأعمدة التي تقدمها كمدخلات هي ميزات محتملة. على سبيل المثال، لا يحتوي العمود الذي يحتوي على قيمة واحدة على قيمة معلومات.

    إذا كنت تعلم أن بعض الأعمدة قد تؤدي إلى ظهور ميزات سيئة، فيمكنك إزالتها من تحديد العمود. يمكنك أيضاً استخدام المكون تحرير بيانات التعريف لوضع علامة عليها باعتبارها فئوية.

  3. بالنسبة إلى طريقة تسجيل النقاط، اختر إحدى الطرق الإحصائية المحددة التالية لاستخدامها في حساب الدرجات.

    الأسلوب المتطلبات
    ارتباط Pearson يمكن أن تكون التسمية نصية أو رقمية. يجب أن تكون الميزات رقمية.
    مربع تشي يمكن أن تكون التسميات والميزات نصية أو رقمية. استخدم هذه الطريقة لحساب أهمية الميزة لعمودين فئتين.

    تلميح

    إذا قمت بتغيير المقياس المحدد، فستتم إعادة تعيين جميع التحديدات الأخرى. لذا تأكد من ضبط هذا الخيار أولاً.

  4. حدد الخيار Operate on feature columns only لإنشاء درجة فقط للأعمدة التي تم تمييزها مسبقاً كميزات.

    إذا قمت بإلغاء تحديد هذا الخيار، فسيقوم المكون بإنشاء درجة لأي عمود يفي بالمعايير بخلاف ذلك، حتى عدد الأعمدة المحدد في Number of desired features.

  5. بالنسبة إلى العمود الهدف، حدد Launch column selector لاختيار عمود التسمية إما بالاسم أو حسب الفهرس. (تستند الفهارس إلى قاعدة واحدة.)
    عمود التسمية مطلوب لجميع الطرق التي تتضمن ارتباطاً إحصائياً. يُرجع المكون خطأ وقت التصميم إذا اخترت عدم وجود عمود تسمية أو أعمدة تسمية متعددة.

  6. بالنسبة إلى عدد المواضع المطلوبة، أدخل عدد أعمدة الميزات التي تريد إرجاعها كنتيجة:

    • الحد الأدنى لعدد الميزات التي يمكنك تحديدها واحد، لكننا نوصي بزيادة هذه القيمة.

    • إذا كان العدد المحدد للعناصر المطلوبة أكبر من عدد الأعمدة في مجموعة البيانات، فسيتم إرجاع جميع الميزات. يتم إرجاع حتى الميزات ذات الدرجات الصفرية.

    • إذا حددت أعمدة نتائج أقل من أعمدة المعالم، فسيتم ترتيب المعالم حسب الدرجة التنازلية. يتم إرجاع أفضل الميزات فقط.

  7. إرسال المسار.

هام

إذا كنت ستستخدم تحديد الميزة المستند إلى عامل التصفية في الاستدلال، فستحتاج إلى استخدام تحديد تحويل الأعمدة لتخزين النتيجة المحددة للميزة وتطبيق التحويل لتطبيق ميزة التحول المحدد إلى مجموعة بيانات التسجيل.

ارجع إلى لقطة الشاشة التالية لإنشاء مسار التدفق الخاص بك، للتأكد من أن تحديدات الأعمدة هي نفسها لعملية التسجيل.

نموذج للبنية الأساسية لبرنامج ربط العمليات التجارية

النتائج

بعد اكتمال المعالجة:

  • لمشاهدة قائمة كاملة بأعمدة المعالم التي تم تحليلها ونتائجها، انقر بزر الماوس الأيمن فوق المكون وحدد Visualize.

  • لعرض مجموعة البيانات بناءً على معايير اختيار الميزة الخاصة بك، انقر بزر الماوس الأيمن فوق المكون وحدد Visualize.

إذا كانت مجموعة البيانات تحتوي على أعمدة أقل مما كنت تتوقع، فتحقق من إعدادات المكون. تحقق أيضاً من أنواع بيانات الأعمدة المقدمة كمدخلات. على سبيل المثال، إذا قمت بتعيين عدد الميزات المطلوبة على 1، فإن مجموعة البيانات الناتجة تحتوي على عمودين فقط: عمود التسمية، وعمود الميزة الأعلى ترتيباً.

ملاحظات فنية

تفاصيل التنفيذ

إذا كنت تستخدم ارتباط Pearson في ميزة رقمية وتسمية فئوية، فسيتم حساب درجة الميزة على النحو التالي:

  1. لكل مستوى في العمود الفئوي، احسب المتوسط ​​الشرطي للعمود الرقمي.

  2. اربط عمود الوسائل الشرطية بالعمود الرقمي.

المتطلبات

  • لا يمكن إنشاء نتيجة اختيار الميزة لأي عمود تم تعيينه على أنه عمود تسمية أو نتيجة.

  • إذا حاولت استخدام طريقة تسجيل مع عمود من نوع بيانات لا تدعمه الطريقة، سيرسل المكون خطأ. أو سيتم تخصيص درجة صفرية للعمود.

  • إذا كان العمود يحتوي على قيم منطقية (صواب/خطأ)، فستتم معالجتها على أنها True = 1 وFalse = 0.

  • لا يمكن أن يكون العمود ميزة إذا تم تعيينه كـ تسمية أو نتيجة.

كيف يتم التعامل مع القيم المفقودة

  • لا يمكنك تحديد أي عمود يحتوي على جميع القيم المفقودة كعمود هدف (تسمية).

  • إذا كان العمود يحتوي على قيم مفقودة، فإن المكون يتجاهلها عند حساب نقاط العمود.

  • إذا كان العمود الذي تم تعيينه كعمود ميزة به كل القيم المفقودة، فإن المكون يخصص درجة صفرية.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.