خطوط متجهة أحادية

مكتمل

حتى الآن، قمنا بتغطية ترميز البيانات المستمر (أرقام النقطة العائمة)، وترميز البيانات الترتيبي (عادة الأعداد الصحيحة)، وترميز البيانات الفئوية الثنائية (على قيد الحياة/الموت، ذكر/أنثى، إلخ).

الآن سنتعلم كيفية ترميز البيانات، وسنستكشف موارد البيانات الفئوية التي تحتوي على أكثر من فئتين. سنستكشف أيضا التأثيرات الضارة المحتملة لقرارات تحسين النموذج على أداء النموذج.

البيانات الفئوية ليست رقمية

لا تعمل البيانات الفئوية مع الأرقام بنفس الطريقة التي تعمل بها أنواع البيانات الأخرى مع الأرقام. مع استخدام البيانات الترتيبية أو المستمرة (العددية)، فإن القيم الأعلى تعني زيادة في القيمة. على سبيل المثال، في تيتانيك، فإن سعر التذكرة الذي يبلغ 30 جنيهاً إسترلينياً هو أكثر من سعر التذكرة البالغ 12 جنيهاً إسترلينياً.

وعلى النقيض من ذلك، لا تحتوي البيانات الفئوية على ترتيب منطقي. سيكون لدينا مشاكل إذا حاولنا ترميز، كأرقام، ميزات فئوية تحتوي على أكثر من فئتين.

على سبيل المثال، ميناء المغادرة لديه ثلاث قيم، C (شيربورغ)، Q (كوينزتاون)، و S (ساوثهامبتون). لا يمكننا استبدال هذه الرموز بأرقام. إذا فعلنا ذلك، فهذا يعني أن أحد هذه المنافذ هو "أقل من" المنافذ الأخرى، في حين أن منفذا آخر هو "أكبر من" المنافذ الأخرى. هذا الاستبدال غير منطقي.

كمثال على هذه المشكلة، دعنا نخاطر ونقيم علاقة بين ميناء المغادرة وفئة التذاكر والتعامل مع ميناء المغادرة على أنه عدد. أولاً، قمنا بتعيين C < S < Q:

Diagram of a graph showing a plot of PClass against PortAsNumber.

في هذا المخطط، يتوقع السطر فئة ~3 للمنفذ Q.

الآن، إذا قمنا بتعيين S < C < Q، نحصل على خط اتجاه وتوقع مختلفين:

Diagram of a graph showing a plot of PClass against PortAsNumber with a flatter trend line.

لا أحد من خطوط الاتجاه هذه صحيح. ليس من المنطقي التعامل مع الفئات على أنها ميزات مستمرة. كيف يمكننا بعد ذلك العمل مع الفئات؟

One Hot Encoding

يمكن أن يقوم الترميز السريع بتشفير البيانات الفئوية بطريقة تتجنب هذه المشكلة. تحصل كل فئة متوفرة على عمود واحد خاص بها، ويحتوي صف معين على قيمة واحدة فقط في الفئة التي تنتمي إليها.

على سبيل المثال، يمكننا ترميز قيمة المنفذ في ثلاثة أعمدة، واحد لشيربورغ، واحد ل كوينزتاون، واحد ل ساوثهامبتون (الترتيب الدقيق هنا ليس له صلة). شخص ما الذي صعد إلى شيربورغ سيكون لديه 1 في العمود Port_Cherbourg، مثل هذا:

Port_Cherbourg Port_Queenstown Port_Southampton
1 1 1

الشخص الذي صعد إلى كوينزتاون سيكون لديه 1 في العمود الثاني:

Port_Cherbourg Port_Queenstown Port_Southampton
0 1 0

شخص ما الذي صعد إلى ساوثهامبتون سيكون لديه 1 في العمود الثالث

Port_Cherbourg Port_Queenstown Port_Southampton
1 1 1

الترميز الأحادي، وتنظيف البيانات، والقوة الإحصائية

قبل أن نستخدم الترميز السريع، يجب أن نفهم أن استخدامه يمكن أن يكون له آثار إيجابية أو سلبية على أداء النموذج في العالم الحقيقي.

ما هي القوة الإحصائية؟

تشير القوة الإحصائية إلى قدرة النموذج على تحديد العلاقات الحقيقية بين الميزات والتسميات بشكل موثوق. على سبيل المثال، قد يبلغ نموذج قوي عن وجود علاقة بين سعر التذاكر ومعدل البقاء على قيد الحياة، بدرجة عالية من اليقين. وعلى النقيض من ذلك، قد يبلغ النموذج ذو القوة الإحصائية المنخفضة عن علاقة بدرجة منخفضة من اليقين، أو قد لا يجد هذه العلاقة على الإطلاق.

سنتجنب الرياضيات هنا، ولكن تذكر أن الخيارات التي نتخذها يمكن أن تؤثر على قوة نماذجنا.

إزالة البيانات تقلل من القوة الإحصائية

ذكرنا عدة مرات أن تنظيف البيانات - جزئيا - يتضمن إزالة عينات البيانات غير المكتملة. لسوء الحظ، يمكن أن يقلل تنظيف البيانات من القوة الإحصائية. على سبيل المثال، دعونا نتظاهر بأننا نريد التنبؤ ببقاء رحلة تيتانيك، نظرا للبيانات التالية:

سعر التذكرة البقاء على قيد الحياة
4 جنيهات إسترلينية 0
8 جنيهات إسترلينية 0
10 جنيهات إسترلينية 1
25 جنيهاً إسترلينياً 1

يمكننا أن نخمن أن شخصا بتذكرة بقيمة 15 جنيها إسترلينيا سينجو، لأن الأشخاص الذين تحملوا تذاكر تكلف 10 جنيهات إسترلينية على الأقل نجوا جميعا. إذا كان لدينا بيانات أقل، على الرغم من ذلك، فإن هذا التخمين سيصبح أكثر صعوبة:

سعر التذكرة البقاء على قيد الحياة
4 جنيهات إسترلينية 0
8 جنيهات إسترلينية 0
25 جنيهاً إسترلينياً 1

تقلل الأعمدة عديمة القيمة من القوة الإحصائية

يمكن أن تؤدي الميزات ذات القيمة الصغيرة أيضا إلى الإضرار بالطاقة الإحصائية، خاصة عندما يبدأ عدد الميزات (أو الأعمدة) في الاقتراب من عدد العينات (أو الصفوف).

على سبيل المثال، لنفترض أننا نريد أن نكون قادرين على التنبؤ بالبقاء على قيد الحياة بالبيانات التالية:

سعر التذكرة البقاء على قيد الحياة
4 جنيهات إسترلينية 0
4 جنيهات إسترلينية 0
25 جنيهاً إسترلينياً 1
25 جنيهاً إسترلينياً 1

يمكننا أن نتنبأ بثقة أن شخصا ما مع تذكرة المقصورة A سوف يبقى على قيد الحياة، لأن كل شخص لديه تذاكر 25 جنيها إسترلينيا نجا.

ومع ذلك، لدينا الآن ميزة أخرى (المقصورة):

سعر التذكرة المقصورة البقاء على قيد الحياة
4 جنيهات إسترلينية ش 0
4 جنيهات إسترلينية ش 0
25 جنيهاً إسترلينياً مضمن 1
25 جنيهاً إسترلينياً مضمن 1

لا توفر المقصورة معلومات مفيدة، لأنها تتوافق ببساطة مع سعر التذكرة. ليس من الواضح ما إذا كان شخص لديه تذكرة 25 جنيه إسترليني للمقصورة أ سوف يبقى على قيد الحياة. هل يتلفون، مثل غيرهم من المقصورة أ، أو البقاء على قيد الحياة مثل أولئك الذين لديهم تذاكر بقيمة 25 جنيها إسترلينيا؟

يمكن للترميز الأحادي أن يقلل من القوة الإحصائية

يعمل الترميز الأحادي على تقليل القوة الإحصائية أكثر من البيانات المستمرة أو الترتيبية، لأنه يتطلب أعمدة متعددة - عمود لكل قيمة فئوية محتملة. على سبيل المثال، إذا قمنا بترميز منفذ الشروع في العمل ونضيف ثلاثة مدخلات نموذجية (C وS وQ).

يصبح المتغير الفئوي مفيدا إذا كان عدد الفئات أقل بكثير من عدد العينات (صفوف مجموعة البيانات). يصبح المتغير الفئوي مفيدا أيضا إذا كان يوفر معلومات غير متوفرة بالفعل للنموذج من خلال مدخلات أخرى.

على سبيل المثال، رأينا أن احتمال البقاء على قيد الحياة يختلف بالنسبة للأشخاص الذين شرعوا في موانئ مختلفة. هذا الاختلاف ربما يعكس حقيقة أن معظم الناس في ميناء كوينزتاون كان لديهم تذاكر الدرجة الثالثة. لذلك، من المحتمل أن يقلل الشروع في العمل من القوة الإحصائية إلى درجة طفيفة، دون إضافة معلومات ذات صلة إلى نموذجنا.

وعلى النقيض من ذلك، من المرجح أن يكون للكوخ تأثير قوي على البقاء على قيد الحياة. وذلك لأن المقصورات السفلية للسفينة كانت ستمتلئ بالماء قبل أن تكون المقصورات أقرب إلى الجزء العلوي من السفينة المليئة بالماء. مع ذلك، تحتوي مجموعة بيانات تيتانيك على 147 كابينة مختلفة. وهذا يقلل من القوة الإحصائية لنموذجنا إذا قمنا بتضمينها. قد نحتاج إلى تجربة تضمين بيانات المقصورة أو استبعادها في نموذجنا، لمعرفة ما إذا كانت بيانات المقصورة يمكن أن تساعدنا.

في تمريننا التالي، قمنا أخيرا ببناء نموذجنا الذي يتنبأ بالبقاء على قيد الحياة في رحلة تيتانيك، وسنتدرب على الترميز السريع أثناء القيام بذلك.