بيانات جيدة وسيئة ومفقودة

مكتمل

حقيقة أن التعلم الآلي لأشكال البيانات يعطي التعلم الآلي قوته التنبؤية. وكأثر جانبي، نادرا ما تؤدي النماذج المدربة على كميات صغيرة من البيانات أداء جيدا في العالم الحقيقي، لأن كميات صغيرة من البيانات لا تعمل عادة كتمثيلات جيدة في العالم الحقيقي. على سبيل المثال، لن يمثل أربعة أشخاص مختارين عشوائيا، تم اختيارهم من أي مكان على الأرض، الشخص العادي على الأرض بشكل موثوق. وعلى النقيض من ذلك، إذا اخترنا مليار شخص، فمن المحتمل أن تصبح بياناتنا ممثلة.

ومع ذلك، هناك عوامل أخرى لها أهمية أيضا. نحتاج إلى عينات بيانات تمثيلية كبيرة

  • عدم وجود أخطاء
  • تحتوي على جميع المعلومات الرئيسية

نحن نغطي هذه المخاوف هنا، قبل أن ننتقل إلى تمرين عملي يتضمن مجموعة بيانات تيتانيك الخاصة بنا.

"ممثل" - ماذا يعني ذلك؟

يعتمد الإحصائيون على مفهومين رئيسيين: السكان والعينات، لتحديد ما إذا كانت موارد البيانات المتاحة تساعد بالفعل في تحليلها ودراسةها.

نحن نركز على المحتوى - وبعبارة أخرى، كل نقطة بيانات يمكن تصورها. بالنسبة لسيناريو تيتانيك الخاص بنا، نريد أن نعرف العوامل التي أدت إلى بقاء كل شخص على متن الطائرة. يتضمن ذلك المهويين غير المدرجين في السجلات الرسمية. كمثال ثان، للتحقيق في العلاقة بين سمات الشخصية واحتمال غرق سفينة، فإن سكاننا سيغطون كل قبطان سفينة عاش من أي وقت مضى.

تشير العينة إلى البيانات المتاحة لنا، كمجموعة فرعية من إجمالي المحتوى. بالنسبة لمجموعة بيانات تيتانيك الخاصة بنا، تغطي هذه العينة فقط الأشخاص المدرجين في قائمة الركاب الرسمية. بالنسبة لمثالنا الثاني، قد تغطي العينة كل قبطان سفينة يمكننا إقناعه بأخذ اختبار شخصية في المرسى المحلي لدينا.

نحن بحاجة إلى التفكير فيما إذا كانت العينة تمثل بدقة السكان. بالنسبة لمثال تيتانيك الخاص بنا، فإن عينتنا كبيرة جدا لدرجة أنها ربما تكون بمثابة تمثيل جيد للسكان. على النقيض من ذلك، بالنسبة لمثالنا الثاني، فإن المحادثات مع نقباء السفن فقط في المرسى المحلي لدينا ربما لا تعطينا عرضا جيدا للبحارة الذين سنجدهم في جميع أنحاء العالم. قد تبني البيانات من المرسى المحلي نموذجا يعمل بشكل جيد للنقباء المحليين، ولكن لا تساعدنا حقا على فهم النقباء من البلدان/المناطق الأخرى.

ماذا يُقصد بخطأ البيانات؟

يشير مصطلح "أخطاء البيانات" إلى بيانات غير صحيحة. يمكن أن تؤدي أخطاء البيانات الكافية إلى انحراف نموذج، بحيث يقوم باستمرار بإجراء تنبؤات غير صحيحة. الأمر بسيط: إذا وضعت بيانات سيئة، فستحصل على تنبؤات سيئة.

الأخطاء في البيانات هي حقيقة من حقائق الحياة، ويمكننا تجميعها في فئتين:

يشير مصطلح "أخطاء القياس" إلى البيانات ذات القياسات منخفضة الجودة في مرحلة جمع البيانات. غالبا ما تكون هذه الأخطاء دقيقة، ويصعب القضاء عليها أو من المستحيل إزالتها.

يشير مصطلح "أخطاء إدخال البيانات" إلى البيانات التي تم جمعها بدقة، ولكن بعد ذلك يتم وضعها بشكل غير صحيح أو غير دقيق في جدول بيانات أو مورد إدارة البيانات. في بعض الأحيان، يمكننا اكتشاف أخطاء إدخال البيانات بسهولة أكبر مما يمكننا اكتشاف أخطاء القياس. على سبيل المثال، قد نقوم بقياس شخص ما بطول 1.8 متر، ولكننا نفتقد المكان العشري ونكتب 18 مترا. يمكننا أن نرى بسهولة الخطأ لأن الشخص بحجم الشجرة غير واقعي.

ما هي البيانات المكتملة؟

لا تحتوي مجموعة البيانات الكاملة على بيانات مفقودة. تحتوي البيانات المفقودة على نوعين. تظهر هذه البيانات ارتفاع ووزن ديلان وريس و توم:

الاسم الارتفاع (م) الوزن (كجم)
هشام 1.8 75
سعيد 82

البيانات غير مكتملة بسبب عينة مفقودة: توم. بالإضافة إلى ذلك، لا تظهر بيانات Reece ارتفاع Reece.

من الناحية المثالية، نحن نعمل دائما مع البيانات الكاملة، ولكن ليس لدينا دائما بيانات كاملة متاحة لنا. بالنسبة للبيانات غير المكتملة، يمكننا:

  • اختيار نموذج يمكنه العمل مع بيانات غير مكتملة، أو
  • إزالة العينات (الصفوف) التي تحتوي على بيانات غير مكتملة، والعمل مع البيانات المتبقية، أو
  • إضافة قيم بشكل مصطنع كبدائل معقولة للبيانات المفقودة

في معظم الأوقات، يعمل اختيار نموذج يمكنه التعامل مع البيانات المفقودة بشكل أفضل، على الرغم من أن هذا ليس ممكنا دائما. إزالة البيانات غير المكتملة هو أسهل نهج، وعادة ما يعمل. ومع ذلك، يجب أن نكون حذرين من أن إزالة البيانات لا تتسبب في تحريف العينة للمحتوى. عادة ما تكون إضافة البيانات بشكل مصطنع طريقة للحل الأخير.

في الوحدة التالية، سنعمل مع مجموعة بيانات Titanic الخاصة بنا، لتحديد البيانات غير المكتملة وتصحيحها.