بيانات جيدة وسيئة ومفقودة
يستمد التعلم الآلي قدرته التنبؤية من حقيقة أنه يتكون من البيانات. من الآثار الجانبية أن النماذج المدربة فقط على كميات صغيرة من البيانات نادراً ما تؤدي أداءً جيداً في العالم الحقيقي. هذا لأن الكميات الصغيرة من البيانات لا تمثل عادة تمثيلاً جيداً للعالم الحقيقي. على سبيل المثال، إذا اخترنا أربعة أشخاص عشوائياً من العالم، فلن يكونوا ممثلين للشخص العادي على الأرض. على النقيض من ذلك، إذا اخترنا مليار شخص، فمن المحتمل أن تمثل هذه البيانات تمثيلاً جيداً للعالم الحقيقي.
ولكن الأمر لا يتعلق بالكمية فقط. يمكن أن تكون نوعية البيانات على نفس القدر من الأهمية:
- ليست بيانات كبيرة فقط، ولكن تمثيلية
- لا تحتوي على أخطاء
- لا ينقصها معلومات أساسية
سنغطي هنا هذه الموضوعات قبل الانتقال إلى تمرين عملي باستخدام مجموعة بيانات تيتانيك.
ماذا يعني مصطلح "تمثيلي"؟
يعتمد الإحصائيون على مفهومين رئيسيين: السكانوالعينات، مما يساعدنا على التفكير فيما إذا كانت البيانات التي لدينا هي ما نريده بالفعل أم لا.
السكان هو البيانات التي نهتم بها أو، بمعنى آخر، كل نقطة بيانات يمكن تصورها. بالنسبة لسيناريو تيتانيك، نحن مهتمون بمعرفة العوامل التي أدت إلى بقاء الأشخاص على قيد الحياة - بما في ذلك المسافرين المتهربين الذين لم يتم إدراجهم في السجلات الرسمية. كمثال بديل، إذا كنا نحقق في العلاقة بين سمات الشخصية واحتمال غرق السفينة، فيتمثل السكان هنا في كل قبطان سفينة بقى على قيد الحياة.
تشير العينة إلى البيانات المتوفرة لدينا (مجموعة فرعية من السكان). بالنسبة لمجموعة بيانات تيتانيك، لن تتضمن هذه العينة سوى الأشخاص المدرجين في قائمة الركاب الرسمية فقط. بالنسبة للمثال البديل لدينا، قد تتمثل العينة في كل قبطان سفينة يمكننا إقناعه بإجراء اختبار شخصية في المرسى المحلي لدينا.
من المهم التفكير فيما إذا كانت العينة ممثلة للسكان أم لا. بالنسبة لمثال تيتانيك، فإن العينة التي لدينا كبيرة جداً لدرجة أنها على الأرجح مطابقة بشكل جيد جداً. على النقيض من ذلك، بالنسبة لمثالنا البديل، فإن التحدث فقط مع قباطنة السفن في المرسى المحلي الخاص بنا قد لا يكون بمثابة عينة تمثيلية جيدة لأنواع البحارة الموجودين في جميع أنحاء العالم. قد يؤدي استخدام البيانات من المرسى المحلي الخاص بنا إلى بناء نموذج يعمل جيداً للقباطنة المحليين ولكنه ليس مفيداً جداً عند مناقشة القباطنة من البلدان الأخرى.
ماذا يُقصد بخطأ البيانات؟
أخطاء البيانات تعني ببساطة البيانات التي بها خطأ. إذا كانت هذه الأخطاء سيئة بما فيه الكفاية، فيمكن أن تؤدي إلى انحراف النموذج لعمل تنبؤات خاطئة باستمرار. باختصار، إذا وضعت بيانات سيئة، فستحصل على تنبؤات سيئة.
الأخطاء في البيانات هي حقيقة من حقائق الحياة وتأتي إلى حد كبير من موضعين:
تعني أخطاء القياس أنه عندما تم جمع البيانات، تم قياسها بشكل سيئ. غالباً ما تكون هذه الأخطاء دقيقة ويصعب التخلص منها أو يستحيل إزالتها.
تعني أخطاء إدخال البيانات أنه تم جمع البيانات بشكل صحيح ولكن تم إدخالها في جدول بيانات، أو ما شابه ذلك، بشكل غير صحيح. أحياناً يكون اكتشاف أخطاء إدخال البيانات أسهل من اكتشاف أخطاء القياس. على سبيل المثال، قد نقيس طول شخص يبلغ 1.8 متراً، لكننا نخطئ في وضع العلامة العشرية ونكتب 18 متراً، وهو أمر يسهل التعرف عليه لأن الشخص في حجم الشجرة يعد أمر غير واقعي.
ما هي البيانات المكتملة؟
لا تحتوي مجموعة البيانات المكتملة على بيانات مفقودة. يمكن أن تكون البيانات مفقودة بطريقتين. باعتبار أننا نسجل ارتفاعات وأوزان هشام وسعيد ومهند:
الاسم | الارتفاع (م) | الوزن (كجم) |
---|---|---|
هشام | 1.8 | 75 |
سعيد | 82 |
بياناتنا غير مكتملة لأن لدينا عينة مفقودة: بيانات مهند مفقودة تماماً، في حين أن ارتفاع سعيد مفقود أيضاً.
من الناحية المثالية، نحن نعمل دائماً باستخدام بيانات مكتملة، ولكن هذه الممارسة ليست واقعية دائماً. عندما تكون لدينا بيانات غير مكتملة، يمكننا:
- اختيار نموذج يمكنه العمل مع بيانات غير مكتملة، أو
- إزالة العينات (الصفوف) التي تحتوي على بيانات غير مكتملة، والعمل مع ما تبقى، أو
- إضافة القيم المفقودة مع بدائل معقولة بشكل مصطنع.
في معظم الحالات، إن اختيار نموذج يمكنه معالجة البيانات المفقودة هو الحل الأفضل، وإن لم يكن ممكناً دائماً. تعد إزالة البيانات الحل الأسهل وعادة ما يكون صحيحاً، على الرغم من الحاجة إلى توخي الحذر لأن إزالة البيانات لا تؤدي إلى تحريف العينة وجعلها لا تمثل السكان. عادةً ما تكون إضافة البيانات بشكل مصطنع طريقة الملاذ الأخير.
في الوحدة التالية، سنعمل مع مجموعة بيانات تيتانيك الخاصة بنا، لتحديد وتصحيح البيانات غير المكتملة.
هل تحتاج إلى مساعدة؟ راجع دليل استكشاف الأخطاء وإصلاحها الذي نقدمه أو يمكنك توفير ملاحظات معينة عبر الإبلاغ عن مشكلة.