افحص بيانات العالم الحقيقي
غالبًا ما تتسم البيانات المقدمة في المواد التعليمية بالمثالية على نحو واضح، ويتم تصميمها لتظهر للطالب كيفية العثور على علاقات واضحة بين المتغيرات. بيانات "العالم الحقيقي" أقل بساطة قليلا.
نظرا لتعقيد بيانات "العالم الحقيقي"، يجب علينا فحص البيانات الأولية بحثا عن المشكلات قبل استخدامها.
على هذا النحو، فإن أفضل الممارسات هي فحص البيانات الأولية ومعالجتها قبل استخدامها، ما يقلل من الأخطاء أو المشكلات عادة عن طريق إزالة نقاط البيانات الخاطئة أو تعديل البيانات إلى نموذج أكثر فائدة.
المشاكل المتعلقة بالبيانات في العالم الحقيقي
يمكن أن تحتوي بيانات العالم الحقيقي على العديد من القضايا المختلفة التي يمكن أن تؤثر على فائدة البيانات وتفسيرنا للنتائج.
من الضروري أن ندرك أن معظم البيانات في العالم الحقيقي تتأثر بالعوامل التي لم يتم تسجيلها في ذلك الوقت. على سبيل المثال، قد يكون لدينا جدول لأوقات سباق السيارات جنبا إلى جنب مع أحجام المحركات؛ ولكن العوامل الأخرى المختلفة التي لم تتم كتابتها، مثل الطقس، ربما لعبت أيضا دورا. إذا كانت هناك مشكلة، يمكننا غالبا تقليل تأثير هذه العوامل عن طريق زيادة حجم مجموعة البيانات.
في حالات أخرى، يمكن أحيانا إزالة نقاط البيانات التي تقع بوضوح خارج ما هو متوقع - والمعروفة أيضا باسم "القيم الخارجية" - بأمان من التحليلات، على الرغم من أنه يجب علينا الحرص على عدم إزالة نقاط البيانات التي توفر رؤى حقيقية.
وثمة مسألة شائعة أخرى في بيانات العالم الحقيقي وهي التحيز. يشير التحيز إلى الاتجاه إلى اختيار أنواع معينة من القيم بشكل متكرر أكثر من غيرها بطريقة تسيء تمثيل المحتوى الأساسي أو "العالم الحقيقي". يمكن تحديد التحيز في بعض الأحيان من خلال استكشاف البيانات مع أخذ المعرفة الأساسية حول مصدر البيانات في الاعتبار.
سيكون للبيانات في العالم الحقيقي دائما مشكلات، ولكن يمكن لعلماء البيانات في كثير من الأحيان التغلب على هذه المشكلات من خلال:
- التحقق من القيم المفقودة والبيانات المسجلة بشكل سيئ.
- النظر في إزالة القيم الخارجية الواضحة.
- فحص عوامل العالم الحقيقي التي قد تؤثر على تحليلها وتحديد ما إذا كان حجم مجموعة البيانات الخاصة بها كبيرا بما يكفي لتقليل تأثير هذه العوامل.
- التحقق من وجود بيانات أولية متحيزة والنظر في خياراتها لإصلاح التحيز، إذا تم العثور عليه.