בחינת נתונים מהעולם האמיתי

הושלם

נתונים המוצגים בחומר חינוכי הם לעתים קרובות מושלמת להפליא, שנועדו להראות לתלמידים כיצד למצוא קשרי גומלין ברורים בין משתנים. נתוני "העולם האמיתי" הם מעט פחות פשוטים.

בשל המורכבות של נתוני "העולם האמיתי", עלינו לבדוק נתונים גולמיים לאיתור בעיות לפני שאנו משתמשים בהם.

לכן, מומלץ לבדוק את הנתונים הגולמיים ולעבד אותם לפני השימוש, דבר שמצמצם שגיאות או בעיות בדרך כלל על-ידי הסרת נקודות נתונים שגויות או שינוי הנתונים לטופס שימושי יותר.

בעיות נתונים מהעולם האמיתי

נתונים מהעולם האמיתי יכולים להכיל בעיות רבות ושנויות שעשויות להשפיע על השירותים של הנתונים והפירוש של התוצאות.

חשוב להבין שרוב הנתונים מהעולם האמיתי מושפעים מגורמים שלא נרשמו באותו הזמן. לדוגמה, ייתכן שיש לנו שולחן של זמני מסלול מירוצים לצד גדלים של מנועים; אך גורמים אחרים שונים שלא נכתבו, כגון מזג האוויר, היו כנראה גם תפקיד. אם יש בעיה, אנו יכולים לעתים קרובות להפחית את השפעתם של גורמים אלה על-ידי הגדלת גודל ערכת הנתונים.

במצבים אחרים, נקודות נתונים שברורות מחוץ למה שצפוי – הידועות גם כ" חריגות"- יכולות לעתים להיות מוסרות בבטחה מאנליות, אם כי עלינו לא להסיר נקודות נתונים המספקות תובנות ממשיות.

בעיה נפוצה נוספת בנתונים מהעולם האמיתי היא הטיה. הטיה מתייחסת לנטייה לבחור סוגים מסוימים של ערכים בתדירות גבוהה יותר מאשר ערכים אחרים באופן שמכריז בצורה שגויה על האוכלוסיה המשמשת כבסיס, או "עולם אמיתי". לעתים ניתן לזהות הטיה על-ידי סקירת נתונים תוך התחשבות בידע בסיסי לגבי מקור הנתונים.

לנתונים מהעולם האמיתי תמיד יהיו בעיות, אך מדעני נתונים יכולים לעתים קרובות להתגבר על בעיות אלה על-ידי:

  • בודק אם חסרים ערכים ונתונים שהוקלטו באופן גרוע.
  • בהתחשב בהסרת חריגים חריגים בולטים.
  • בחינת הגורמים בעולם האמיתי שעשויים להשפיע על הניתוח שלהם ובקביעה אם גודל ערכת הנתונים שלהם גדול מספיק כדי להפחית את ההשפעה של גורמים אלה.
  • בדיקה אם קיימים נתונים גולמיים מוטים וחשבו על האפשרויות שלהם לתיקון ההטיה, אם נמצאו.