נתונים טובים, נתונים שגויים ונתונים חסרים
כתושפעת לוואי של השפעת הנתונים על למידת מכונה, מודלים המוכשרים רק על כמויות קטנות של נתונים מבצעים טוב לעתים רחוקות בעולם האמיתי. אופן פעולה זה מתרחש מכיוון שכמויות קטנות של נתונים בדרך כלל אינן משמשות כייצוגים טובים מהעולם האמיתי. לדוגמה, ארבעה אנשים שנבחרו באופן אקראי בכדור הארץ לא ייצגו בצורה מהימנה את האדם הממוצע. לעומת זאת, אם נבחר 1,000,000,000 אנשים, ככל הנראה הנתונים שלנו יהפכו לנציגים.
עם זאת, לגורמים אחרים יש גם חשיבות. אנו זקוקים לדגימות נתונים גדולות ונציגות ש:
- יש אפס שגיאות.
- מכילים את כל פרטי המפתח.
אנחנו מכסים את החששות האלה כאן, לפני שאנחנו זזים לתרגיל מעשי הכולל את ערכת הנתונים הטיטניקית שלנו.
נציג - מה זה אומר?
סטטיסטיקה מסתחת על שני מושגים עיקריים, אוכלוסיות ו, כדי להחליט אם משאבי הנתונים הזמינים עוזרים בפועל לניתוח וללמידה שלהם.
אנחנו מתמקדים באוכלוסיה. במילים אחרות, כל נקודת נתונים ניתנת להפעלה. לתרחיש הטיטניק שלנו, אנחנו רוצים לדעת אילו גורמים הובילו להישרדות עבור כל מי במטוס. פריטים אלה כוללים את פריטי ה- Stowaways שאינם מופיעים ברשומות הרשמיות. כדוגמה שנייה, לחקור את הקשר בין תכונות אישיות ו הסבירות לטביעת ספינה, האוכלוסיה שלנו תכסה כל קפטן ספינה שאי פעם חי.
מדגם מתייחס לנתונים הזמינים לנו, כ קבוצת משנה של האוכלוסיה הכוללת. עבור ערכת הנתונים הטיטניקית שלנו, מדגם זה מכסה רק את האנשים המפורטים ברשימת הנוסעים הרשמית. לדוגמה השנייה שלנו, המדגם עשוי לכסות כל קפטן ספינה שאנחנו יכולים לשכנע לקחת מבחן אישיות במרינה המקומית שלנו.
אנחנו צריכים לחשוב אם המדגם מייצג באופן מדויק את האוכלוסיה. לדוגמה הטיטניק שלנו, המדגם שלנו כה גדול עד שהוא כנראה משמש כייצוג טוב של האוכלוסיה. לעומת זאת, שיחות עם קפטני ספינה בלבד במרינה המקומית שלנו כנראה לא נותן לנו סעיף חוצה טוב של מלחים היינו למצוא ברחבי העולם. נתונים מהמרינה המקומית שלנו עשויים לבנות מודל שעובד היטב עבור קפטנים מקומיים, אבל זה לא ממש עוזר לנו להבין קפטנים ממדינות/אזורים אחרים.
מהי שגיאת נתונים?
המונח נתונים מפנה לנתונים שגויים. מספיק שגיאות נתונים יכולות להטיה מודל כך שהוא מבצע באופן עקבי חיזויים שגויים. זה פשוט: אם אתה מציב נתונים שגויים, אתה מקבל תחזיות שגויות.
שגיאות בנתונים הן עובדה של חיים, ואנחנו יכולים לקבץ אותן בשתי קטגוריות: שגיאות מידה ושגיאות הזנת נתונים.
המונח מידה מתייחס לנתונים עם מידות באיכות נמוכה בשלב איסוף הנתונים. שגיאות אלה הן לעתים קרובות עדינות שקשה או בלתי אפשרי להעלאתן.
המונחים שגיאות בהזנת נתונים מתייחסים לנתונים שנאספו באופן מדויק, אשר ממוקם באופן שגוי או לא מדויק בגיליון אלקטרוני או במשאב ניהול נתונים. לעתים, אנו יכולים לאתר שגיאות בהזנת נתונים ביתר קלות מאשר לזהות שגיאות מדידה. לדוגמה, אנו עשויים למדוד אדם לגובה של 1.8 מטרים, אך להחמיץ את המקום העשרוני ולכתוב 18 מטרים. אנו יכולים לראות בקלות את השגיאה, מכיוון שאדם בגודל עץ אינו מציאותי.
מהן נתונים של ממש?
ערכת נתונים מלאה אינה כוללת נתונים חסרים. נתונים חסרים מכילים שני סוגים. נתונים אלה מציגים את הגובה והרוחב של דילן, יוון וטום:
שם | גובה (m) | משקל (ק"ג) |
---|---|---|
דילן | 1.8 | 75 |
ריס | 82 |
הנתונים אינם שלמים עקב מדגם חסר: Ori. בנוסף, הנתונים עבור יוון לא גובה יוון.
באופן אידיאלי, אנו תמיד עובדים עם נתונים של ממש, אך לא תמיד יש לנו נתונים של ממש הזמינים לנו. עבור נתונים לא שלמים, ניתן לבצע אחת מהפעולות הבאות:
- בחר מודל לעבודה עם נתונים לא שלמים.
- הסר דוגמאות (שורות) הכוללות נתונים לא שלמים ופועלים עם הנתונים הנותרים.
- הוסף באופן מלאכותי ערכים כתחליף סביר לנתונים החסרים.
ברוב הפעמים, בחירת מודל שמטפל בנתונים חסרים פועלת בצורה הטובה ביותר, אם כי הדבר אינו תמיד אפשרי. הסרת נתונים לא שלמים היא הגישה הקלה ביותר, והיא פועלת בדרך כלל. עם זאת, עלינו להיזהר שהסרת נתונים אלה אינה גורמת למדגם להציג את האוכלוסיה בצורה מוטעית. הוספה מלאכותית של נתונים היא בדרך כלל שיטת ההוספה האחרונה.
ביחידה הבאה, אנו נשתמש בערכת הנתונים הטיטניק שלנו כדי לזהות ולתכם נתונים לא שלמים.