רגרסיה ליניאארית מרובה ו- R בריבוע

הושלם

ביחידה זו, נניגוד בין רגרסיה ליניארית מרובה רגרסיה ליניארית פשוטה. בנוסף, נבחן מדד בשם R2, המשמש בדרך כלל להערכת האיכות של מודל רגרסיה ליניאארי.

רגרסיה ליניאארית מרובה

רגרסיה ליניאארית מרובה מודלים של קשר הגומלין בין כמה תכונות ומשתנה יחיד. מבחינה מתמטית, רגרסיה ליניאארית פשוטה זהה לזה, והיא מתאימה בדרך כלל לאותה פונקציית עלות, אך עם תכונות נוספות.

במקום ליצור מודל של קשר גומלין יחיד, שיטה זו ממדלית בו-זמנית קשרי גומלין מרובים, אשר מתייחסים אליה כקשרים שאינם תלויים זה בזה. לדוגמה, אם אנחנו חוזים עד כמה כלב חולה, בהתבסס על הגיל שלו body_fat_percentage, נמצא שני קשרי גומלין:

  • כיצד גיל גדל או מקטין את המחלה
  • כיצד body_fat_percentage או מקטין את המחלה

אם אנחנו עובדים רק עם שתי תכונות, נוכל להציג באופן חזותי את המודל שלנו כמישור - משטח דו-ממדי שטוח - בדיוק כמו שאנחנו יכולים להציג רגרסיה ליניאארית פשוטה בתור קו. נחקור זאת בתרגיל הבא.

רגרסיה ליניאארית מרובה כוללת הנחות

העובדה שהמודל מצפה שתכונות לא יהיו עצמאיות נקראת הנחת מודל. כאשר הנחות מודל אינן נכונות, המודל יכול לבצע חיזויים מטעה.

לדוגמה, גיל כנראה מנבא כיצד כלבים חולים הופכים, מכיוון שכלבים מבוגרים יותר חולים יותר, יחד עם השאלה אם כלבים לימדו איך לשחק פריסבי; ככל הנראה כלבים מבוגרים יותר יודעים איך לשחק פריסבי. אם כללנו גיל ו- knows_frisbee למודל שלנו כתכונות, ככל להניח שזה אומר knows_frisbee הוא חיזוי טוב של מחלה וממעיט בערך חשיבות הגיל. זה קצת מגוחך, כי לדעת פריסבי לא סביר לגרום למחלות. לעומת זאת, dog_breed יכול להיות גם חיזוי טוב של מחלה, אך אין סיבה להאמין שנבאי גיל dog_breed, כך שיהיה בטוח לכלול את שניהם במודל.

הטוב שבהתאמה: R2

אנחנו יודעים שניתן להשתמש בפונקציות עלות כדי להעריך את האופן שבו מודל מתאים לנתונים שבהם הוא מאומן. מודלים של רגרסיה ליניאארית הם בעלי מידה קשורה מיוחדת הנקראת R2 (R בריבוע). R2 הוא ערך בין 0 ל- 1 המציין עד כמה מודל רגרסיה ליניארי מתאים לנתונים. כאשר אנשים מדברים על המתאם להיות חזק, הם אומרים לעתים קרובות שהערך r2 היה גדול.

R2 משתמשת במתמטיקה מעבר למה שאנחנו מתכוונים לכסות בקורס זה, אבל אנחנו יכולים לחשוב על זה באופן אינטואיטיבי. בוא נשקול את התרגיל הקודם, שבו בדקנו את הקשר בין הגיל שבין לבין core_temperature. R2 של 1 יהיה אומר שאנחנו יכולים להשתמש שנים כדי לחזות בצורה מושלמת מי היה חום גבוה ומי היה חום נמוך. לעומת זאת, R2 של 0 אומר שלא היה פשוט קשר בין שנים וטמפרטורה.

תרשים המציג גרף מתאים טוב עם נקודות התוויית נתונים רבות.

המציאות נמצאת באמצע. המודל שלנו יכול לחזות את הטמפרטורה במידה מסוימת (כך שהוא טוב יותר מ- R2 = 0), אך נקודות שונות בחיזוי זה במידה מסוימת (כך שהוא קטן מ- R2=1).

R2 הוא רק חצי מהסיפור.

R2 הערכים מקובלים בצורה רחבה, אך אינם מידה מושלמת שניתן להשתמש בה בבידוד. הם סובלים מארבע מגבלות:

  • בשל האופן בו r2 מחושב, יותר דוגמאות יש לנו, גבוה יותר r2. הדבר עשוי לגרום לנו לחשוב שמודל אחד טוב יותר ממודל אחר (זהה), פשוט מכיוון שערכו של R2 חושבו באמצעות כמויות שונות של נתונים.
  • R2 לא מציין עד כמה מודל יפעל עם נתונים חדשים שלא נראו בעבר. סטטיסטיקות מצליחות להתגבר על זה על-ידי חישוב אמצעי משלים, p-value, אשר לא נכסה כאן. בלמידת מכונה, אנו בודקים באופן מפורש את המודל שלנו על ערכת נתונים אחרת במקום זאת.
  • R2 לא מציין את הכיוון של קשר הגומלין. לדוגמה, ערך R2 0.8 אינו מספר לנו אם הקו משופע כלפי מעלה או כלפי מטה. הוא גם לא מספר לנו עד כמה השיפוע של הקו.

כדאי גם לזכור שאין קריטריונים אוניברסליים למה שעושה R2 "מספיק טוב". לדוגמה, ברוב הפיזיקה, לא סביר ש- R2 ייחשבו לערך שימושי, אך בעת מידול מערכות מורכבות, ערכי R2 נמוכים עד 0.3 עשויים להיחשב למצוין.