מהי רגרסיה?

הושלם

רגרסיה היא טכניקה פשוטה, נפוצה, שימושית ביותר לניתוח נתונים, המכונה לעתים קרובות "התאמה של קו". בצורתה הפשוטה ביותר, רגרסיה מתאימה קו ישר בין משתנה אחד (תכונה) למשתנה אחר (תווית). בטפסים מורכבים יותר, רגרסיה יכולה למצוא קשרי גומלין לא ליניאריים בין תווית בודדת לתכונות מרובות.

רגרסיה ליניאארית פשוטה

רגרסיה ליניאארית פשוטה ממדלית קשר גומלין ליניארי בין תכונה אחת לבין תווית רציפה בדרך כלל, ומאפשרת לתכונה לחזות את התווית. באופן חזותי, היא עשויה להיראות בערך כך:

דיאגרמה של גרף רגרסיה ליניאארי פשוט בקשר הגומלין בין גיל לבין טמפרטורת הגוף.

רגרסיה ליניאארית פשוטה כוללת שני פרמטרים: נקודת חיתוך (c), המציינת את הערך שהתווית היא כאשר התכונה מוגדרת לאפס; ושיפוע (m), המציין כמה התווית תגדל עבור כל עלייה בנקודה אחת בתכונה.

אם אתה רוצה לחשוב מבחינה מתמטית, זה פשוט:

y=mx+c

כאשר y היא התווית שלך, x היא התכונה שלך.

לדוגמה, בתרחיש שלנו, אם היינו מנסים לחזות אילו מטופלים יקבלו חום - טמפרטורת גוף מוגברת - בהתבסס על הגיל שלהם, יהיה לנו את המודל:

temperature=m*age+c

ועליה למצוא את הערכים של m ו- c במהלך ההליך המתאים. אם מצאנו את m = 0.5 ו- c = 37, ייתכן שנמחיש אותו באופן הבא:

דיאגרמה המציגה גרף רגרסיה ליניארי פשוט, של קשר הגומלין בין גיל לטמפרטורה של גוף עם קו חד יותר.

משמעות הדבר היא שכל שנה של גיל משויכת עלייה בטמפרטורת הגוף של 0.5°C, עם נקודת התחלה של 37°C.

התאמה של רגרסיה ליניאארית

אנו משתמשים בדרך כלל בספריות קיימות כדי להתאים מודלי רגרסיה בשבילנו. רגרסיה בדרך כלל שואפת למצוא את הקו המפיק את כמות השגיאה הפחותה ביותר, כאשר השגיאה כאן פירושה את ההבדל בין ערך נקודת הנתונים בפועל לבין הערך החזוי. לדוגמה, בתמונה הבאה, הקו השחור מציין את השגיאה בין החיזוי (הקו האדום) לבין ערך ממשי אחד (הנקודה).

מראה התאמה של גרף רגרסיה ליניארי עם נקודות התוויית נתונים וקווים שחורים כדי לציין שגיאה.

על-ידי התסתכלות על שתי נקודות אלה בציר y, ניתן לראות שהתחזית היתה 39.5, אך הערך בפועל היה 41.

המציגה התאמה של גרף רגרסיה ליניארי עם נקודות התוויית נתונים וקווים שחורים מנוקדים כדי למדוד שגיאה.

לכן, המודל השתבש ב- 1.5 עבור נקודת נתונים זו.

בדרך כלל, אנו מתאימים למודל על-ידי מזעור סכום הריבועים המרובעים. משמעות הדבר היא שפונקציית העלות מחושבת באופן הבא:

  1. חשב את ההפרש בין הערכים בפועל לבין הערכים החזויים (כעבר) עבור כל נקודת נתונים.
  2. ריבוע ערכים אלה.
  3. סכום (או ממוצע) של ערכים בריבוע אלה.

צעד מיתר זה פירושו שלא כל הנקודות תורמות באופן שווה לקו: חריגים - שהם נקודות שאינן נופלות בתבנית הצפויה – כוללות שגיאה גדולה יותר באופן לא מפורש, שעשויה להשפיע על מיקום הקו.

נקודות חוזק של רגרסיה

לטכניקות רגרסיה יש נקודות חוזק רבות שמודלים מורכבים יותר אינם כוללים.

ניתן לחיזוי וקל לפרשנות

קל לפרש רגרסיות מאחר שהן מתארות משוואות מתמטיות פשוטות, שלרוב ניתן ליצור גרף. מודלים מורכבים יותר נקראים לעתים קרובות פתרונות שחור, מכיוון שקשה להבין כיצד הם עשויים לבצע תחזיות או כיצד הם יתנהגו עם קלטים מסוימים.

קל לבצע אקסטרפולציה

רגרסיות מקלות עליך לבצע אקסטרפולציה; כדי לבצע תחזיות עבור ערכים מחוץ לטווח של ערכת הנתונים שלנו. לדוגמה, קל להעריך בדוגמה הקודמת שלנו שלכלבה בת תשע תהיה טמפרטורה של 40.5°C. עליך לנקוט תמיד משנה זהירות לגבי אקסטרפולציה: מודל זה ינבא שלתור בן 90 תהיה טמפרטורה כמעט חמה מספיק כדי להרתיח מים.

התאמה מיטבית מובטחת בדרך כלל

רוב המודלים של למידת מכונה משתמשים בירידה הדרגתית כדי להתאים למודלים, פעולה הכרוכה בכוונון האלגוריתם ההדרגתי-ההדרגתי ולא מבטיח שנמצא פתרון מיטבי. לעומת זאת, רגרסיה ליניאארית המשתמשת סכום הריבועים כפונקציית עלות אינה זקוקה למעשה לפרוצדורת ירידה הדרגתית איטרטיבית. במקום זאת, אנו יכולים להשתמש במתמטיקה מתוחכמת כדי לחשב את המיקום האופטימלי למיקום הקו. המתמטיקה נמצאת מחוץ לטווח של מודול זה, אך כדאי לדעת כי (כל עוד גודל המדגם אינו גדול מדי) רגרסיה ליניאארית אינה זקוקה לתשומת לב מיוחדת כדי שישולם לתהליך המתאים, והפתרון האופטימלי מובטח.