מהו סיווג?

הושלם

הסיווג בינארי הוא סיווג עם שתי קטגוריות. לדוגמה, אנחנו יכולים לתייג מטופלים כחולה סוכרת או חולה סוכרת.

חיזוי המחלקה נוצר על-ידי קביעת ההסתברות עבור כל מחלקה אפשרית כערך בין 0 (בלתי אפשרי) ל- 1 (מסוים). ההסתברות הכוללת עבור כל הכיתות היא תמיד 1, כיוון שהמטופל הוא ללא ספק חולה סוכרת או שאינו סוכרתי. לכן, אם ההסתברות החזוית של חולה סוכרת היא 0.3, קיימת הסתברות תואמת של 0.7 שהמטופל אינו סוכרתי.

ערך סף, לרוב 0.5, משמש לקביעת המחלקה החזוית. אם המחלקה חיובית (במקרה זה, חולה סוכרת) הוא בעל הסתברות צפויה גדולה מהסף, צפוי סיווג של סוכרת.

הדרכה והערכה של מודל סיווג

סיווג הוא דוגמה של טכניקת למידת מכונה בפיקוח של, כלומר היא מסתמכת על נתונים הכוללים ערכי תכונה ידועים תווית. בדוגמה זו, ערכי התכונות הם מדידות אבחון עבור מטופלים, וערכים של תוויות הם סיווג של חולה סוכרת או סוכרת. אלגוריתם סיווג משמש להתאמת קבוצת משנה של הנתונים לפונקציה אשר יכולה לחשב את ההסתברות עבור כל תווית מחלקה מתוך ערכי התכונה. הנתונים הנותרים משמשים להערכת המודל על-ידי השוואת החיזויים שהוא יוצר מהתכונות לתוויות המחלקה הידועות.

דוגמה פשוטה

בוא נבחן דוגמה שיעזור להסביר את העקרונות המרכזיים. נניח שיש לנו את נתוני המטופלים הבאים, המורכבים מתכונה אחת (רמת גלוקוז בדם) ותווית מחלקה 0 עבור אי-סוכרת, 1 עבור סוכרת.

Blood-Glucose סוכרת
82 0
92 0
112 1
102 0
115 1
107 1
87 0
120 1
83 0
119 1
104 1
105 0
86 0
109 1

אנו משתמשים בשמונה התצפיות הראשונות כדי להכשיר מודל סיווג, תחילה על-ידי התוויית תכונת הגלוקוז בדם (x) והתווית הסרעטית החזוית (y).

גרף של גלוקוז דם המותווים נגד סוכרת (0 או 1) ללא קו מגמה.

דרוש לנו פונקציה המחשבת ערך הסתברות עבור y בהתבסס על x (במילים אחרות, הפונקציה f(x) = y). ניתן לראות מהתרשים כי חולים עם רמת גלוקוז נמוכה בדם הם כולם לא סוכרתיים, בעוד מטופלים עם רמת גלוקוז דם גבוה יותר הם חולי סוכרת. זה נראה כמו גבוה יותר רמת גלוקוז בדם, סביר להניח כי חולה סוכרת, עם נקודת התפלה להיות איפשהו בין 100 ל-110. עלינו להתאים פונקציה המחשבת ערך בין 0 ל- 1 עבור y לערכים אלה.

פונקציה אחת כזו היא לוגיסטית, אשר יוצרת עקומה סיגמואידית (בצורת S).

גרף של גלוקוז דם המותווים נגד חולה סוכרת (0 או 1) עם קו מגמה sigmoidal.

כעת ניתן להשתמש בפונקציה כדי לחשב ערך הסתברות ש- y הוא חיובי, כלומר, המטופל הוא חולה סוכרת, מכל ערך של x על-ידי איתור הנקודה בקו הפונקציה עבור x. ניתן להגדיר ערך סף של 0.5 כנקודת החתך עבור חיזוי תווית הכיתה.

בוא נבחן את זה עם שני ערכי הנתונים שהחזקנו.

גרף של גלוקוז דם המותווים מול חולה סוכרת (0 או 1) עם קו מגמה sigmoidal וערך סף מוגדר 0.5.

נקודות המותווים מתחת לשורת הסף מניבה מחלקה צפויה של 0 (לא סוכרתית) ונקודות מעל לקו חזויות כ- 1 (סוכרתי).

כעת ניתן להשוות את חיזויי התוויות (, או "y-hat"), בהתבסס על הפונקציה הלוגיסטית שנכללה במודל, לתוויות המחלקה בפועל (y).

x y
83 0 0
119 1 1
104 1 0
105 0 1
86 0 0
109 1 1