שיפור מודלים באמצעות היפר-פרמטרים
לעתים קרובות ניתן להתאים מודלים פשוטים עם ערכות נתונים קטנות בשלב אחד, בעוד שערכות נתונים גדולות ומודלים מורכבים יותר חייבים להתאים שוב ושוב באמצעות המודל עם נתוני הדרכה והשוואה בין הפלט לתווית הצפויה. אם החיזוי מדויק מספיק, אנו מחשיבים את המודל כמוכש. אם לא, אנו מכוונים את המודל מעט ולולאה שוב.
Hyperparameters הם ערכים שמשתנים את האופן שבו המודל מתאים במהלך לולאות אלה. שיעור הלמידה, לדוגמה, הוא היפר-פרמטר שמגדיר את הכמות של מודל המותאם במהלך כל מחזור הדרכה. שיעור למידה גבוה פירושו שניתן לאמן מודל מהר יותר; אך אם הוא גבוה מדי, ההתאמות יכולות להיות כה גדולות, כך שהמודל לעולם לא "מתעדכן בצורה מדויקת" ולא מיטבי.
נתוני קדם עיבוד
עיבוד מוקדם מתייחס לשינויים שאתה מבצע בנתונים לפני העברתם למודל. קראנו בעבר שקדם עיבוד עשוי לכלול ניקוי ערכת הנתונים שלך. אמנם זה חשוב, אך תהליך קדם יכול לכלול גם שינוי העיצוב של הנתונים שלך כך שיהיה קל יותר להשתמש במודל. לדוגמה, נתונים המתוארים כ"אדום", "כתום", "צהוב", "לימון" ו"ירוק" עשויים לפעול בצורה טובה יותר אם יומרו לתבנית מקורית יותר למחשבים, כגון מספרים שמציין את מידת האדום ואת כמות הירוק.
תכונות שינוי קנה מידה
שלב הקדם-עיבוד הנפוץ ביותר הוא שינוי קנה המידה של התכונות כך שהן ייפול בין אפס לאותה אחת. לדוגמה, משקל האופניים וה המרחק שאדם נוסע עליו על אופניים עשויים להיות שני מספרים שונים מאוד, אך שינוי קנה המידה של שני המספרים הוא בין אפס לבין אחד מאפשר למודלים לקבל מידע יעיל יותר מהנתונים.
שימוש בקטגוריות כתכונות
בלמידת מכונה, ניתן גם להשתמש בתכונות סיווגיות כגון "אופניים", "סקייטבורד" או "מכונית". תכונות אלה מיוצגים על-ידי 0 או 1 ערכים וקטורים חמים; וקטורים בעלי 0 או 1 עבור כל ערך אפשרי. לדוגמה, אופניים, סקייטבורד ורכב עשויים להיות בהתאמה (1,0,0), (0,1,0) ו- (0,0,1).