מבוא

הושלם

למידת מכונה מקבלת את העוצמה החזוית שלה מהנתונים שמצורות אותה. כדי לבנות מודלים יעילים, עליך להבין את הנתונים שבהם אתה משתמש.

כאן, אנו חוקרים כיצד אנשים ומחשבים מסווגים, מאחסנים ומפרשים נתונים. אנו בודקים מה יוצר ערכת נתונים טובה, וכיצד לפתור בעיות בנתונים הזמינים שלנו. אנו גם תרגלים את סקירת הנתונים החדשים, ואנחנו רואים כמה חשיבה עמוקה על ערכת נתונים יכולה לעזור לנו לבנות מודלים חזוניים טובים יותר.

תרחיש: המסע האחרון של הטיטניק

בתור ארכיאולוג ימי להוט, יש לך עניין נלהב מהותי אסונות ימיים. לילה אחד מאוחר, בעת לחיצה בין תמונות של עצמות לווייתנים ומלולות קדמונות על אטלנטיס, תמצא ערכת נתונים ציבורית שמפרטת נוסעים ידועים וצוות של המסע הראשון (והאחרון) של הטיטניק. אתה תוהה אילו גורמים קבעו ?את ההישרדות של נוסע טיטניק נתונים מתקופה זו אינם שלמים במידת מה. מידע לגבי נוסעים מסוימים אינו ידוע. עליך למצוא דרכים לתיקון נתונים אלה לפני שתוכל לנתח אותם באופן מלא.

דרישות מוקדמות

  • היכרות מסוימת עם מושגים של למידת מכונה (כגון מודלים ועלות) עוזרת, אך היא אינה נדרשת.

יעדי למידה

במודול זה, תוכל:

  • הצג ערכות נתונים גדולות באופן חזותי באמצעות ניתוח נתונים גישוש (EDA).
  • נקה את השגיאות מערכת נתונים.
  • חיזוי ערכים לא ידועים עם נתונים מספריים ונתונים לקטגוריות.