מבוא
באופן לא מפתיע, התפקיד של מדען נתונים כרוך בעיקר בחקר וניתוח של נתונים. למרות שהתוצאה הסופית של ניתוח נתונים עשויה להיות דוח או מודל למידת מכונה, מדעני נתונים מתחילים את עבודתם עם נתונים, כאשר Python היא מדעני הנתונים הפופולריים ביותר של שפת תיכנות המשתמשים לעבודה עם נתונים.
לאחר עשורים של פיתוח קוד פתוח, Python מספקת פונקציונליות נרחבת עם ספריות סטטיסטיות מספריות רבות-עוצמה:
- NumPy ו- Pandas מפשטים את הניתוח והמניפולציה של נתונים
- Matplotlib מספק פריטים חזותיים אטרקטיביים של נתונים
- Scikit-learn מציע ניתוח נתונים חיזוי פשוט ויעיל
- TensorFlow ו- PyTorch מספקות למידת מכונה ויכולות למידה עמוקה
תרחיש לדוגמה
בדרך כלל, פרוייקט ניתוח נתונים נועד ליצור תובנות לגבי תרחיש מסוים או כדי לבדוק השערה.
לדוגמה, נניח שמרצה באוניברסיטה אוסף נתונים על הסטודנטים שלו, כולל מספר ההרצאות שנכחו בו, השעות שהושקעו בלימודים והציון הסופי שהושג בסיום מבחן ההסכם. הפרופסור יכול לנתח את הנתונים כדי לקבוע אם יש קשר בין כמות הלמידה של התלמיד לבין הציון הסופי שהוא משיג. הפרופסור עשוי להשתמש בנתונים כדי לבדוק השערה שרק תלמידים שלוחות במשך מספר מינימלי של שעות יכולים לצפות לקבל ציון עובר.
מה נעשה .
במודול הדרכה זה, נבחן ונתח נתוני ציונים עבור כיתת אוניברסיטה מלאכותית מנקודת עיון של פרופסור. נשתמש במחברות Jupyter ובספריות וכלים שונים של Python כדי לנקות את ערכת הנתונים, נחיל טכניקות סטטיסטיות כדי לבדוק מספר השערות לגבי הנתונים, ומחשה את הנתונים באופן חזותי כדי לקבוע את קשרי הגומלין בין משתנים.