גלה נתונים באמצעות NumPy ופנדות

הושלם

מדעני נתונים יכולים להשתמש בכלים ובטכניקות שונים כדי לחקור נתונים, להציג אותם באופן חזותי ולטפל בהם. אחת הדרכים הנפוצות ביותר שבהן מדעני נתונים עובדים עם נתונים היא להשתמש בשפת Python ובחבילות ספציפיות מסוימות לעיבוד נתונים.

מהו NumPy?

NumPy היא ספריית Python המספקת פונקציונליות הניתנת להשוואה בין כלים מתמטיים כגון MATLAB ו- R. בעוד ש- NumPy מפשט באופן משמעותי את חוויית המשתמש, הוא מציע גם פונקציות מתמטיות מקיפות.

מה זה פנדה?

פנדות היא ספריית Python פופולרית במיוחד לניתוח נתונים ולמניפולציה. פנדות הן כמו אפליקציית גיליון אלקטרוני ל- Python, המספקת פונקציונליות קלה לשימוש עבור טבלאות נתונים.

דיאגרמה של מסגרת נתונים של פנדה.

סיור בנתונים במחברת

מחברות הן דרך פופולרית להפעלת קבצי Script בסיסיים באמצעות דפדפן האינטרנט שלך. בדרך כלל, מחברות אלה הן דף אינטרנט יחיד, המחולק לקטעי טקסט וקטעי קוד שניתן להפעיל בנפרד.

בדיקת השערות

חקר נתונים וניתוח נתונים הם בדרך תהליך, שבו מדען הנתונים לוקח מדגם של נתונים ומבצע את סוגי המשימות הבאים כדי לנתח אותם ולבחון השערות:

  • לנקות לטפל בשגיאות, ערכים חסרים ובעיות אחרות.
  • החל טכניקות סטטיסטיות כדי להבין טוב יותר את נתוני וכיצד המדגם עשוי להיות צפוי לייצג את האוכלוסיה בעולם האמיתי של נתונים, דבר המאפשר וריאציה אקראית.
  • להציג נתונים באופן כדי לקבוע קשרי גומלין בין משתנים, ובמקרה של פרוייקט למידת מכונה, זהה תכונות שעשויות להיות חזויות של של.
  • לתקן את ההיפותזה על התהליך ותחזור על התהליך.