Introduktion

Slutförd

Föga förvånande handlar dataexpertens roll främst om att utforska och analysera data. Även om slutresultatet av dataanalys kan vara en rapport eller en maskininlärningsmodell, börjar dataexperter sitt arbete med data, där Python är det mest populära programmeringsspråket som dataexperter använder för att arbeta med data.

Efter årtionden av utveckling med öppen källkod tillhandahåller Python omfattande funktioner med kraftfulla statistiska och numeriska bibliotek:

  • NumPy och Pandas förenklar analys och manipulering av data
  • Matplotlib ger attraktiva datavisualiseringar
  • Scikit-learn erbjuder enkel och effektiv förutsägande dataanalys
  • TensorFlow och PyTorch tillhandahåller maskininlärnings- och djupinlärningsfunktioner

Exempelscenario

Vanligtvis är ett dataanalysprojekt utformat för att skapa insikter kring ett visst scenario eller för att testa en hypotes.

Anta till exempel att en universitetsprofessor samlar in data om sina studenter, inklusive antalet föreläsningar som deltar, de timmar som spenderas på studier och slutbetyget som uppnåtts i slutet av terminsprovet. Professorn kan analysera data för att avgöra om det finns ett samband mellan mängden studier som en student utför och det slutliga betyget de uppnår. Professorn kan använda data för att testa en hypotes att endast studenter som studerar under ett minsta antal timmar kan förvänta sig att uppnå ett godkänt betyg.

Diagram of lecture and study time related to student grades.

Vad ska vi göra?

I den här utbildningsmodulen ska vi utforska och analysera betygsdata för en fiktiv universitetsklass ur professorns synvinkel. Vi använder Jupyter Notebooks och flera Python-verktyg och -bibliotek för att rensa datauppsättningen, använda statistiska tekniker för att testa flera hypoteser om data och visualisera data för att fastställa relationerna mellan variablerna.