Introduktion

2 minuter

Föga förvånande handlar dataexpertens roll främst om att utforska och analysera data. Även om slutresultatet av dataanalys kan vara en rapport eller en maskininlärningsmodell, börjar dataexperter sitt arbete med data, där Python är det mest populära programmeringsspråket som dataexperter använder för att arbeta med data.

Efter årtionden av utveckling med öppen källkod tillhandahåller Python omfattande funktioner med kraftfulla statistiska och numeriska bibliotek:

NumPy och Pandas förenklar analys och manipulering av data
Matplotlib ger attraktiva datavisualiseringar
Scikit-learn erbjuder enkel och effektiv förutsägande dataanalys
TensorFlow och PyTorch tillhandahåller maskininlärnings- och djupinlärningsfunktioner

Exempelscenario

Vanligtvis är ett dataanalysprojekt utformat för att skapa insikter kring ett visst scenario eller för att testa en hypotes.

Anta till exempel att en universitetsprofessor samlar in data om sina studenter, inklusive antalet föreläsningar som deltar, de timmar som spenderas på studier och slutbetyget som uppnåtts i slutet av terminsprovet. Professorn kan analysera data för att avgöra om det finns ett samband mellan mängden studier som en student utför och det slutliga betyget de uppnår. Professorn kan använda data för att testa en hypotes att endast studenter som studerar under ett minsta antal timmar kan förvänta sig att uppnå ett godkänt betyg.

Diagram över föreläsnings- och studietid relaterad till elevbetyg.

Vad ska vi göra?

I den här utbildningsmodulen ska vi utforska och analysera betygsdata för en fiktiv universitetsklass ur professorns synvinkel. Vi använder Jupyter Notebooks och flera Python-verktyg och -bibliotek för att rensa datauppsättningen, använda statistiska tekniker för att testa flera hypoteser om data och visualisera data för att fastställa relationerna mellan variablerna.

Feedback

Var den här sidan till hjälp?