Indførelsen

Fuldført

Ikke overraskende omfatter en dataforskers rolle primært udforskning og analyse af data. Selvom slutresultatet af dataanalyse kan være en rapport eller en model til maskinel indlæring, begynder dataforskere at arbejde med data, hvor Python er det mest populære programmeringssprog, som datateknikere bruger til at arbejde med data.

Efter årtiers udvikling med åben kildekode leverer Python omfattende funktionalitet med effektive statistiske og numeriske biblioteker:

  • NumPy og Pandas forenkler analyse og manipulation af data
  • Matplotlib leverer flotte datavisualiseringer
  • Scikit-learn tilbyder enkel og effektiv forudsigende dataanalyse
  • TensorFlow og PyTorch leverer funktioner til maskinel indlæring og dyb læring

Eksempelscenarie

Normalt er et dataanalyseprojekt designet til at etablere indsigt i et bestemt scenarie eller til at teste en hypotese.

Lad os f.eks. antage, at en universitetsprofessor indsamler data om deres studerende, herunder antallet af forelæsninger, der er deltaget, de timer, der er brugt på at studere, og den endelige karakter, der opnås ved afslutningen af eksamen. Professoren kan analysere dataene for at afgøre, om der er en relation mellem den mængde studerende, der studerer, og den endelige karakter, de opnår. Professoren kan bruge dataene til at teste en hypotese om, at det kun er studerende, der studerer i et minimum antal timer, der kan forvente at opnå en bestående karakter.

Diagram over forelæsnings- og studietid i forbindelse med karakterer for studerende.

Hvad skal vi gøre?

I dette undervisningsmodul udforsker og analyserer vi karakterdata for en fiktiv universitetsklasse fra en professors synspunkt. Vi bruger Jupyter-notesbøger og flere Python-værktøjer og -biblioteker til at rense datasættet, anvende statistiske teknikker til at teste flere hypoteser om dataene og visualisere dataene for at bestemme relationerne mellem variabler.