Úvod

Dokončeno

Není divu, že role datového vědce primárně zahrnuje zkoumání a analýzu dat. I když konečným výsledkem analýzy dat může být sestava nebo model strojového učení, datoví vědci začínají pracovat s daty. Python je nejoblíbenější programovací jazyk, který datoví vědci používají pro práci s daty.

Po desetiletích vývoje open source poskytuje Python rozsáhlé funkce s výkonnými statistickými a číselnými knihovnami:

  • NumPy a Pandas zjednodušují analýzu a manipulaci s daty
  • Matplotlib poskytuje atraktivní vizualizace dat
  • Scikit-learn nabízí jednoduchou a efektivní prediktivní analýzu dat.
  • TensorFlow a PyTorch poskytují možnosti strojového učení a hlubokého učení

Ukázkový scénář

Projekt analýzy dat je obvykle navržený tak, aby nastavil přehledy o konkrétním scénáři nebo testuje hypotézu.

Předpokládejme například, že profesor univerzity shromažďuje data o svých studentech, včetně počtu přednášek, hodin strávených studiem a konečné známky dosažené na konci zkoušky. Profesor by mohl analyzovat data, aby určil, jestli existuje vztah mezi množstvím studia studenta a konečnou známkou, kterou dosáhne. Profesor může data použít k otestování hypotézy, že pouze studenti, kteří studují na minimální počet hodin, mohou očekávat dosažení úspěšné známky.

Diagram of lecture and study time related to student grades.

Co budeme dělat?

V tomto výukovém modulu prozkoumáme a analyzujeme data známek pro fiktivní univerzitní třídu z pohledu profesora. K vyčištění sady dat použijeme poznámkové bloky Jupyter a několik nástrojů a knihoven Pythonu, použijeme statistické techniky k otestování několika hypotéz o datech a vizualizujeme data k určení vztahů mezi proměnnými.