Einführung

Abgeschlossen

Wenig überraschend umfasst die Rolle eines Data Scientists hauptsächlich das Erkunden und Analysieren von Daten. Das Endergebnis der Datenanalyse kann zwar ein Bericht oder ein Machine Learning-Modell sein, aber Data Scientist beginnen Ihre Arbeit stets mit Daten. Dabei ist Python die beliebteste Programmiersprache.

Nach Jahrzehnten der Open-Source-Entwicklung bietet Python umfangreiche Funktionen mit leistungsstarken statistischen und numerischen Bibliotheken:

  • NumPy und Pandas vereinfachen die Analyse und Bearbeitung von Daten.
  • Matplotlib bietet ansprechende Datenvisualisierungen.
  • Scikit-learn bietet eine einfache und effektive Datenanalyse für Vorhersagen.
  • TensorFlow und PyTorch bieten Machine Learning- und Deep Learning-Funktionen.

Beispielszenario

In der Regel sollen mit einem Datenanalyseprojekt Erkenntnisse zu einem bestimmten Szenario gewonnen oder eine Hypothese überprüft werden.

Nehmen Sie beispielsweise an, dass ein Universitätsprofessor Daten seiner Studierenden sammelt, einschließlich der Anzahl der besuchten Vorlesungen, der für das Studium aufgewendeten Stunden und des bei der Abschlussprüfung erreichten Ergebnisses. Der Professor könnte die Daten analysieren, um zu bestimmen, ob es eine Beziehung zwischen der für das Studium aufgewendeten Zeit und der Endnote gibt. Der Professor könnte diese Daten dann verwenden, um die Hypothese zu testen, dass nur Studierende, die eine Mindestanzahl von Stunden aufwenden, am Ende auch bestehen.

Diagram of lecture and study time related to student grades.

Wie werden wir vorgehen?

In diesem Trainingsmodul untersuchen und analysieren Sie Notendaten eines fiktiven Universitätskurses aus Sicht eines Professors bzw. einer Professorin. Wir verwenden Jupyter-Notebooks und mehrere Python-Tools und -Bibliotheken, um das Dataset zu bereinigen, wenden statistische Techniken an, um mehrere Hypothesen zu den Daten zu testen, und visualisieren die Daten, um die Beziehungen zwischen Variablen zu bestimmen.