Explorative Datenanalyse
Die explorative Datenanalyse (häufig als EDA bezeichnet) ist ein iterativer Zyklus zur Analyse von Datasets, um ihre wichtigsten Merkmale zusammenzufassen. Die erfolgt häufig durch die Visualisierung und Transformation dieser Daten.
Als wissenschaftliche Fachkraft für Daten verwenden Sie verschiedene Tools und Methoden, um Daten zu erkunden, zu visualisieren und zu bearbeiten. Eine der am häufigsten verwendeten Methoden zum Arbeiten mit Daten ist die Verwendung der Programmiersprache R und einiger spezifischer Pakete für die Datenerkundung.
Ein solches Paket ist Tidyverse, eine Sammlung von Paketen, die Tools für die gängigsten Data Science-Herausforderungen bereitstellen.1 Zu den Paketen im Tidyverse, mit denen Sie interagieren, gehören ggplot2, dplyr und tibble.
Visualisieren von Daten mit ggplot2
Das R-Paket ggplot2 dient zum Erstellen eleganter Grafiken für die Datenanalyse. Mit ggplot2 haben Sie eine flexible Möglichkeit, Diagramme zu erstellen, indem Sie unabhängige Komponenten einer Grafik in einer Folge iterativer Schritte kombinieren. Damit ist ggplot2 eines der vielseitigsten und leistungsstärksten Tools zum Erstellen von Diagrammen in R.
Transformieren von Daten mithilfe von dplyr
Das Paket dplyr bietet eine Grammatik zur Datenmanipulation, die einen konsistenten Satz von Verben bereitstellt, mit denen Sie die häufigsten Herausforderungen bei der Datenmanipulation lösen können.1 Mit dplyr können Sie die Daten in genau die Form umwandeln, die Sie für die weitere Analyse oder Visualisierung benötigen.
Speichern von Daten mithilfe von Datenrahmen und Tibbles
Datenrahmen stellen die am häufigsten verwendete Methode zum Speichern von Daten in R für die Analyse dar. Sie können sich einen Datenrahmen als die Entsprechung eines Excel-Arbeitsblatts in R vorstellen, da die Daten in einem ähnlichen Format gespeichert werden.
Ein Tibble ist hingegen ein moderner Datenrahmen, mit dem einige Aspekte des integrierten R-Datenrahmens verbessert werden sollen. Die Begriffe Tibble und Datenrahmen werden in diesem Modul gleichbedeutend verwendet.
Erkunden von Daten in einem Jupyter Notebook
Jupyter Notebooks bilden eine beliebte Methode zum Ausführen einfacher Skripts mithilfe eines Webbrowsers. Bei diesen Notebooks handelt es sich in der Regel um eine einzelne Webseite, die in Text- und Codeabschnitte unterteilt ist. Außerdem wird der Code wird auf dem Server und nicht auf dem lokalen Computer ausgeführt. Mit Jupyter Notebooks können Sie schnell loslegen, ohne R, Python oder andere Tools installieren zu müssen.
Testen Ihrer Hypothesen
Die Datenerkundung und -analyse ist normalerweise ein iterativer Prozess, bei dem wissenschaftlichen Fachkräfte für Daten eine Stichprobe der Daten analysieren und ihre Hypothesen testen, indem sie die folgenden Aufgaben ausführen:
- Bereinigen der Daten, um Fehler, fehlende Werte und andere Probleme zu behandeln
- Anwenden statistischer Verfahren, um die Daten besser zu verstehen und um zu beurteilen, wie gut die Stichprobe die tatsächliche Datenpopulation darstellt, um eine zufällige Variation zu ermöglichen
- Visualisieren der Daten, um Beziehungen zwischen Variablen zu bestimmen und im Fall eines Projekts mit maschinellem Lernen Features zu identifizieren, die möglicherweise eine Vorhersage für die Bezeichnung ermöglichen
- Überarbeiten der Hypothese und Wiederholen des Vorgangs
1. Hadley Wickham und andere, „Welcome to the Tidyverse“, Journal of Open Source Software, 2019.