Erkunden von Daten mit NumPy und Pandas
Data Scientists können verschiedene Tools und Methoden verwenden, um Daten zu erkunden, zu visualisieren und zu bearbeiten. Eine der gängigsten Methoden, mit denen Data Scientists mit Daten arbeiten, ist die Programmiersprache Python mit einigen speziellen Paketen für die Datenverarbeitung.
Was ist NumPy?
NumPy ist eine Python-Bibliothek, die Funktionen bietet, die mit mathematischen Tools wie MATLAB und R vergleichbar sind. NumPy vereinfacht zwar die Benutzerfreundlichkeit erheblich, bietet aber auch umfassende mathematische Funktionen.
Was ist Pandas?
Pandas ist eine äußerst beliebte Python-Bibliothek für Datenanalyse und -bearbeitung. Pandas ist eine Tabellenkalkulationsanwendung für Python und bietet benutzerfreundliche Funktionen für Datentabellen.
Daten in einem Notebook erkunden
Notizbücher sind eine beliebte Methode zum Ausführen grundlegender Skripts mithilfe Ihres Webbrowsers. In der Regel handelt es sich bei diesen Notizbüchern um eine einzelne Webseite, die in Textabschnitte und Codeabschnitte unterteilt ist, die einzeln ausgeführt werden können.
Testen von Hypothesen
Das Erkunden und Analysieren von Daten ist in der Regel ein iterativer Prozess, bei dem die wissenschaftliche Fachkraft für Daten eine Stichprobe der Daten erstellt und die folgenden Typen von Aufgaben ausführt, um sie zu analysieren und Hypothesen zu testen:
- Bereinigen der Daten, um Fehler, fehlende Werte und andere Probleme zu behandeln.
- Anwenden statistischer Verfahren, um die Daten besser zu verstehen und um zu beurteilen, wie gut die Stichprobe die tatsächliche Datenpopulation darstellt, um eine zufällige Variation zu ermöglichen
- Visualisieren der Daten, um Beziehungen zwischen Variablen zu bestimmen und im Fall eines Machine Learning-Projekts Merkmale zu identifizieren, die möglicherweise eine Vorhersage für die Bezeichnung ermöglichen.
- Überarbeiten der Hypothese und Wiederholen des Vorgangs