Erkunden von Daten mit NumPy und Pandas

Abgeschlossen

Data Scientists können verschiedene Tools und Methoden verwenden, um Daten zu erkunden, zu visualisieren und zu bearbeiten. Eine der gängigsten Methoden, mit denen Data Scientists mit Daten arbeiten, ist die Programmiersprache Python mit einigen speziellen Paketen für die Datenverarbeitung.

Was ist NumPy?

NumPy ist eine Python-Bibliothek, die Funktionen bietet, die mit mathematischen Tools wie MATLAB und R vergleichbar sind. NumPy vereinfacht zwar die Benutzerfreundlichkeit erheblich, bietet aber auch umfassende mathematische Funktionen.

Was ist Pandas?

Pandas ist eine äußerst beliebte Python-Bibliothek für Datenanalyse und -bearbeitung. Pandas ist eine Tabellenkalkulationsanwendung für Python und bietet benutzerfreundliche Funktionen für Datentabellen.

Diagram of Pandas DF.

Erkunden von Daten in einem Jupyter Notebook

Jupyter Notebooks sind eine beliebte Methode zum Ausführen einfacher Skripts über Ihren Webbrowser. In der Regel handelt es sich bei diesen Notebooks um eine einzelne Webseite, die in Textabschnitte und Codeabschnitte unterteilt ist, die auf dem Server und nicht auf Ihrem lokalen Computer ausgeführt werden. Wenn Sie Code in Jupyter-Notebooks auf einem Server ausführen, können Sie schnell loslegen, ohne Python oder andere Tools auf Ihrem lokalen Computer installieren zu müssen.

Testen von Hypothesen

Das Erkunden und Analysieren von Daten ist in der Regel ein iterativer Prozess, bei dem die wissenschaftliche Fachkraft für Daten eine Stichprobe der Daten erstellt und die folgenden Typen von Aufgaben ausführt, um sie zu analysieren und Hypothesen zu testen:

  • Bereinigen der Daten, um Fehler, fehlende Werte und andere Probleme zu behandeln.
  • Anwenden statistischer Verfahren, um die Daten besser zu verstehen und um zu beurteilen, wie gut die Stichprobe die tatsächliche Datenpopulation darstellt, um eine zufällige Variation zu ermöglichen
  • Visualisieren der Daten, um Beziehungen zwischen Variablen zu bestimmen und im Fall eines Machine Learning-Projekts Merkmale zu identifizieren, die möglicherweise eine Vorhersage für die Bezeichnung ermöglichen.
  • Überarbeiten der Hypothese und Wiederholen des Vorgangs