NumPy と Pandas を使用してデータを探索する

データサイエンティストは、さまざまなツールと手法を使用して、データの探索、視覚化、操作を行います。データ科学者がデータを操作する最も一般的な方法の 1 つは、Python 言語とデータ処理のための特定のパッケージを使用することです。

NumPy とは

NumPy は、MATLAB や R などの数学ツールに匹敵する機能を提供する Python ライブラリです。NumPy では、ユーザーエクスペリエンスが大幅に簡素化される一方で、包括的な数学関数も提供されます。

Pandas は、データの分析と操作のための Python ライブラリとして非常に人気があります。 Pandas は Python 用の表計算アプリケーションのようなものであり、データテーブル用の使いやすい機能が用意されています。

Pandas データフレームの図。

ノートブックは、Web ブラウザーを使用して基本的なスクリプトを実行する一般的な方法です。通常、これらのノートブックは単一の Web ページであり、個別に実行できるテキストセクションとコードセクションに分かれています。

データの探索と分析は通常は "反復" 的なプロセスで、データ科学者はデータのサンプルを取得し、次の種類のタスクを実行してそれを分析し、仮説をテストします。

データをクリーンして、エラーや欠損値などの問題を処理します。
統計的技法を適用して、データをよりよく理解します。サンプルが実世界のデータの母集団をどの程度反映しているかを、不規則変動を考慮に入れてよく理解します。
データを視覚化して変数間のリレーションシップを特定します。機械学習プロジェクトの場合は、"ラベル" を予測できる可能性のある "特微量" を特定します。
仮説を修正して、プロセスを繰り返します。

このページはお役に立ちましたか?