NumPy と Pandas を使用してデータを探索する

完了

データ サイエンティストは、さまざまなツールと手法を使用して、データの探索、視覚化、操作を行います。 データ科学者がデータを操作する最も一般的な方法の 1 つは、Python 言語とデータ処理のための特定のパッケージを使用することです。

NumPy とは

NumPy は、MATLAB や R などの数学ツールに匹敵する機能を提供する Python ライブラリです。NumPy では、ユーザー エクスペリエンスが大幅に簡素化される一方で、包括的な数学関数も提供されます。

Pandas とは

Pandas は、データの分析と操作のための Python ライブラリとして非常に人気があります。 Pandas は Python 用の表計算アプリケーションのようなものであり、データ テーブル用の使いやすい機能が用意されています。

Diagram of Pandas DF.

Jupyter ノートブックでデータを探索する

Jupyter Notebook は、Web ブラウザーを使用して基本的なスクリプトを実行する一般的な方法です。 一般的に、これらのノートブックは 1 つの Web ページであり、テキスト セクションとコード セクションに分かれており、ローカル コンピューターではなくサーバー上で実行されます。 サーバー上の Jupyter ノートブックでコードを実行することで、すぐに使い始めることができます。ローカル コンピューターに Python や他のツールをインストールする必要がありません。

仮説のテスト

データの探索と分析は通常は "反復" 的なプロセスで、データ科学者はデータのサンプルを取得し、次の種類のタスクを実行してそれを分析し、仮説をテストします。

  • データをクリーンして、エラーや欠損値などの問題を処理します。
  • 統計的技法を適用して、データをよりよく理解します。サンプルが実世界のデータの母集団をどの程度反映しているかを、不規則変動を考慮に入れてよく理解します。
  • データを視覚化して変数間のリレーションシップを特定します。機械学習プロジェクトの場合は、"ラベル" を予測できる可能性のある "特微量" を特定します。
  • 仮説を修正して、プロセスを繰り返します。