さまざまな種類のデータを調べる
データは、収集された情報を表す別の単語にすぎません。 利用可能な情報の量は膨大で、多くの異なる種類の情報が含まれます。
さまざまな方法でデータを分類できます。 機械学習の領域で活動するには、利用可能なデータの種類とデジタル ストレージ システムの両方を理解する必要があります。
連続データ、序数データ、カテゴリ データ
データの操作では、データが正確に何を表しているのかを認識することが必要になる場合があります。 この認識は、適切な機械学習モデルを選択するのに役立ちます。 また、特定の役に立つ方法でデータを整理するのにも役立ちます。
"連続データ" とは、任意の量だけ増減できる数値情報のことです。 たとえば、1 ミリメートルを 1 メートルに加算し、合計を 1.001 メートルとして計算できます。
"カテゴリ データ" とは、連続するスペクトルに当てはまらないデータのことです。 このモジュールのシナリオのデータでは、タイタニック号に乗船していた人は乗員または乗客として分類されます。 カテゴリ データは、明らかな方法で数値として格納することができません。
"序数データ" とは、定義された順序を持ち、したがって数値としてのストレージをサポートできるカテゴリ データのことです。 たとえば、大、中、小の値は、順序データとして定義できます。これは、大 > 中 >小の順に数値的にランク付けできるためです。 これに対し、リンゴ、オレンジ、ココナッツという値は、順位を付けられないためカテゴリです。 序数データはまた、決められた量だけ増やしたり減らしたりできる数値を指すこともできます。 たとえば、半分だけ乗船することはできないため、ボートに乗船する人の数は常に整数です。
ID とは、各サンプルに一意の ID が割り当てられている特殊な種類のカテゴリ データです。 たとえば、このモジュールのデータセットでは、タイタニック号に乗船していた個々の人は、名前は他のだれかと同じであったとしても、特定の ID 値を持っています。 ID 値はデータセット内のナビゲーションに役立ちますが、データ分析にそれらの値が直接含まれることはありません。
データ型
コンピューターは、機械学習に使用するすべてのデータを格納して処理する必要があります。 ほとんどどのようなデータでも鉛筆で紙に書くことができますが、コンピューターは情報を 0 と 1 の並びとして格納します。 これにより、情報の使用方法が制限されます。
データ型とは、コンピューターに格納されるデータの種類のことです。 通常、データ型には次のカテゴリがあります。
- 整数: カウントする数値 (2 など)。
- 浮動小数点数: 小数点を含む数値 (2.43 など)。
- 文字列: 文字と単語。
- ブール値: true と false。
- None、void、または null: データではなく、データが存在しないこと。
これらの概念に関する正確な用語と実装は言語によって異なりますが、そのすべてがすべてのコンピューター言語で同じように動作します。
場合によっては、2 つの異なるデータ型で同等の機能が提供されることがあります。 たとえば、コンピューターでは、true/false の値を、ブール値 (true または false)、文字列 (y または n)、整数 (0 または 1)、または浮動小数点数 (0.0 または 1.0) として処理できます。
派生データ型
テクノロジを使用すると、上記のリスト以外にも、より多くの基本的なプリミティブ データ型に遭遇します。 コンピューターは、日付、画像、3D モデルなどを格納できます。 それらを派生データ型と呼びます。 1 つ以上のプリミティブ データ型から始めて、派生データ型を構築します。
機械学習では、多くの場合、派生型をより単純な表現に変換すると便利です。 たとえば、定義された日付値 (2017 年 1 月 1 日など) は、整数または浮動小数点数 (20170101 など) として格納できます。 整数または浮動小数点数により、モデルの背後にある計算が簡単になります。
選択肢が多すぎるのか
使用できるデータの種類がわかっていると、適切なデータ型を選ぶのに役立ちます。
適切なデータ型はモデルの実行に使うパッケージによって異なる場合がありますが、パッケージは一般に許容性があります。 一般的には次のとおりです。
- 連続データを操作するには、浮動小数点数が最適な選択肢になります。
- 序数データは、通常、整数値でエンコードされます。
- カテゴリが 2 つだけのカテゴリ データは、通常、ブール値または整数データとしてエンコードできます。 3 以上のカテゴリの操作は、もう少し複雑になる場合があります。 心配しないでください。このトピックについては次のレッスンで説明します。
次の演習では、データの視覚化を練習し、データ自体についての理解を深めます。 その際、関連するデータ型によく注意し、連続、序数、カテゴリのどのデータ型かを特定してみてください。