適切なデータ、不適切なデータ、欠落しているデータ

完了

データが機械学習を形作るという事実によって、機械学習の予測力が生み出されます。 副作用として、少量のデータだけでトレーニングされたモデルは、現実の世界ではあまりうまく機能しません。これは、通常、データが少いと、実世界の優れた表現として機能しないためです。 たとえば、地球上のどこかからランダムに選ばれた 4 人では、確実に地球上の平均的な人物を表すことはできません。 これに対して、10 億人を選べば、そのデータはおそらく代表的なものになります。

ただし、他の要因も重要です。 大規模で代表的な、次のようなデータ サンプルが必要です

  • エラーがない
  • すべての主要な情報を含む

タイタニック データセットを含む実用的な演習に進む前に、ここではこれらの問題について説明します。

"代表" - それが意味すること

統計学者は、"母集団" と "サンプル" という 2 つの主要な概念を基にして、利用可能なデータ リソースが分析と調査に実際に役立つかどうかを判断します。

母集団に注目します。つまり、考えられるすべてのデータ ポイントです。 タイタニック号のシナリオでは、すべての乗客の生存につながった要因を知りたいと考えています。 これには、公式記録に記載されていない密航者も含まれます。 2 つ目の例として、性格特性と沈没の可能性の間の関係を調べる場合は、これまでに生存したすべての船長が母集団になります。

サンプルとは、母集団全体のサブセットとして利用可能なデータのことです。 タイタニック データセットの場合、このサンプルは、公式の乗客名簿に載っている人だけを対象にします。 2 番目の例では、サンプルは、地元のマリーナで性格テストを受けるように説得できるすべての船長になる可能性があります。

サンプルが母集団を正確に表すかどうかを考える必要があります。 タイタニックの例では、サンプルは非常に大きいため、おそらく母集団の適切な表現として機能します。 対照的に、2 番目の例では、地元のマリーナの船長だけと会話しても、おそらく世界中の船乗りの良いサンプルは得られません。 地元のマリーナのデータから構築されたモデルは、地元の船長に関しては適切に機能しますが、他の国や地域の船長を理解するには、あまり役に立ちません。

データ エラーとは

"データ エラー" という用語は、正しくないデータを指します。 十分なデータ エラーにより、モデルが歪み、常に不適切な予測を行うようになるおそれがあります。 シンプルなことです。不適切なデータを入力すると、不適切な予測が発生します。

データのエラーは避け難いことであり、次の 2 つのカテゴリにグループ化できます。

"測定エラー" という用語は、データ収集フェーズにおける低品質の測定によるデータのことです。 多くの場合、これらのエラーは微妙であり、排除することは困難であるか、不可能です。

"データ入力エラー" という用語は、正確に収集されたが、スプレッドシートまたはデータ管理リソースへの格納が不適切または不正確であったデータを指します。 場合によっては、測定エラーを見つけるより、データ入力エラーを見つける方が簡単です。 たとえば、だれかの身長を 1.8 m と測定したが、小数点を付け忘れて 18 m と書いたとします。 身長が木の高さほどある人間は非現実的であるため、このエラーは簡単にわかります。

完全なデータとは

完全なデータセットには、欠損データがありません。 欠損データには、2 つの種類があります。 このデータは、Dylan、Reece、Tom の身長と体重を示しています。

名前 体高 (m) Weight (kg)
Dylan 1.8 75
Reece 82

Tom のサンプルがないため、このデータは不完全です。 さらに、Reece のデータには、Reece の身長が示されていません。

常に完全なデータを処理するのが理想的ですが、完全なデータを常に利用できるわけではありません。 不完全なデータについては、次のことができます。

  • 不完全なデータを処理できるモデルを選択します。
  • 不完全なデータを含むサンプル (行) を削除し、残ったデータを操作します。
  • 欠損データの妥当な代替値を人為的に追加します。

ほとんどの場合、欠損データを処理できるモデルを選ぶのが最善ですが、それがいつでもできるわけではありません。 不完全なデータの削除は最も簡単な方法であり、通常は機能します。 ただし、データを削除してもサンプルが母集団を不正確に伝えることがないように注意する必要があります。 データを人為的に追加することは通常、最後の手段です。

次のユニットでは、タイタニックのデータセットを操作して、不完全なデータを識別して修復します。