実際のデータを調べる

完了

教材に掲載されているデータは非常に完璧な場合が多く、変数間の明確な関係を見つける方法を学生に示すことを目的としています。 "実際の" データは、もう少し複雑です。

"実際の" データは複雑であるため、生データを使用する前に問題がないかどうかを検査する必要があります。

そのため、使用前に生データを検査し、エラーや問題を減らすために、誤ったデータ ポイントを削除したり、データをより有用な形に修正するなどの処理を行うことがベスト プラクティスです。

実際のデータの問題

実際のデータには、データの有用性や結果の解釈に影響を与えるさまざまな問題が含まれている可能性があります。

実際のデータの多くは、その時点では記録されていない要因に影響されていることを認識することが重要です。 たとえば、レースカーのトラック時間とエンジンのサイズが表になっていても、書き込まれていない他のさまざまな要素 (天候など) が影響していた可能性があります。 問題がある場合、多くの場合はデータセットのサイズを大きくすることで、これらの要因の影響を軽減できます。

また、明らかに想定外のデータ ポイント ("外れ値" と呼ばれる) を分析から安全に削除できる場合もありますが、実際の分析情報をもたらすデータ ポイントを削除しないように注意する必要があります。

実際のデータに共通するもう 1 つの問題として、偏りがあります。 偏りとは、ある種の値が他の値よりも多く選択される傾向のことで、基になる母集団 (つまり "実際") を誤って表すことを意味します。 データの出所に関する基本的な知識を念頭に置いてデータを探索することで、偏りを発見できることがあります。

実際のデータには常に問題がありますが、多くの場合、データ サイエンティストは次の方法でこのような問題を克服できます。

  • 欠損値と記録データの不備を検査する。
  • 明らかな外れ値の削除を検討する。
  • 分析に影響を与えている実際の要因を調べ、このような要因の影響を十分に軽減できるデータセット サイズかどうかを判断する。
  • 偏りのある生データがないかどうかを調べ、見つかった場合は偏りを修正するためのオプションを検討する。