まとめ
多くのことを学習しました。 重要なことを確認しておきましょう。
データとは
データは、いくつかの概念的なカテゴリに分類されます。 最も一般的なものを次に示します。
- 連続データ (数値)
- 順序のないカテゴリ データ
- 数値または順序付けされたカテゴリとして扱うことができる序数データ
コンピューターはデータを個別の型として格納し、通常、ユーザーはデータ型を特定のデータと一致させようとします。 たとえば、連続データを格納するには、小数部を格納できる浮動小数点数が最適です。 これに対して、カテゴリ データは多くの場合、文字列 (テキスト) として受信されるため、コンピューターによって正しく理解されるには one-hot ベクトルに変換する必要があります。
適切なデータセットを作成する方法
データセットは、次のようになっている場合に有効であることを学習しました。
- 関連情報が含まれている
- 完全である
- 母集団 (現実の世界) の適切な表現になっている
不完全なデータを扱う必要がある場合は、不完全なデータによって重大な問題が発生しないようにするための手順を実行できます。 その場合、たとえば、データが代表的なものではなくなるような変更など、新しい問題が発生するのを避ける必要があります。
データに関する考慮
データの視覚化が、モデルで有用なものを理解するのにどれだけ役立つかについて説明しました。 さまざまな種類のグラフ、色、その他のものを使用すると楽しいだけでなく、複雑な情報がはるかに直感的になります。
データを理解していると、モデルに関するより適切な意思決定を行えるようになることを学習しました。 最後の演習では、タイタニック号のキャビン数を調べるようにモデルを改善し、この情報がどのように役立つかを検討しました。 しかし、全体的に見ると、9 つのデッキ ラベルに簡略化することでこれを改善できることがわかりました。