总结

已完成

我们已经介绍了很多内容。 我们来回顾一些关键信息。

什么是数据类别?

数据属于多个概念类别。 最常见的值包括:

  • 连续数据 (数字)。
  • 没有顺序的分类数据。
  • 有序数据,可视为数字或有序类别。

计算机将数据存储为不同的类型,我们通常尝试将数据类型与特定数据相匹配。 例如,若要存储连续数据,浮点数的效果最好,因为浮点数允许存储分数。 相比之下,分类数据通常以字符串(文本)的形式出现,必须将其转换为独热向量才能使计算机正确理解它们。

什么是好的数据集?

我们了解到,在以下情况下,数据集是有用的:

  • 它包含相关信息。
  • 已完成。
  • 能够很好地代表总体 (现实)。

如果必须处理不完整的数据,我们可以采取措施来确保不完整的数据不会导致重大问题。 这样做时,必须避免引入新问题,例如,做出使数据不再具有代表性的更改。

思考数据

我们展示了数据可视化如何有助于了解模型中可能有用的内容。 使用不同类型的图形、颜色等可能会很有趣,并会使复杂信息更加直观。

我们了解到,了解数据使我们可以更好地做出有关模型的决策。 在最后一个练习中,我们改进了模型,因为我们探索了泰坦尼克号的船舱数量,并考虑了这些信息如何为我们提供帮助。 然而,总的来说,我们发现可以通过简化为九个甲板标签来改进这一点。