简介
机器学习从塑造它的数据中获得预测能力。 若要生成有效的模型,必须了解所使用的数据。
在这里,我们将探讨人类和计算机如何对数据进行分类、存储和解释。 我们将探讨什么是好的数据集,以及如何修复可用数据中的问题。 我们还练习探索新数据,并了解数据集的深度思考如何帮助我们构建更好的预测模型。
场景:泰坦尼克号的最后一次航行
作为一个热心的海洋考古学家,你对海上灾难有着异常浓厚的兴趣。 一个深夜,在鲸鱼骨头和关于亚特兰蒂斯的古卷轴之间单击时,你会发现一个公共数据集,列出了泰坦尼克号第一次(和最后)航行的已知乘客和机组人员。 你被命运和机遇之间的平衡吸引住了,想知道是什么因素决定了能否成为泰坦尼克号乘客中的幸存者? 这一时期的数据有些不完整。 某些乘客的信息未知。 必须先找到修补这些数据的方法,然后才能全面分析这些数据。
先决条件
- 对机器学习概念(如模型和成本)的一些熟悉有所帮助,但这不是必需的。
学习目标
在本模块中,你将:
- 使用探索性数据分析 (EDA) 可视化大型数据集。
- 清除数据集中的错误。
- 使用数值和分类数据预测未知值。