机器学习和数据科学生命周期
机器学习是数据科学这一更广泛领域的一部分。 它本质上是从原始数据创建知识的过程。
将原始数据转换为知识需要进行大量工作。 例如,假设你有一个菜园并尝试种植生菜。 你想对菜园进行完善,以便在最短时间内种植最多的生菜。 你可以收集大量数据,这些数据可能会影响你如何设置种植生菜的最成功的环境。
可以考虑光照、温度、土壤和空气湿度、生菜类型、种子来源、新鲜空气接触程度、播种机大小以及土壤质量和数量等因素。 该列表甚至可能会更长,因为你可能会忽略某些影响生长的因素,如菜园附近的噪音级别或噪音类型。
数据科学生命周期
了解数据科学生命周期可以指导你从数据源创建新知识。
数据科学生命周期有以下四个步骤:
- 使用行业专业知识定义业务目标。
- 收集、清理和操作数据。
- 选择机器学习算法,然后训练和测试模型。
- 部署要与其他应用程序一起使用的模型。
请继续阅读,详细了解数据科学生命周期中的每个步骤。