简介
到目前为止,我们基本上只研究了机器学习分类技术。 通过线性回归,我们将了解机器学习中最重要的预测算法之一。
线性回归的本质其实是机器学习的一种简单形式:连接各点绘制一条线。 你可能在高中物理课上做过这样的事情:在方格纸上绘制一组实验结果,然后画一条线,让它连接尽可能多的点。 在这种类型的图中,当无法用线条连接这些点时,就要尽可能让线条上面和线条下面的点一样多。
我们将在这个概念的基础上解决更复杂的情况。 这些情况包括点位于两个维度以上,甚至有些点的关系似乎是非线性的。
线性回归一般用于预测定量响应(Y 轴上的值)。 响应依赖于一个或多个预测因子(一个或多个与 $Y$ 正交的轴上的值,通常统称为 $X$)。
工作假设是,预测因子和响应之间的关系或多或少是线性的。 线性回归的目标是以最好的方式拟合一条直线,以最小化我们在数据集中观察到的响应与我们的直线(线性近似)预测的响应之间的偏差。
如何判断线条为最佳拟合? 评估曲线拟合(模型)与数据之间的误差的最常用方法称为最小二乘法。 该方法为,求预测值(线条)与实际值(数据)之间的差值的平方,然后将整个数据集的所有这些差值平方求和,最后将总和最小化。
学习目标
在此模块中,你将:
- 了解如何拟合线性回归模型
- 熟悉如何解释线性回归模型的输出
先决条件
- Python 简介
- 面向 Python 开发人员的入门级数据科学
- 联接和清理数据集:深入了解
设置环境
建议设置你的环境,以便可以在此模块中继续并有效地学习。
完成以下步骤来设置环境:
- 下载并安装 Visual Studio Code。 此工具免费,适用于 Windows、Mac 和 Linux。 选择适合你的平台的稳定版本。
- 下载并安装适用于 Visual Studio Code 的 Python 扩展。 此操作的第一步是安装受支持的 Python 版本。
- 激活 Anaconda 环境,以便能够运行 Jupyter Notebook。
- 设置数据科学环境,以便能够使用 NumPy 和 Pandas。
测试环境
如果已使用 VS Code、Python、Anaconda 以及 NumPy 和 Pandas 库成功设置环境,则应该能够在 VS Code 内运行 Jupyter Notebook。
- 克隆 Reactor 存储库并在 VS Code 中打开与此模块对应的文件夹。
- 运行 Test-Setup-Config.ipynb 文件,确保已准备好继续完成本模块。
完成此学习模块
学习本模块时,鼓励试用代码。 使用克隆的文件执行此操作。
Jupyter Notebook 分成多个单元格。 每个单元格都包含使用 Markdown 标记语言编写的文本或用于写入和执行计算机代码的空间。 由于所有代码都在代码单元格内,因此可以内联运行每个代码单元格,而不是使用单独的 Python 交互式窗口。
注意
本学习模块可让你逐一运行各个代码单元格。 完成这些模块时,建议将代码片段复制到 VS Code Jupyter Notebook,并一次运行一个单元格。