简介

到目前为止，我们基本上只研究了机器学习分类技术。通过线性回归，我们将了解机器学习中最重要的预测算法之一。

线性回归的本质其实是机器学习的一种简单形式：连接各点绘制一条线。你可能在高中物理课上做过这样的事情：在方格纸上绘制一组实验结果，然后画一条线，让它连接尽可能多的点。在这种类型的图中，当无法用线条连接这些点时，就要尽可能让线条上面和线条下面的点一样多。

我们将在这个概念的基础上解决更复杂的情况。这些情况包括点位于两个维度以上，甚至有些点的关系似乎是非线性的。

线性回归一般用于预测定量响应（Y 轴上的值）。响应依赖于一个或多个预测因子（一个或多个与 $Y$ 正交的轴上的值，通常统称为 $X$）。

工作假设是，预测因子和响应之间的关系或多或少是线性的。线性回归的目标是以最好的方式拟合一条直线，以最小化我们在数据集中观察到的响应与我们的直线（线性近似）预测的响应之间的偏差。

如何判断线条为最佳拟合？评估曲线拟合（模型）与数据之间的误差的最常用方法称为最小二乘法。该方法为，求预测值（线条）与实际值（数据）之间的差值的平方，然后将整个数据集的所有这些差值平方求和，最后将总和最小化。

学习目标

在此模块中，你将：

建议设置你的环境，以便可以在此模块中继续并有效地学习。

完成以下步骤来设置环境：

如果已使用 VS Code、Python、Anaconda 以及 NumPy 和 Pandas 库成功设置环境，则应该能够在 VS Code 内运行 Jupyter Notebook。

学习本模块时，鼓励试用代码。使用克隆的文件执行此操作。

Jupyter Notebook 分成多个单元格。每个单元格都包含使用 Markdown 标记语言编写的文本或用于写入和执行计算机代码的空间。由于所有代码都在代码单元格内，因此可以内联运行每个代码单元格，而不是使用单独的 Python 交互式窗口。

注意

本学习模块可让你逐一运行各个代码单元格。完成这些模块时，建议将代码片段复制到 VS Code Jupyter Notebook，并一次运行一个单元格。

此页面是否有帮助？