Microsoft线性回归算法是Microsoft决策树算法的变体,可帮助计算从属变量和独立变量之间的线性关系,然后使用该关系进行预测。
该关系采用公式的形式表示最能表示一系列数据的线条。 例如,下图中的线条是数据的最佳线性表示形式。
关系图中的每个数据点都有一个与其与回归线距离相关的错误。 回归公式中的系数 a 和 b 调整回归线的角度和位置。 可以通过调整 a 和 b 来获取回归公式,直到与所有点关联的误差总和达到其最小值。
还有其他类型的回归使用多个变量,以及非线性回归方法。 但是,线性回归是一种有用的已知方法,用于对某些基础因素的更改的响应进行建模。
示例:
可以使用线性回归来确定两个连续列之间的关系。 例如,可以使用线性回归从制造或销售数据计算趋势线。 还可以使用线性回归作为开发更复杂的数据挖掘模型的前身,以评估数据列之间的关系。
尽管计算不需要数据挖掘工具的线性回归有多种方法,但使用此任务的Microsoft线性回归算法的优点是,变量之间的所有可能关系都会自动计算和测试。 无需选择计算方法,例如求解最小平方。 但是,在多个因素影响结果的情况下,线性回归可能会过度简化关系。
算法的工作原理
Microsoft线性回归算法是Microsoft决策树算法的变体。 选择Microsoft线性回归算法时,将调用Microsoft决策树算法的特殊情况,其中包含约束算法行为并要求某些输入数据类型的参数。 此外,在线性回归模型中,整个数据集用于在初始传递中计算关系,而标准决策树模型会将数据重复拆分为较小的子集或树。
线性回归模型所需的数据
准备要在线性回归模型中使用的数据时,应了解特定算法的要求。 这包括需要多少数据以及如何使用数据。 此模型类型的要求如下所示:
单个键列 每个模型必须包含一个唯一标识每个记录的数字或文本列。 不允许使用复合键。
可预测列 至少需要一个可预测列。 可以在模型中包括多个可预测属性,但可预测属性必须是连续数值数据类型。 即使数据的本机存储为数值,也不能将日期/时间数据类型用作可预测属性。
输入列 输入列必须包含连续数值数据,并分配相应的数据类型。
有关详细信息,请参阅 Microsoft线性回归算法技术参考的“要求”部分。
查看线性回归模型
若要浏览模型,请使用 Microsoft树查看器。 线性回归模型的树结构非常简单,其中包含单个节点中包含的回归公式的所有信息。 有关详细信息,请参阅 使用Microsoft树查看器浏览模型。
若要了解有关公式的更多详细信息,还可以使用 Microsoft泛型内容树查看器查看系数和其他详细信息。
对于线性回归模型,模型内容包括元数据、回归公式和有关输入值的分布的统计信息。 有关详细信息,请参阅线性回归模型的挖掘模型内容(Analysis Services - 数据挖掘)。
创建预测
处理模型后,结果将存储为一组统计信息以及线性回归公式,可用于计算未来趋势。 有关与线性回归模型一起使用的查询示例,请参阅 线性回归模型查询示例。
有关如何针对挖掘模型创建查询的一般信息,请参阅 数据挖掘查询。
除了通过选择Microsoft线性回归算法来创建线性回归模型,如果可预测属性是连续数值数据类型,还可以创建包含回归的决策树模型。 在这种情况下,当算法找到适当的分隔点时,该算法将拆分数据,但对于某些数据区域,将改为创建回归公式。 有关决策树模型中的回归树的详细信息,请参阅决策树模型的挖掘模型内容(Analysis Services - 数据挖掘)。
注解
不支持使用预测模型标记语言(PMML)来创建挖掘模型。
不支持创建数据挖掘维度。
支持钻取。
支持使用 OLAP 挖掘模型。
另请参阅
数据挖掘算法(Analysis Services - 数据挖掘)Microsoft线性回归算法技术参考线性回归模型查询示例线性回归模型的挖掘模型内容(Analysis Services - 数据挖掘)