Microsoft线性回归算法技术参考

Microsoft线性回归算法是Microsoft决策树算法的一种特殊版本,针对连续属性对的建模进行了优化。 本主题介绍算法的实现,介绍了如何自定义算法的行为,并提供有关查询模型的其他信息的链接。

线性回归算法的实现

Microsoft决策树算法可用于许多任务:线性回归、分类或关联分析。 为了实现此算法以实现线性回归,可以控制该算法的参数,以限制树的增长并将模型中的所有数据保存在单个节点中。 换句话说,尽管线性回归基于决策树,但树仅包含一个根,并且不包含任何分支:所有数据都驻留在根节点中。

为此,将算法的 MINIMUM_LEAF_CASES 参数设置为大于或等于算法用于训练挖掘模型的案例总数。 以这种方式设置参数时,算法永远不会创建拆分,因此会执行线性回归。

表示回归线的公式采用 y = ax + b 的一般形式,称为回归公式。 变量 Y 表示输出变量,X 表示输入变量,a 和 b 是可调整系数。 可以通过查询已完成的挖掘模型来检索有关回归公式的系数、截距和其他信息。 有关详细信息,请参阅 线性回归模型查询示例

评分方法和特征选择

所有 Analysis Services 数据挖掘算法都会自动使用特征选择来改进分析和减少处理负载。 在线性回归中用于特征选择的方法是趣味性评分,因为模型只支持连续数据列。 为了参考,下表显示了线性回归算法和决策树算法的特征选择差异。

算法 分析方法 注释
线性回归 有趣程度评分 违约。

决策树算法提供的其他特征选择方法仅适用于离散变量,因此不适用于线性回归模型。
决策树 有趣度评分

香农熵

贝伊西亚与 K2 Prior

贝叶斯·狄利克雷特模型(默认情况下使用均匀先验)
如果任何列包含非二进制连续值,则为确保一致性,所有列都会使用趣味性评分。 否则,将使用默认或指定的方法。

控制决策树模型特征选择的算法参数“MAXIMUM_INPUT_ATTRIBUTES”和“MAXIMUM_OUTPUT”。

自定义线性回归算法

Microsoft线性回归算法支持影响生成的挖掘模型的行为、性能和准确性的参数。 还可以对挖掘模型列或挖掘结构列设置建模标志,以控制数据的处理方式。

设置算法参数

下表列出了为Microsoft线性回归算法提供的参数。

参数 DESCRIPTION
最大输入属性 定义算法在调用功能选择之前可以处理的输入属性数。 将此值设置为 0 以关闭功能选择。

默认值为 255。
MAXIMUM_OUTPUT_ATTRIBUTES 定义算法在调用功能选择之前可以处理的输出属性数。 将此值设置为 0 以关闭功能选择。

默认值为 255。
FORCE_REGRESSOR 强制算法将指示列用作回归器,而不考虑算法计算的列的重要性。

建模标记

Microsoft线性回归算法支持以下建模标志。 创建挖掘结构或挖掘模型时,定义建模标志以指定在分析期间处理每个列中的值的方式。 有关详细信息,请参阅建模标志(数据挖掘)。

建模标志 DESCRIPTION
NOT NULL 指示该列不能包含 null。 如果 Analysis Services 在模型训练期间遇到 null,则会出现错误。

适用于数据挖掘结构列。
REGRESSOR 指示列包含连续数值,这些数值应在分析期间被视为潜在的独立变量。

注意:将列标记为回归量不确保该列将用作最终模型中的回归量。

适用于挖掘模型列。

线性回归模型中的回归器

线性回归模型基于Microsoft决策树算法。 但是,即使不使用Microsoft线性回归算法,任何决策树模型都可以包含表示连续特性回归的树或节点。

无需指定连续列表示回归器。 即使未在列上设置 REGRESSOR 标志,Microsoft决策树算法也会将数据集分区为具有有意义的模式的区域。 区别在于,当您设置建模标志时,算法将尝试查找形如 a*C1 + b*C2 + ... 的回归方程,以便拟合树节点中的模式。 计算残差的总和后,如果偏差太大,则强制将树进行拆分。

例如,如果要使用 Income 作为属性预测客户购买行为,并在列中设置 REGRESSOR 建模标志,该算法将首先尝试使用标准回归公式来适应 收入 值。 如果偏差太大,则放弃回归公式,树将在其他属性上拆分。 然后,决策树算法将尝试为拆分后每个分支中的收入拟合回归器。

可以使用 FORCED_REGRESSOR 参数来保证算法将使用特定的回归器。 此参数可与Microsoft决策树和Microsoft线性回归算法一起使用。

要求

线性回归模型必须包含键列、输入列和至少一个可预测列。

输入列和可预测列

Microsoft线性回归算法支持下表中列出的特定输入列和可预测列。 有关在挖掘模型中使用内容类型的含义的详细信息,请参阅内容类型(数据挖掘)。

内容类型
输入属性 连续、循环、关键、表和有序
可预测属性 连续、循环和有序

注释

支持CyclicalOrdered内容类型,但算法将它们视为离散值并且不执行特殊处理。

另请参阅

Microsoft线性回归算法
线性回归模型查询示例
线性回归模型的模型内容挖掘(Analysis Services - 数据挖掘)