本主题介绍特定于使用Microsoft线性回归算法的模型的挖掘模型内容。 有关所有模型类型的挖掘模型内容的一般说明,请参阅挖掘模型内容(Analysis Services - 数据挖掘)。
了解线性回归模型的结构
线性回归模型具有极其简单的结构。 每个模型都有一个表示模型及其元数据的父节点,以及一个回归树节点(NODE_TYPE = 25),其中包含每个可预测属性的回归公式。
线性回归模型使用与Microsoft决策树相同的算法,但不同的参数用于约束树,并且仅接受连续属性作为输入。 但是,由于线性回归模型基于Microsoft决策树算法,因此使用Microsoft决策树查看器显示线性回归模型。 有关信息,请参阅 使用Microsoft树查看器浏览模型。
下一部分介绍如何解释回归公式节点中的信息。 此信息不仅适用于线性回归模型,也适用于包含树部分回归的决策树模型。
线性回归模型的模型内容
本部分仅针对挖掘模型内容中与线性回归具有特定相关性的列提供详细信息和示例。
有关于架构行集中的通用列的信息,请参阅挖掘模型内容(Analysis Services - 数据挖掘)。
模型目录
存储模型的数据库的名称。
MODEL_NAME
模型的名称。
属性名称
根节点: 空白
回归节点: 可预测属性的名称。
NODE_NAME
始终与NODE_UNIQUE_NAME相同。
节点_唯一_名称 (NODE_UNIQUE_NAME)
模型中节点的唯一标识符。 此值不能更改。
节点类型
线性回归模型输出以下节点类型:
节点类型 ID | 类型 | DESCRIPTION |
---|---|---|
二十五 | 回归树的根节点 | 包含描述输入和输出变量之间的关系的公式。 |
节点标题
与节点关联的标签或标题。 此属性主要用于显示目的。
根节点: 空白
回归节点: 全部。
儿童基数
估计节点具有的子级数。
根节点: 指示回归节点数。 为模型中的每个可预测属性创建一个回归节点。
回归节点: 始终为 0。
父级唯一名称
节点父级的唯一名称。 根级别的任何节点都返回 NULL。
节点描述
节点的说明。
根节点: 空白
回归节点: 全部。
节点规则
不用于线性回归模型。
边际规则
不用于线性回归模型。
节点概率
与此节点关联的概率。
根节点: 0
回归节点: 1
边际概率
从父节点到达节点的概率。
根节点: 0
回归节点: 1
节点分布
一个嵌套表,提供有关节点中值的统计信息。
根节点: 0
回归节点: 包含用于生成回归公式的元素的表。 回归节点包含以下值类型:
值类型 |
---|
1 (缺失) |
3 (连续) |
7 (系数) |
8 (得分增益) |
9 (统计信息) |
11 (截距) |
节点支持
支持此节点的事例数。
根节点: 0
回归节点: 训练样本计数。
MSOLAP_MODEL_COLUMN
可预测属性的名称。
MSOLAP节点评分
与NODE_PROBABILITY相同
MSOLAP_NODE_SHORT_CAPTION
用于显示目的的标签。
注解
使用Microsoft线性回归算法创建模型时,数据挖掘引擎将创建决策树模型的特殊实例,并提供参数来约束树以包含单个节点中的所有训练数据。 所有连续输入都会被标记为潜在的回归器,但只有适合数据的回归器才会在最终模型中保留为回归器。 分析为每个回归器生成单个回归公式,或者根本不生成回归公式。
您可以通过在Microsoft树查看器中单击“全部”节点查看挖掘图例中的完整回归公式。
此外,创建包含连续可预测属性的决策树模型时,有时树具有共享回归树节点属性的回归节点。
连续属性的节点分布
回归节点中的大多数重要信息都包含在NODE_DISTRIBUTION表中。 以下示例演示NODE_DISTRIBUTION表的布局。 在此示例中,目标邮件挖掘结构已用于创建一个线性回归模型,用于根据年龄预测客户收入。 该模型仅用于演示,因为它可以使用现有的 AdventureWorks2012 示例数据和挖掘结构轻松生成。
属性名称 | 属性值 | Support | 概率 | 方差 | 值类型 |
---|---|---|---|---|---|
年收入 | 失踪 | 0 | 0.000457142857142857 | 0 | 1 |
年收入 | 57220.8876687257 | 17484 | 0.999542857142857 | 1041275619.52776 | 3 |
年龄 | 471.687717702463 | 0 | 0 | 126.969442359327 | 7 |
年龄 | 234.680904692439 | 0 | 0 | 0 | 8 |
年龄 | 45.4269617936399 | 0 | 0 | 126.969442359327 | 9 |
35793.5477381267 | 0 | 0 | 1012968919.28372 | 11 |
NODE_DISTRIBUTION表包含多个行,每个行按变量分组。 前两行始终是值类型 1 和 3,并描述目标属性。 后续行提供有关特定回归器公式的详细信息。 回归器是与输出变量具有线性关系的输入变量。 可以有多个回归器,每个回归器将具有系数(VALUETYPE = 7)、分数增益(VALUETYPE = 8)和统计信息(VALUETYPE = 9)的单独行。 最后,该表有一行,其中包含方程的截距(VALUETYPE = 11)。
回归公式的元素
嵌套的NODE_DISTRIBUTION表包含回归公式的每个元素,每个元素占据一个单独的行。 示例结果中的前两行数据包含有关可预测属性 Yearly Income 的信息,该属性对依赖变量进行建模。 SUPPORT 列显示支持此属性的两种状态的案例计数:年收入 值可用,或者 年收入 值缺失。
VARIANCE 列指示可预测属性的计算方差。 方差 是一种用于测量值在样本中分散程度的指标,基于预期分布。 此处的方差是通过取平方偏差与平均值的平均值来计算的。 方差的平方根也称为标准偏差。 Analysis Services 不提供标准偏差,但可以轻松计算它。
对于每个回归器,输出三行。 它们包含系数、分数增益和回归数统计信息。
最后,该表包含一行,该行提供公式的截距。
系数
对于每个回归量,将计算系数(VALUETYPE = 7)。 系数本身将显示在ATTRIBUTE_VALUE列中,而 VARIANCE 列会告诉你系数的方差。 将计算系数,以便最大化线性度。
得分增加
每个回归器的评分增益(VALUETYPE = 8)表示属性的趣味性评分。 可以使用此值来估计多个回归器的有用性。
统计学
回归器统计信息 (VALUETYPE = 9) 是具有值的事例的属性的平均值。 ATTRIBUTE_VALUE列包含平均值本身,而 VARIANCE 列包含与平均值的偏差之和。
拦截
通常,回归公式中的 截距 (VALUETYPE = 11)或 残差 会告诉你可预测属性的值(输入属性为 0)。 在许多情况下,这可能不会发生,并可能导致适得其反的结果。
例如,在预测基于年龄的收入的模型中,在 0 岁时学习收入是毫无用处的。 在现实生活中,了解线相对于平均值的行为通常更有用。 因此,SQL Server Analysis Services 修改截距,以表示每个回归器与平均值之间的关系。
此调整难以在挖掘模型内容中看到,但如果在Microsoft树查看器的挖掘图例中查看已完成的公式,则很明显。 回归公式从 0 点移动到表示平均值的点。 这呈现了一种因当前数据而更直观的观点。
因此,假设平均年龄在 45 岁左右,回归公式的截距(VALUETYPE = 11)会告诉你平均收入。
另请参阅
挖掘模型内容(Analysis Services - 数据挖掘)
Microsoft线性回归算法
Microsoft线性回归算法技术参考
线性回归模型查询示例