Microsoft 逻辑回归算法

Microsoft 逻辑回归算法是 Microsoft 神经网络算法的变化形式,其中将 HIDDEN_NODE_RATIO 参数设置为 0。这样设置便可以创建不包含隐藏层的神经网络模型,从而使该神经网络模型与逻辑回归等效。

假定可预测列仅包含两种状态,但仍希望进行回归分析,以将输入列与可预测列包含特定状态的概率关联起来。下图展示了将可预测列的状态设置为 1 和 0,计算该列包含特定状态的概率以及对输入变量执行线性回归时将获得的结果。

未能使用线性回归正确建模的数据

X 轴表示输入列的值。Y 轴表示可预测列为某状态或其他状态的概率。此时的问题是,线性回归无法将该列限制在 0 和 1 之间,即使它们分别是该列的最小值和最大值。解决此问题的一种方法是进行逻辑回归。逻辑回归将创建一条包含最大和最小约束的 S 形曲线,而不是一条直线。下图展示的是对上例中的数据进行逻辑回归后得到的结果。

使用逻辑回归建模的数据

请注意这条曲线的走向使其未超出由 1 和 0 确定的边界。可以使用逻辑回归来说明在确定可预测列状态时输入列的重要程度。

使用算法

使用 Microsoft 神经网络查看器可浏览线性回归挖掘模型。

逻辑回归模型必须包含一个键列、一个或多个输入列以及一个或多个可预测列。

Microsoft 逻辑回归算法支持特定的输入列内容类型、可预测列内容类型和建模标志,如下表所示。

输入列内容类型

Continuous、Cyclical、Discrete、Discretized、Key、Table 和 Ordered

可预测列内容类型

Continuous、Cyclical、Discrete、Discretized 和 Ordered

建模标志

MODEL_EXISTENCE_ONLY 和 NOT NULL

所有 Microsoft 算法均支持一些通用的函数。但是,Microsoft 逻辑回归算法还支持其他函数,如下表所示。

IsDescendant

PredictStdev

PredictAdjustedProbability

PredictSupport

PredictHistogram

PredictVariance

PredictProbability

   

有关对所有 Microsoft 算法都通用的函数列表,请参阅数据挖掘算法。有关如何使用这些函数的详细信息,请参阅数据挖掘扩展插件 (DMX) 函数参考

使用 Microsoft 逻辑回归算法的模型不支持钻取和数据挖掘维度,因为挖掘模型中节点的结构不一定直接与基础数据对应。

Microsoft 逻辑回归算法支持对所生成挖掘模型的性能和精度有影响的若干参数。下表对各参数进行了说明:

参数 说明

HOLDOUT_PERCENTAGE

指定在用于计算维持错误的定型数据中事例所占的百分比。在对挖掘模型定型时,HOLDOUT_PERCENTAGE 被用作停止条件的一部分。

默认值为 30。

HOLDOUT_SEED

指定一个数字,以在随机确定维持数据时作为伪随机生成器的种子。如果将 HOLDOUT_SEED 设置为 0,则算法将根据挖掘模型的名称生成种子,以保证模型内容在重新处理的过程中保持不变。

默认值为 0。

MAXIMUM_INPUT_ATTRIBUTES

定义算法在调用功能选择之前可以处理的输入属性数。如果将此值设置为 0,则表示关闭功能选择。

默认值为 255。

MAXIMUM_OUTPUT_ATTRIBUTES

定义算法在调用功能选择之前可以处理的输出属性数。如果将此值设置为 0,则表示关闭功能选择。

默认值为 255。

MAXIMUM_STATES

指定算法支持的最大属性状态数。 如果属性的状态数大于该最大状态数,算法将使用该属性的最常见状态,同时忽略剩余状态。

默认值为 100。

SAMPLE_SIZE

指定用来给模型定型的事例数。算法提供程序将使用该数字或不包含在由 HOLDOUT_PERCENTAGE 参数指定的维持百分比中的总的事例百分比,取两者中较小值。

换言之,如果将 HOLDOUT_PERCENTAGE 设置为 30,则算法将使用该参数的值或等于实例总数百分之七十的值,取两者中较小值。

默认值为 10000。

请参阅

概念

数据挖掘算法
数据挖掘中的功能选择
使用数据挖掘工具
使用 Microsoft 神经网络查看器查看挖掘模型

其他资源

CREATE MINING MODEL (DMX)

帮助和信息

获取 SQL Server 2005 帮助