rxLogisticRegression:逻辑回归

机器学习逻辑回归

用法

  rxLogisticRegression(formula = NULL, data, type = c("binary", "multiClass"),
    l2Weight = 1, l1Weight = 1, optTol = 1e-07, memorySize = 20,
    initWtsScale = 0, maxIterations = 2147483647, showTrainingStats = FALSE,
    sgdInitTol = 0, trainThreads = NULL, denseOptimizer = FALSE,
    normalize = "auto", mlTransforms = NULL, mlTransformVars = NULL,
    rowSelection = NULL, transforms = NULL, transformObjects = NULL,
    transformFunc = NULL, transformVars = NULL, transformPackages = NULL,
    transformEnvir = NULL, blocksPerRead = rxGetOption("blocksPerRead"),
    reportProgress = rxGetOption("reportProgress"), verbose = 1,
    computeContext = rxGetOption("computeContext"),
    ensemble = ensembleControl(), ...)

参数

formula

rxFormula 中描述的公式。 MicrosoftML 目前不支持交互项和 F()

data

指定 .xdf 文件或数据帧对象的数据源对象或字符串。

type

指定逻辑回归类型的字符串:"binary" 用于默认二元分类逻辑回归,而 "multi" 用于多元逻辑回归。

l2Weight

L2 正则化权重。 其值必须大于或等于 0,并且默认值设置为 1

l1Weight

L1 正则化权重。 其值必须大于或等于 0,并且默认值设置为 1

optTol

优化器收敛的阈值。 如果迭代间的改进小于阈值,则算法将停止并返回当前模型。 值越小,收敛速度越慢,但准确性越高。 默认值是 1e-07

memorySize

L-BFGS 的内存大小,用于指定存储以用于计算下一个步长的过去位置和梯度的数量。 此优化参数限制用于计算下一个步长的幅度和方向的内存量。 指定的内存越少,训练越快,但准确性越低。 必须大于或等于 1,并且默认值为 20

initWtsScale

设置初始权重直径,该直径指定为初始权重采用的值范围。 这些权重在此范围内随机初始化。 例如,如果将直径指定为 d,则权重在 -d/2d/2 之间均匀分布。 默认值为 0,它指定将所有权重都初始化为 0

maxIterations

设置最大迭代次数。 在此步长数之后,即使算法没有达到收敛标准,它也会停止。

showTrainingStats

如果要显示训练数据和训练模型的统计信息,请指定为 TRUE;否则指定为 FALSE。 默认值是 FALSE。 有关模型统计信息的其他信息,请参阅 summary.mlModel

sgdInitTol

如果要使用随机梯度下降 (SGD) 来查找初始参数,请设置为大于 0 的数字。 非零值集指定 SGD 用于确定收敛的容差。 默认值为 0,用于指定不使用 SGD。

trainThreads

用于训练模型的线程数。 该参数应设置为计算机上的内核数。 请注意,L-BFGS 多线程尝试将数据集加载到内存中。 如果出现内存不足问题,请将 trainThreads 设置为 1 以关闭多线程。 如果为 NULL,则要使用的线程数在内部确定。 默认值是 NULL

denseOptimizer

如果设置为 TRUE,则强制内部优化向量的致密化。 如果设置为 FALSE,则可让逻辑回归优化器使用它认为合适的稀疏或密集内部状态。 如果将 denseOptimizer 设置为 TRUE,则要求内部优化器使用密集内部状态,这可能有助于减轻垃圾回收器的负载,以应对一些较大的问题。

normalize

指定使用的自动规范化类型:

  • "auto":如果需要规范化,则会自动执行。 这是默认选项。
  • "no":不执行任何规范化。
  • "yes":执行规范化。
  • "warn":如果需要规范化,则会显示一条警告消息,但不执行规范化。
    规范化将不同的数据范围重新缩放为标准规模。 特征缩放可确保数据点之间的距离成比例,使各种优化方法(如梯度下降)的收敛速度更快。 如果执行规范化,则使用 MaxMin 规范化程序。 它对区间 [a, b] 中的值进行规范化,其中 -1 <= a <= 00 <= b <= 1 并且 b - a = 1。 此规范化程序通过将 0 映射到 0 来保持稀疏度。

mlTransforms

指定在训练前要对数据执行的 MicrosoftML 转换的列表;如果不需要执行任何转换,则指定为 NULL。 有关支持的转换,请参阅 featurizeTextcategoricalcategoricalHash。 这些转换在任何指定的 R 转换之后执行。 默认值是 NULL

mlTransformVars

指定要在 mlTransforms 中使用的变量名称的字符向量;如果不使用任何变量名称,则指定为 NULL。 默认值是 NULL

rowSelection

使用数据集中的逻辑变量名称(带引号)或通过使用数据集中的变量的逻辑表达式指定模型要使用的数据集中的行(观察值)。 例如,rowSelection = "old" 将仅使用变量 old 的值为 TRUE 的观察值。 rowSelection = (age > 20) & (age < 65) & (log(income) > 10) 仅使用 age 变量值介于 20 和 65 之间且 income 变量的 log 值大于 10 的观察值。 在处理任何数据转换之后执行行选择(请参阅参数 transformstransformFunc)。 与所有表达式一样,可以使用表达式函数在函数调用之外定义 rowSelection

transforms

表示第一轮变量转换的窗体 list(name = expression, ``...) 的表达式。 与所有表达式一样,可以使用表达式函数在函数调用之外定义 transforms(或 rowSelection)。

transformObjects

一个命名列表,其中包含可由 transformstransformsFuncrowSelection 引用的对象。

transformFunc

变量转换函数。 有关详细信息,请参阅 rxTransform。

transformVars

转换函数所需的输入数据集变量的字符向量。 有关详细信息,请参阅 rxTransform。

transformPackages

一个字符向量,用于指定将提供和预加载以在变量转换函数中使用的附加 R 包(在 rxGetOption("transformPackages") 中指定的包之外)。 例如,在 RevoScaleR 函数中通过 transformstransformFunc 参数显式定义的那些包,或者通过 formularowSelection 参数隐式定义的包。 transformPackages 参数也可能为 NULL,表示未预加载 rxGetOption("transformPackages") 以外的包。

transformEnvir

用户定义环境,充当内部开发并用于变量数据转换的所有环境的父级。 如果为 transformEnvir = NULL,则改用具有父级 baseenv() 的新“哈希”环境。

blocksPerRead

为从数据源读取的每个数据块指定要读取的块数。

reportProgress

一个整数值,指定行处理进度的报告级别:

  • 0:不报告进度。
  • 1:打印并更新已处理的行数。
  • 2:报告已处理的行数和计时。
  • 3:报告已处理的行数和所有计时。

verbose

一个整数值,指定需要的输出量。 如果为 0,则计算期间不会打印详细输出。 从 14 的整数值表示提供的信息量逐步增加。

computeContext

设置执行计算的上下文,使用有效的 RxComputeContext 指定。 目前支持本地和 RxInSqlServer 计算上下文。

ensemble

控制用于集成的参数。

...

要直接传递到 Microsoft 计算引擎的其他参数。

详细信息

逻辑回归是一种分类方法,用于根据分类因变量与具有逻辑分布的一个或多个自变量的关系来预测其值。 如果因变量仅有两个可能的值(成功/失败),则逻辑回归是二元的。 如果因变量有两个以上的可能值(血型给定诊断测试结果),则逻辑回归是多元的。

用于 rxLogisticRegression 的优化技术是有限内存 Broyden-Fletcher-Goldfarb-Shanno (L-BFGS)。 L-BFGS 和常规 BFGS 算法均使用拟牛顿法来估算方程(牛顿法使用该方程计算步长)中需要大量计算的黑塞矩阵。 但是 L-BFGS 近似法仅使用有限的内存来计算下一个步长方向,因此它特别适用于关于大量变量的问题。 memorySize 参数指定要存储以用于计算下一个步长的过去位置和梯度的数量。

该学习器可以使用弹性网络正则化:L1 (lasso) 和 L2 (ridge) 正则化的线性组合。 正则化是一种方法,可以通过施加约束来提供信息以补充数据,并通过惩罚具有极端系数值的模型来防止过度拟合,从而更容易地处理不适定问题。 这可以通过在偏差-方差权衡中选择最佳复杂度来提高学习模型的泛化能力。 正则化的工作原理是将与系数值相关联的处罚添加到假设的错误。 具有极端系数值的准确模型受到的处罚相较而言更大,而值更保守的不准确的模型受到的处罚相较而言更小。 L1 和 L2 正则化的效果和用途均不同,但在某些方面是互补的。

l1Weight:在处理高维数据时可应用于稀疏模型。 它使不太重要的小权重关联特征趋近于 0。

l2Weight:适用于不稀疏的数据。 它使大权重趋近于 0。

在正则化中加入 ridge 惩罚可以克服某些 lasso
限制。 它可以提高其预测准确性,例如,当预测器数大于示例大小时。 如果 x = l1Weighty = l2Weight,则 ax + by = c 定义正则化术语的线性跨度。 x 和 y 的默认值均为 1。 主动正则化将重要变量排除在模型之外,可能会影响预测能力。 因此,选择正则化参数的最优值对逻辑回归模型的性能非常重要。

rxLogisticRegression:具有已训练模型的 rxLogisticRegression 对象。

LogisticReg:逻辑回归训练程序的 maml 类的学习器规范对象。

备注

该算法尝试在 trainThreads > 1(多线程)时将整个数据集加载到内存中。

作者

Microsoft Corporation Microsoft Technical Support

参考

Wikipedia: L-BFGS

regression

Training of L1-Regularized Log-Linear Models

and L2 Regularization for Machine Learning

另请参阅

rxFastTreesrxFastForestrxFastLinearrxNeuralNetrxOneClassSvmfeaturizeTextcategoricalcategoricalHashrxPredict.mlModel

示例


 # Estimate a logistic regression model
 logitModel <- rxLogisticRegression(isCase ~ age + parity + education + spontaneous + induced,
                   transforms = list(isCase = case == 1),
                   data = infert)
 # Print a summary of the model
 summary(logitModel)

 # Score to a data frame
 scoreDF <- rxPredict(logitModel, data = infert, 
     extraVarsToWrite = "isCase")

 # Compute and plot the Radio Operator Curve and AUC
 roc1 <- rxRoc(actualVarName = "isCase", predVarNames = "Probability", data = scoreDF) 
 plot(roc1)
 rxAuc(roc1)

 #######################################################################################
 # Multi-class logistic regression  
 testObs <- rnorm(nrow(iris)) > 0
 testIris <- iris[testObs,]
 trainIris <- iris[!testObs,]
 multiLogit <- rxLogisticRegression(
     formula = Species~Sepal.Length + Sepal.Width + Petal.Length + Petal.Width,
     type = "multiClass", data = trainIris)

 # Score the model
 scoreMultiDF <- rxPredict(multiLogit, data = testIris, 
     extraVarsToWrite = "Species")    
 # Print the first rows of the data frame with scores
 head(scoreMultiDF)
 # Look at confusion matrix
 table(scoreMultiDF$Species, scoreMultiDF$PredictedLabel)

 # Look at the observations with incorrect predictions
 badPrediction = scoreMultiDF$Species != scoreMultiDF$PredictedLabel
 scoreMultiDF[badPrediction,]