fastTrees:fastTrees
创建一个包含函数名称和参数的列表,以使用 rxEnsemble 训练 FastTree 模型。
用法
fastTrees(numTrees = 100, numLeaves = 20, learningRate = 0.2,
minSplit = 10, exampleFraction = 0.7, featureFraction = 1,
splitFraction = 1, numBins = 255, firstUsePenalty = 0,
gainConfLevel = 0, unbalancedSets = FALSE, trainThreads = 8,
randomSeed = NULL, ...)
参数
numTrees
指定要在系综中创建的决策树总数。 通过创建更多决策树,你可能会获得更好的覆盖范围,但训练时间将会增加。 默认值为 100。
numLeaves
可以在任何树中创建的最大叶(终端节点)数。 较高的值可能会增加树的大小并提供较高的准确性,但存在过度拟合和需要更长训练时间的风险。 默认值为 20。
learningRate
确定在学习过程的每一步中在梯度方向上所采取的步长大小。 这决定了学习器在最佳解决方案上的收敛速度快慢。 如果步幅太大,则可能会越过最优解。 如果步长太小,训练需要较长的时间才能收敛到最佳解决方案。
minSplit
形成叶所需的最小训练实例数。 即回归树的叶中允许的最小文档数(子采样数据中)。 “拆分”意味着对树(节点)的每个级别的特征进行随机划分。 默认值为 10。 即使对实例进行了加权,也只计算实例数。
exampleFraction
每棵树使用的随机选择实例的分数。 默认值为 0.7。
featureFraction
每棵树使用的随机选择特征的分数。 默认值为 1。
splitFraction
每个拆分使用的随机选择特征的分数。 默认值为 1。
numBins
每个特征的最大不同值(箱)数。 如果特征的值少于指示的数量,则每个值都放置在自己的箱中。 如果有更多值,则算法会创建 numBins
个箱。
firstUsePenalty
该特征首先使用惩罚系数。 这是一种正则化形式,在创建树时会因使用新特征而受到惩罚。 增加此值以创建不使用许多特征的树。 默认值为 0。
gainConfLevel
树拟合增益置信度要求(应在 [0,1) 范围内)。 默认值为 0。
unbalancedSets
如果为 TRUE
,则使用针对非均衡集优化的导数。 仅当 type
等于 "binary"
时适用。 默认值是 FALSE
。
trainThreads
训练中使用的线程数。 默认值为 8。
randomSeed
指定随机种子。 默认值是 NULL
。
...
其他参数。