fastTrees: fastTrees
Создает список, содержащий имя функции и аргументы, для обучения модели FastTrees с rxEnsemble.
Использование
fastTrees(numTrees = 100, numLeaves = 20, learningRate = 0.2,
minSplit = 10, exampleFraction = 0.7, featureFraction = 1,
splitFraction = 1, numBins = 255, firstUsePenalty = 0,
gainConfLevel = 0, unbalancedSets = FALSE, trainThreads = 8,
randomSeed = NULL, ...)
Аргументы
numTrees
Указывает общее число создаваемых в совокупности деревьев принятия решений. Создавая больше деревьев принятия решений, можно расширить покрытие, но время на обучение при этом увеличится. По умолчанию используется значение 100.
numLeaves
Максимальное число листовых узлов (терминальных узлов), которые могут быть созданы в любом дереве. Более высокие значения потенциально увеличивают размер дерева и обеспечивают повышенную точность, но при этом возникает риск лжевзаимосвязи и требуется больше времени на обучение. Значение по умолчанию — 20.
learningRate
Определяет размер шага, выполняемого в направлении градиента в каждом шаге процесса обучения. Определяет, насколько быстро или медленно выполняется схождение на оптимальном решении. Если размер шага слишком велик, вы можете выйти за пределы оптимального решения. Если размер шага слишком мал, обучение займет больше времени, чтобы прийти к наилучшему решению.
minSplit
Минимальное число обучающих экземпляров, необходимых для формирования листового узла. То есть минимальное число документов, разрешенных на листовом узле дерева регрессии, из данных подвыборки. Часть split означает, что признаки на каждом уровне дерева (узла) распределяются случайным образом. Значение по умолчанию — 10. Учитывается только число экземпляров, даже если они имеют разный вес.
exampleFraction
Доля случайно выбранных экземпляров, используемых для каждого дерева. Значение по умолчанию — 0,7.
featureFraction
Доля случайно выбранных признаков, используемых для каждого дерева. Значение по умолчанию — 1.
splitFraction
Доля случайно выбранных признаков, используемых для каждого разбиения. Значение по умолчанию — 1.
numBins
Максимальное число уникальных значений (интервалов) на признак. Если число значений признака меньше указанного числа, каждое значение помещается в собственный интервал. Если число значений больше этого числа, алгоритм создает numBins
интервалов.
firstUsePenalty
Признак, который первым использует штрафной коэффициент. Это форма регуляризации, которая получает штраф за использование новой функции при создании дерева. Увеличьте это значение, чтобы создать деревья, которые не используют большое число признаков. Значение по умолчанию — 0.
gainConfLevel
Соответствие дерева требованию к степени надежности (должно находиться в диапазоне [0, 1)). Значение по умолчанию — 0.
unbalancedSets
Если TRUE
, используются производные, оптимизированные для несбалансированных наборов. Применимо, только если значение type
равно "binary"
. Значение по умолчанию — FALSE
.
trainThreads
Число потоков для использования при обучении. Значение по умолчанию: 8.
randomSeed
Задает случайное начальное значение. Значение по умолчанию — NULL
.
...
Дополнительные аргументы.