Поделиться через


fastTrees: fastTrees

Создает список, содержащий имя функции и аргументы, для обучения модели FastTrees с rxEnsemble.

Использование

  fastTrees(numTrees = 100, numLeaves = 20, learningRate = 0.2,
    minSplit = 10, exampleFraction = 0.7, featureFraction = 1,
    splitFraction = 1, numBins = 255, firstUsePenalty = 0,
    gainConfLevel = 0, unbalancedSets = FALSE, trainThreads = 8,
    randomSeed = NULL, ...)
 

Аргументы

numTrees

Указывает общее число создаваемых в совокупности деревьев принятия решений. Создавая больше деревьев принятия решений, можно расширить покрытие, но время на обучение при этом увеличится. По умолчанию используется значение 100.

numLeaves

Максимальное число листовых узлов (терминальных узлов), которые могут быть созданы в любом дереве. Более высокие значения потенциально увеличивают размер дерева и обеспечивают повышенную точность, но при этом возникает риск лжевзаимосвязи и требуется больше времени на обучение. Значение по умолчанию — 20.

learningRate

Определяет размер шага, выполняемого в направлении градиента в каждом шаге процесса обучения. Определяет, насколько быстро или медленно выполняется схождение на оптимальном решении. Если размер шага слишком велик, вы можете выйти за пределы оптимального решения. Если размер шага слишком мал, обучение займет больше времени, чтобы прийти к наилучшему решению.

minSplit

Минимальное число обучающих экземпляров, необходимых для формирования листового узла. То есть минимальное число документов, разрешенных на листовом узле дерева регрессии, из данных подвыборки. Часть split означает, что признаки на каждом уровне дерева (узла) распределяются случайным образом. Значение по умолчанию — 10. Учитывается только число экземпляров, даже если они имеют разный вес.

exampleFraction

Доля случайно выбранных экземпляров, используемых для каждого дерева. Значение по умолчанию — 0,7.

featureFraction

Доля случайно выбранных признаков, используемых для каждого дерева. Значение по умолчанию — 1.

splitFraction

Доля случайно выбранных признаков, используемых для каждого разбиения. Значение по умолчанию — 1.

numBins

Максимальное число уникальных значений (интервалов) на признак. Если число значений признака меньше указанного числа, каждое значение помещается в собственный интервал. Если число значений больше этого числа, алгоритм создает numBins интервалов.

firstUsePenalty

Признак, который первым использует штрафной коэффициент. Это форма регуляризации, которая получает штраф за использование новой функции при создании дерева. Увеличьте это значение, чтобы создать деревья, которые не используют большое число признаков. Значение по умолчанию — 0.

gainConfLevel

Соответствие дерева требованию к степени надежности (должно находиться в диапазоне [0, 1)). Значение по умолчанию — 0.

unbalancedSets

Если TRUE, используются производные, оптимизированные для несбалансированных наборов. Применимо, только если значение type равно "binary". Значение по умолчанию — FALSE.

trainThreads

Число потоков для использования при обучении. Значение по умолчанию: 8.

randomSeed

Задает случайное начальное значение. Значение по умолчанию — NULL.

...

Дополнительные аргументы.