selectFeatures: transformación de selección de características de Machine Learning
La transformación de selección de características selecciona características de las variables especificadas mediante el modo especificado.
Uso
selectFeatures(vars, mode, ...)
Argumentos
vars
Una fórmula o un vector o lista de cadenas que especifica el nombre de las variables en las que se realiza la selección de características, si el modo es minCount(). Por ejemplo, ~ var1 + var2 + var3
. Si el modo es mutualInformation(), una fórmula o una lista con nombre de cadenas que describe la variable dependiente y las variables independientes. Por ejemplo, label ~ ``var1 + var2 + var3
.
mode
Especifica el modo de selección de características. Puede ser minCount o mutualInformation.
...
Argumentos adicionales que se pasarán directamente al motor de proceso de Microsoft.
Detalles
La transformación de selección de características selecciona características de las variables especificadas mediante uno de los dos modos: recuento o información mutua. Para más información, consulte minCount y mutualInformation.
Value
Un objeto maml
que define la transformación.
Consulte también
Ejemplos
trainReviews <- data.frame(review = c(
"This is great",
"I hate it",
"Love it",
"Do not like it",
"Really like it",
"I hate it",
"I like it a lot",
"I kind of hate it",
"I do like it",
"I really hate it",
"It is very good",
"I hate it a bunch",
"I love it a bunch",
"I hate it",
"I like it very much",
"I hate it very much.",
"I really do love it",
"I really do hate it",
"Love it!",
"Hate it!",
"I love it",
"I hate it",
"I love it",
"I hate it",
"I love it"),
like = c(TRUE, FALSE, TRUE, FALSE, TRUE,
FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
FALSE, TRUE, FALSE, TRUE), stringsAsFactors = FALSE
)
testReviews <- data.frame(review = c(
"This is great",
"I hate it",
"Love it",
"Really like it",
"I hate it",
"I like it a lot",
"I love it",
"I do like it",
"I really hate it",
"I love it"), stringsAsFactors = FALSE)
# Use a categorical hash transform which generated 128 features.
outModel1 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0,
mlTransforms = list(categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7)))
summary(outModel1)
# Apply a categorical hash transform and a count feature selection transform
# which selects only those hash slots that has value.
outModel2 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0,
mlTransforms = list(
categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7),
selectFeatures("reviewCatHash", mode = minCount())))
summary(outModel2)
# Apply a categorical hash transform and a mutual information feature selection transform
# which selects only 10 features with largest mutual information with the label.
outModel3 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0,
mlTransforms = list(
categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7),
selectFeatures(like ~ reviewCatHash, mode = mutualInformation(numFeaturesToKeep = 10))))
summary(outModel3)