minCount : mode de sélection du nombre de fonctionnalités
Mode de dénombrement de sélection de caractéristiques utilisé dans la transformation de sélection de caractéristiques selectFeatures.
Utilisation
minCount(count = 1, ...)
Arguments
count
Seuil pour la sélection des caractéristiques en fonction de la valeur de comptage. Une caractéristique est sélectionnée si et seulement si elle comporte une valeur autre que la valeur par défaut dans au moins count
des exemples. La valeur par défaut est 1.
...
Arguments supplémentaires à passer directement au moteur de calcul Microsoft.
Détails
Lorsque vous utilisez le mode de comptage dans la transformation de sélection de caractéristiques, une caractéristique est sélectionnée si le nombre d’exemples possède au moins le nombre spécifié d’exemples de valeurs explicites (autres que les valeurs par défaut) dans la caractéristique. La transformation de sélection de caractéristiques du mode de comptage est utile lorsqu’elle est appliquée avec une transformation de hachage catégorique (voir aussi categoricalHash). La sélection de caractéristiques du mode de comptage peut supprimer les caractéristiques générées par la transformation de hachage n’ayant pas de données dans les exemples.
Valeur
Chaîne de caractères définissant le mode de dénombrement.
Auteur(s)
Microsoft Corporation Microsoft Technical Support
Voir aussi
mutualInformation selectFeatures
Exemples
trainReviews <- data.frame(review = c(
"This is great",
"I hate it",
"Love it",
"Do not like it",
"Really like it",
"I hate it",
"I like it a lot",
"I kind of hate it",
"I do like it",
"I really hate it",
"It is very good",
"I hate it a bunch",
"I love it a bunch",
"I hate it",
"I like it very much",
"I hate it very much.",
"I really do love it",
"I really do hate it",
"Love it!",
"Hate it!",
"I love it",
"I hate it",
"I love it",
"I hate it",
"I love it"),
like = c(TRUE, FALSE, TRUE, FALSE, TRUE,
FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
FALSE, TRUE, FALSE, TRUE), stringsAsFactors = FALSE
)
testReviews <- data.frame(review = c(
"This is great",
"I hate it",
"Love it",
"Really like it",
"I hate it",
"I like it a lot",
"I love it",
"I do like it",
"I really hate it",
"I love it"), stringsAsFactors = FALSE)
# Use a categorical hash transform which generated 128 features.
outModel1 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0,
mlTransforms = list(categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7)))
summary(outModel1)
# Apply a categorical hash transform and a count feature selection transform
# which selects only those hash features that has value.
outModel2 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0,
mlTransforms = list(
categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7),
selectFeatures("reviewCatHash", mode = minCount())))
summary(outModel2)
# Apply a categorical hash transform and a mutual information feature selection transform
# which selects those features appearing with at least a count of 5.
outModel3 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0,
mlTransforms = list(
categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7),
selectFeatures("reviewCatHash", mode = minCount(count = 5))))
summary(outModel3)