minCount: 特徴選択のカウント モード
特徴選択変換 selectFeatures で使用される特徴選択のカウント モード。
使用方法
minCount(count = 1, ...)
引数
count
カウントに基づく特徴選択のしきい値。 特徴が選択されるのは、特徴内に最低でも count
例の既定以外の値がある場合のみです。 既定値は 1 です。
...
Microsoft コンピューティング エンジンに直接渡される追加の引数。
説明
特徴量選択の変換でカウント モードを使用する場合、特徴内に最低でも既定以外の値が指定されているカウントの例の数がある場合、特徴が選択されます。 カウント モードでの特徴選択の変換は、カテゴリ ハッシュ変換と共に適用すると便利です (categoricalHash も参照)。 カウントでの特徴量選択では、例にデータがないハッシュ変換によって生成された特徴が削除される場合があります。
値
カウント モードを定義する文字列。
作成者
Microsoft Corporation Microsoft Technical Support
関連項目
mutualInformation selectFeatures
例
trainReviews <- data.frame(review = c(
"This is great",
"I hate it",
"Love it",
"Do not like it",
"Really like it",
"I hate it",
"I like it a lot",
"I kind of hate it",
"I do like it",
"I really hate it",
"It is very good",
"I hate it a bunch",
"I love it a bunch",
"I hate it",
"I like it very much",
"I hate it very much.",
"I really do love it",
"I really do hate it",
"Love it!",
"Hate it!",
"I love it",
"I hate it",
"I love it",
"I hate it",
"I love it"),
like = c(TRUE, FALSE, TRUE, FALSE, TRUE,
FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
FALSE, TRUE, FALSE, TRUE), stringsAsFactors = FALSE
)
testReviews <- data.frame(review = c(
"This is great",
"I hate it",
"Love it",
"Really like it",
"I hate it",
"I like it a lot",
"I love it",
"I do like it",
"I really hate it",
"I love it"), stringsAsFactors = FALSE)
# Use a categorical hash transform which generated 128 features.
outModel1 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0,
mlTransforms = list(categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7)))
summary(outModel1)
# Apply a categorical hash transform and a count feature selection transform
# which selects only those hash features that has value.
outModel2 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0,
mlTransforms = list(
categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7),
selectFeatures("reviewCatHash", mode = minCount())))
summary(outModel2)
# Apply a categorical hash transform and a mutual information feature selection transform
# which selects those features appearing with at least a count of 5.
outModel3 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0,
mlTransforms = list(
categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7),
selectFeatures("reviewCatHash", mode = minCount(count = 5))))
summary(outModel3)