minCount: modo de contagem de seleção de recursos

Modo de contagem da seleção de recursos usada na transformação de seleção de recursos selectFeatures.

Uso

  minCount(count = 1, ...)

Argumentos

count

O limite da seleção de recursos baseada em contagem. Um recurso será selecionado caso exemplos de count tenham no mínimo um valor não padrão no recurso. O valor padrão é 1.

...

Argumentos adicionais a serem passados diretamente para o Microsoft Compute Engine.

Detalhes

Ao usar o modo de contagem na transformação de seleção de recursos, um recurso será selecionado caso o número de exemplos tenha no mínimo exemplos de contagem especificados de valores não padrão no recurso. A transformação de seleção de recursos do modo de contagem é útil quando aplicada em conjunto com uma transformação categorical de hash (confira também o categoricalHash). A seleção de recursos de contagem pode remover recursos gerados pela transformação de hash que não têm dados nos exemplos.

Valor

Uma cadeia de caracteres que define o modo de contagem.

Autor(es)

Microsoft Corporation Microsoft Technical Support

Confira também

mutualInformationselectFeatures

Exemplos


 trainReviews <- data.frame(review = c( 
         "This is great",
         "I hate it",
         "Love it",
         "Do not like it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I kind of hate it",
         "I do like it",
         "I really hate it",
         "It is very good",
         "I hate it a bunch",
         "I love it a bunch",
         "I hate it",
         "I like it very much",
         "I hate it very much.",
         "I really do love it",
         "I really do hate it",
         "Love it!",
         "Hate it!",
         "I love it",
         "I hate it",
         "I love it",
         "I hate it",
         "I love it"),
      like = c(TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, 
         FALSE, TRUE, FALSE, TRUE), stringsAsFactors = FALSE
     )

     testReviews <- data.frame(review = c(
         "This is great",
         "I hate it",
         "Love it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I love it",
         "I do like it",
         "I really hate it",
         "I love it"), stringsAsFactors = FALSE)

 # Use a categorical hash transform which generated 128 features.
 outModel1 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0, 
     mlTransforms = list(categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7)))
 summary(outModel1)

 # Apply a categorical hash transform and a count feature selection transform
 # which selects only those hash features that has value.
 outModel2 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0, 
     mlTransforms = list(
   categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7), 
   selectFeatures("reviewCatHash", mode = minCount())))
 summary(outModel2)

 # Apply a categorical hash transform and a mutual information feature selection transform
 # which selects those features appearing with at least a count of 5.
 outModel3 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0, 
     mlTransforms = list(
   categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7), 
   selectFeatures("reviewCatHash", mode = minCount(count = 5))))
 summary(outModel3)