ngram: extratores de recursos do Machine Learning
Extratores de recursos que podem ser usados com mtText.
Uso
ngramCount(ngramLength = 1, skipLength = 0, maxNumTerms = 1e+07,
weighting = "tf")
ngramHash(ngramLength = 1, skipLength = 0, hashBits = 16,
seed = 314489979, ordered = TRUE, invertHash = 0)
Argumentos
ngramLength
Um inteiro que especifica o número máximo de tokens a adotar ao construir um n-gram. O valor padrão é 1.
skipLength
Um inteiro que especifica o número máximo de tokens de omissão ao construir um n-gram. Se o valor especificado como tamanho da omissão for k
, os n-grams poderão conter até k omissões (não necessariamente consecutivas). Por exemplo, se k=2
, os 3-grams extraídos do texto "o céu está azul hoje" são: "o céu está", "o céu azul", "o céu hoje", "o é azul", "o é hoje" e "o azul hoje". O valor padrão é 0.
maxNumTerms
Um inteiro que especifica o número máximo de categorias a serem incluídas no dicionário. O valor padrão é 10000000.
weighting
Uma cadeia de caracteres que especifica os critérios de ponderação:
"tf"
: para usar a frequência de termos."idf"
: para usar a frequência inversa do documento."tfidf"
: para usar a frequência de termos e a frequência inversa do documento.
hashBits
valor inteiro. Número de bits para usar com o hash. Ele deve estar inclusive entre 1 e 30.
seed
valor inteiro. Semente de hash.
ordered
Use TRUE
para incluir a posição de cada termo no hash. Caso contrário, FALSE
. O valor padrão é TRUE
.
invertHash
Um inteiro especificando o limite do número de chaves que podem ser usadas para gerar o nome do slot. 0
significa que não há um hash invertido. -1
significa que não há limite. Embora um valor zero forneça um desempenho mais adequado, é preciso usar um valor não zero para obter nomes de coeficientes significativos.
Detalhes
ngramCount
permite definir argumentos para extração de recursos com base em contagem. Aceita estas opções: ngramLength
, skipLength
, maxNumTerms
e weighting
.
ngramHash
permite definir argumentos para extração de recursos com base em hash. Aceita estas opções: ngramLength
, skipLength
, hashBits
, seed
, ordered
e invertHash
.
Valor
Uma cadeia de caracteres que define a transformação.
Autor(es)
Microsoft Corporation Microsoft Technical Support
Confira também
Exemplos
myData <- data.frame(opinion = c(
"I love it!",
"I love it!",
"Love it!",
"I love it a lot!",
"Really love it!",
"I hate it",
"I hate it",
"I hate it.",
"Hate it",
"Hate"),
like = rep(c(TRUE, FALSE), each = 5),
stringsAsFactors = FALSE)
outModel1 <- rxLogisticRegression(like~opinionCount, data = myData,
mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"),
wordFeatureExtractor = ngramHash(invertHash = -1, hashBits = 3))))
summary(outModel1)
outModel2 <- rxLogisticRegression(like~opinionCount, data = myData,
mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"),
wordFeatureExtractor = ngramCount(maxNumTerms = 5, weighting = "tf"))))
summary(outModel2)