ngram: Ekstraktor Fitur Pembelajaran Mesin
Ekstraktor Fitur yang dapat digunakan dengan mtText.
Penggunaan
ngramCount(ngramLength = 1, skipLength = 0, maxNumTerms = 1e+07,
weighting = "tf")
ngramHash(ngramLength = 1, skipLength = 0, hashBits = 16,
seed = 314489979, ordered = TRUE, invertHash = 0)
Argumen
ngramLength
Bilangan bulat yang menentukan jumlah maksimum token yang harus diambil saat membuat n-gram. Nilai default adalah 1.
skipLength
Bilangan bulat yang menentukan jumlah maksimum token yang akan dilewati saat membuat n-gram. Jika nilai yang ditentukan sebagai panjang lompati adalah k
, maka n-gram dapat berisi hingga k melompat (belum tentu berturut-turut). Misalnya, jika k=2
, maka 3-gram yang diekstrak dari teks "langit berwarna biru hari ini" adalah: "langit adalah", "langit biru", "langit hari ini", "biru", "adalah hari ini" dan "biru hari ini". Nilai default adalah 0.
maxNumTerms
Bilangan bulat yang menentukan jumlah maksimum kategori untuk disertakan dalam kamus. Nilai defaultnya adalah 100000000.
weighting
String karakter yang menentukan kriteria pembobotan:
"tf"
: untuk menggunakan frekuensi istilah."idf"
: untuk menggunakan frekuensi dokumen terbalik."tfidf"
: untuk menggunakan frekuensi istilah dan frekuensi dokumen terbalik.
hashBits
nilai bilangan bulat. Jumlah bit yang akan di-hash. Harus antara 1 dan 30, inklusif.
seed
nilai bilangan bulat. Benih hash.
ordered
TRUE
untuk menyertakan posisi setiap istilah dalam hash. Sebaliknya, FALSE
. Nilai defaultnya adalah TRUE
.
invertHash
Bilangan bulat yang menentukan batas jumlah kunci yang dapat digunakan untuk menghasilkan nama slot. 0
berarti tidak ada invert hashing; -1
berarti tidak ada batasan. Meskipun nilai nol memberikan performa yang lebih baik, nilai non-nol diperlukan untuk mendapatkan nama koefisien yang bermakna.
Detail
ngramCount
memungkinkan menentukan argumen untuk ekstraksi fitur berbasis hitungan. Ini menerima opsi berikut: ngramLength
, , skipLength
maxNumTerms
dan weighting
.
ngramHash
memungkinkan menentukan argumen untuk ekstraksi fitur berbasis hashing. Ini menerima opsi berikut: ngramLength
, , skipLength
, hashBits
seed
, ordered
dan invertHash
.
Nilai
String karakter yang menentukan transformasi.
Penulis
Microsoft Corporation Microsoft Technical Support
Lihat juga
Contoh
myData <- data.frame(opinion = c(
"I love it!",
"I love it!",
"Love it!",
"I love it a lot!",
"Really love it!",
"I hate it",
"I hate it",
"I hate it.",
"Hate it",
"Hate"),
like = rep(c(TRUE, FALSE), each = 5),
stringsAsFactors = FALSE)
outModel1 <- rxLogisticRegression(like~opinionCount, data = myData,
mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"),
wordFeatureExtractor = ngramHash(invertHash = -1, hashBits = 3))))
summary(outModel1)
outModel2 <- rxLogisticRegression(like~opinionCount, data = myData,
mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"),
wordFeatureExtractor = ngramCount(maxNumTerms = 5, weighting = "tf"))))
summary(outModel2)