ngram: Ekstraktor Fitur Pembelajaran Mesin

Ekstraktor Fitur yang dapat digunakan dengan mtText.

Penggunaan

  ngramCount(ngramLength = 1, skipLength = 0, maxNumTerms = 1e+07,
    weighting = "tf")

  ngramHash(ngramLength = 1, skipLength = 0, hashBits = 16,
    seed = 314489979, ordered = TRUE, invertHash = 0)

Argumen

`ngramLength`

Bilangan bulat yang menentukan jumlah maksimum token yang harus diambil saat membuat n-gram. Nilai default adalah 1.

`skipLength`

Bilangan bulat yang menentukan jumlah maksimum token yang akan dilewati saat membuat n-gram. Jika nilai yang ditentukan sebagai panjang lompati adalah k, maka n-gram dapat berisi hingga k melompat (belum tentu berturut-turut). Misalnya, jika k=2, maka 3-gram yang diekstrak dari teks "langit berwarna biru hari ini" adalah: "langit adalah", "langit biru", "langit hari ini", "biru", "adalah hari ini" dan "biru hari ini". Nilai default adalah 0.

`maxNumTerms`

Bilangan bulat yang menentukan jumlah maksimum kategori untuk disertakan dalam kamus. Nilai defaultnya adalah 100000000.

`weighting`

String karakter yang menentukan kriteria pembobotan:

"tf": untuk menggunakan frekuensi istilah.
"idf": untuk menggunakan frekuensi dokumen terbalik.
"tfidf": untuk menggunakan frekuensi istilah dan frekuensi dokumen terbalik.

`hashBits`

nilai bilangan bulat. Jumlah bit yang akan di-hash. Harus antara 1 dan 30, inklusif.

`seed`

nilai bilangan bulat. Benih hash.

`ordered`

TRUE untuk menyertakan posisi setiap istilah dalam hash. Sebaliknya, FALSE. Nilai defaultnya adalah TRUE.

`invertHash`

Bilangan bulat yang menentukan batas jumlah kunci yang dapat digunakan untuk menghasilkan nama slot. 0 berarti tidak ada invert hashing; -1 berarti tidak ada batasan. Meskipun nilai nol memberikan performa yang lebih baik, nilai non-nol diperlukan untuk mendapatkan nama koefisien yang bermakna.

Detail

ngramCount memungkinkan menentukan argumen untuk ekstraksi fitur berbasis hitungan. Ini menerima opsi berikut: ngramLength, , skipLengthmaxNumTerms dan weighting.

ngramHash memungkinkan menentukan argumen untuk ekstraksi fitur berbasis hashing. Ini menerima opsi berikut: ngramLength, , skipLength, hashBitsseed, ordered dan invertHash.

Nilai

String karakter yang menentukan transformasi.

Penulis

Microsoft Corporation Microsoft Technical Support

Lihat juga

featurizeText.

Contoh


  myData <- data.frame(opinion = c(
     "I love it!",
     "I love it!",
     "Love it!",
     "I love it a lot!",
     "Really love it!",
     "I hate it",
     "I hate it",
     "I hate it.",
     "Hate it",
     "Hate"),
     like = rep(c(TRUE, FALSE), each = 5),
     stringsAsFactors = FALSE)

 outModel1 <- rxLogisticRegression(like~opinionCount, data = myData, 
     mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"), 
         wordFeatureExtractor = ngramHash(invertHash = -1, hashBits = 3)))) 
 summary(outModel1)   

 outModel2 <- rxLogisticRegression(like~opinionCount, data = myData, 
     mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"), 
         wordFeatureExtractor = ngramCount(maxNumTerms = 5, weighting = "tf"))))         
 summary(outModel2)

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-01-02

Bagikan melalui

ngram: Ekstraktor Fitur Pembelajaran Mesin

Penggunaan

Argumen

ngramLength

skipLength

maxNumTerms

weighting

hashBits

seed

ordered

invertHash