Bagikan melalui


microsoftml.n_gram: Mengonversi teks menjadi fitur menggunakan n-gram hash

Penggunaan

microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
    ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
    all_lengths: bool = True, seed: numbers.Real = 314489979,
    ordered: bool = True, invert_hash: numbers.Real = 0)

Deskripsi

Mengekstrak NGram dari teks dan mengonversinya menjadi vektor menggunakan trik hashing.

Argumen

hash_bits

Jumlah bit yang akan di-hash. Harus antara 1 dan 30, inklusif. (pengaturan).

ngram_length

Panjang Ngram (pengaturan).

skip_length

Jumlah maksimum token yang akan dilewati saat membuat ngram (pengaturan).

all_lengths

Apakah akan menyertakan semua panjang ngram hingga ngramLength atau hanya ngramLength (pengaturan).

Nilai awal

Hashing seed (pengaturan).

dipesan

Apakah posisi setiap kolom sumber harus disertakan dalam hash (ketika ada beberapa kolom sumber). (pengaturan).

invert_hash

Batasi jumlah kunci yang digunakan untuk menghasilkan nama slot sebanyak ini. 0 berarti tidak ada hash terbalik, -1 berarti tidak ada batas. (pengaturan).

Lihat juga

n_gram, featurize_text