分享方式:


microsoftml.n_gram_hash:使用雜湊 n-gram 將文字轉換成特徵

使用方式

microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
    ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
    all_lengths: bool = True, seed: numbers.Real = 314489979,
    ordered: bool = True, invert_hash: numbers.Real = 0)

Description

從文字中擷取 NGram,並使用雜湊技巧將其轉換成向量。

引數

hash_bits

要雜湊處理的位元數目。 必須介於 1 到 30 (含) 之間。 (設定)。

ngram_length

Ngram 長度 (設定)。

skip_length

建構 ngram 時所要略過的 Token 數目上限 (設定)。

all_lengths

是否包括最多達到 ngramLength 的所有 ngram 長度,還是只包括 ngramLength (設定)。

seed

雜湊種子 (設定)。

排序

每個來源資料行的位置是否應該包含在雜湊中 (當有多個來源資料行時)。 (設定)。

invert_hash

將用來產生詞槽名稱的索引鍵數目限制為此數目。 0 表示沒有反轉雜湊;-1 表示沒有限制。 (設定)。

另請參閱

n_gramfeaturize_text