microsoftml.n_gram_hash:使用经过哈希处理的 n-gram 将文本转换为特征

使用情况

microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
    ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
    all_lengths: bool = True, seed: numbers.Real = 314489979,
    ordered: bool = True, invert_hash: numbers.Real = 0)

说明

使用哈希技巧从文本中提取 NGram 并将其转换为向量。

参数

hash_bits

要哈希到的位数。 必须介于 1 和 30 之间(含限值)。 (设置)。

ngram_length

Ngram 长度(设置)。

skip_length

构造 ngram 时要跳过的最大标记数(设置)。

all_lengths

是包含达到 ngramLength 的所有 ngram 长度,还是仅包含 ngramLength(设置)。

seed

哈希种子(设置)。

ordered

是否应将每个源列的位置包括在哈希中(当存在多个源列时)。 (设置)。

invert_hash

将用于生成槽名称的键数限制为此数量。 0 表示无反转哈希;-1 表示无限制。 (设置)。

请参阅

n_gramfeaturize_text