microsoftml.n_gram:使用 n-gram 将文本转换为特征

使用情况

microsoftml.n_gram(ngram_length: numbers.Real = 1,
    skip_length: numbers.Real = 0, all_lengths: bool = True,
    max_num_terms: list = [10000000], weighting: str = 'Tf')

说明

使用字典从文本中提取 NGram 并将其转换为向量。

参数

ngram_length

Ngram 长度(设置)。

skip_length

构造 ngram 时要跳过的最大标记数(设置)。

all_lengths

是包含达到 NgramLength 的所有 ngram 长度,还是仅包含 NgramLength(设置)。

max_num_terms

要存储在字典中的最大 ngram 数(设置)。

weighting

加权条件(设置)。

请参阅

n_gram_hashfeaturize_text