Поделиться через


microsoftml.n_gram: преобразование текста в признаки с помощью N-грамм

Использование

microsoftml.n_gram(ngram_length: numbers.Real = 1,
    skip_length: numbers.Real = 0, all_lengths: bool = True,
    max_num_terms: list = [10000000], weighting: str = 'Tf')

Описание

Извлечение N-грамм из текста и их преобразование в вектор с помощью словаря.

Аргументы

ngram_length

Длина N-грамм (параметры).

skip_length

Максимальное число токенов, пропускаемых при создании N-грамм (параметры).

all_lengths

Включение длины всех N-грамм до NgramLength или только NgramLength (параметры).

max_num_terms

Максимальное число N-грамм для хранения в словаре (параметры).

weighting

Критерий взвешивания (параметры).

См. также

n_gram_hash, featurize_text