microsoftml.n_gram_hash: converte um texto em recursos usando n-gramas com hash
Uso
microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
all_lengths: bool = True, seed: numbers.Real = 314489979,
ordered: bool = True, invert_hash: numbers.Real = 0)
Descrição
Extrai n-gramas do texto e os converte em vetor usando um truque de hash.
Argumentos
hash_bits
Número de bits para usar com o hash. Ele deve estar inclusive entre 1 e 30. (configurações).
ngram_length
Comprimento do n-grama (configurações).
skip_length
Número máximo de tokens a serem ignorados ao construir um n-grama (configurações).
all_lengths
Especifica se é preciso incluir todos os tamanhos de n-gramas até o ngramLength ou somente o ngramLength (configurações).
seed
Semente de hash (configurações).
ordered
Especifica se é preciso incluir a posição de cada coluna de origem no hash (quando há várias colunas de origem). (configurações).
invert_hash
Limita o número de chaves usadas para gerar o nome do slot a essa quantidade. 0 significa nenhum hash invertido e -1 significa nenhum limite. (configurações).