Compartilhar via


microsoftml.n_gram_hash: converte um texto em recursos usando n-gramas com hash

Uso

microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
    ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
    all_lengths: bool = True, seed: numbers.Real = 314489979,
    ordered: bool = True, invert_hash: numbers.Real = 0)

Descrição

Extrai n-gramas do texto e os converte em vetor usando um truque de hash.

Argumentos

hash_bits

Número de bits para usar com o hash. Ele deve estar inclusive entre 1 e 30. (configurações).

ngram_length

Comprimento do n-grama (configurações).

skip_length

Número máximo de tokens a serem ignorados ao construir um n-grama (configurações).

all_lengths

Especifica se é preciso incluir todos os tamanhos de n-gramas até o ngramLength ou somente o ngramLength (configurações).

seed

Semente de hash (configurações).

ordered

Especifica se é preciso incluir a posição de cada coluna de origem no hash (quando há várias colunas de origem). (configurações).

invert_hash

Limita o número de chaves usadas para gerar o nome do slot a essa quantidade. 0 significa nenhum hash invertido e -1 significa nenhum limite. (configurações).

Confira também

n_gram e featurize_text