Condividi tramite


microsoftml.n_gram_hash: converte il testo in caratteristiche usando n-grammi con hash

Utilizzo

microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
    ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
    all_lengths: bool = True, seed: numbers.Real = 314489979,
    ordered: bool = True, invert_hash: numbers.Real = 0)

Descrizione

Estrae NGrammi dal testo e li converte in vettore usando il trucco dell'hashing.

Argomenti

hash_bits

Numero di bit in cui eseguire l'hash. Deve essere compreso tra 1 e 30 inclusi. (impostazioni).

ngram_length

Lunghezza n-gramma (impostazioni).

skip_length

Numero massimo di token da ignorare quando si costruisce un n-gramma (impostazioni).

all_lengths

Permette di includere tutte le lunghezze di ngrammi fino a ngramLength o solo ngramLength (impostazioni).

seed

Valore di inizializzazione di hashing (impostazioni).

ordered

Permette di stabilire se la posizione di ogni colonna di origine deve essere inclusa nell'hash (quando sono presenti più colonne di origine). (impostazioni).

invert_hash

Permette di limitare il numero di chiavi usate per generare il nome dello slot a questo numero. 0 significa che l'hashing non viene invertito, -1 significa che non è previsto alcun limite. (impostazioni).

Vedi anche

n_gram, featurize_text