microsoftml.n_gram_hash: converte il testo in caratteristiche usando n-grammi con hash
Utilizzo
microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
all_lengths: bool = True, seed: numbers.Real = 314489979,
ordered: bool = True, invert_hash: numbers.Real = 0)
Descrizione
Estrae NGrammi dal testo e li converte in vettore usando il trucco dell'hashing.
Argomenti
hash_bits
Numero di bit in cui eseguire l'hash. Deve essere compreso tra 1 e 30 inclusi. (impostazioni).
ngram_length
Lunghezza n-gramma (impostazioni).
skip_length
Numero massimo di token da ignorare quando si costruisce un n-gramma (impostazioni).
all_lengths
Permette di includere tutte le lunghezze di ngrammi fino a ngramLength o solo ngramLength (impostazioni).
seed
Valore di inizializzazione di hashing (impostazioni).
ordered
Permette di stabilire se la posizione di ogni colonna di origine deve essere inclusa nell'hash (quando sono presenti più colonne di origine). (impostazioni).
invert_hash
Permette di limitare il numero di chiavi usate per generare il nome dello slot a questo numero. 0 significa che l'hashing non viene invertito, -1 significa che non è previsto alcun limite. (impostazioni).