Condividi tramite


microsoftml.n_gram: converte il testo in caratteristiche usando n-grammi

Utilizzo

microsoftml.n_gram(ngram_length: numbers.Real = 1,
    skip_length: numbers.Real = 0, all_lengths: bool = True,
    max_num_terms: list = [10000000], weighting: str = 'Tf')

Descrizione

Estrae gli n-grammi dal testo e li converte in vettore usando il dizionario.

Argomenti

ngram_length

Lunghezza n-gramma (impostazioni).

skip_length

Numero massimo di token da ignorare quando si costruisce un n-gramma (impostazioni).

all_lengths

Se includere tutte le lunghezze di n-grammi fino a NgramLength o solo NgramLength (impostazioni).

max_num_terms

Numero massimo di n-grammi da archiviare nel dizionario (impostazioni).

weighting

Il criterio di ponderazione (impostazioni).

Vedi anche

n_gram_hash, featurize_text