Partager via


microsoftml.n_gram_hash : convertit un texte en caractéristiques avec des n-grammes hachés

Usage

microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
    ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
    all_lengths: bool = True, seed: numbers.Real = 314489979,
    ordered: bool = True, invert_hash: numbers.Real = 0)

Description

Extrait les n-grammes du texte et les convertit en vecteur à l'aide d'une astuce de hachage.

Arguments

hash_bits

Nombre de bits à hacher. Doit être compris entre 1 et 30 (inclus). (paramètres).

ngram_length

Longueur de n-gramme (paramètres).

skip_length

Nombre maximal de jetons à ignorer lors de la construction d’un n-gramme (paramètres).

all_lengths

Indique s'il faut inclure toutes les longueurs de n-gramme jusqu'à ngramLength ou uniquement ngramLength (paramètres).

seed

Seed de hachage (paramètres).

ordered

Indique si la position de chaque colonne source doit être incluse dans le hachage (s'il existe plusieurs colonnes sources). (paramètres).

invert_hash

Limite le nombre de clés utilisées pour générer le nom de l'emplacement à ce nombre. 0 signifie aucun hachage inversé ; -1 signifie aucune limite. (paramètres).

Voir aussi

n_gram, featurize_text