Partager via


LuceneStandardTokenizer interface

Décompose le texte en suivant les règles de segmentation du texte Unicode. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene.

Propriétés

maxTokenLength

Longueur maximale du jeton. La valeur par défaut est 255. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale du jeton qui peut être utilisée est de 300 caractères. Valeur par défaut : 255.

name

Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères.

odatatype

Discriminateur polymorphe

Détails de la propriété

maxTokenLength

Longueur maximale du jeton. La valeur par défaut est 255. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale du jeton qui peut être utilisée est de 300 caractères. Valeur par défaut : 255.

maxTokenLength?: number

Valeur de propriété

number

name

Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères.

name: string

Valeur de propriété

string

odatatype

Discriminateur polymorphe

odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"

Valeur de propriété

"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"