Compartir a través de


LuceneStandardTokenizer interface

Divide el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene.

Propiedades

maxTokenLength

Longitud máxima del token. El valor predeterminado es 255. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres. Valor predeterminado: 255.

name

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

odatatype

Discriminador polimórfico

Detalles de las propiedades

maxTokenLength

Longitud máxima del token. El valor predeterminado es 255. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres. Valor predeterminado: 255.

maxTokenLength?: number

Valor de propiedad

number

name

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

name: string

Valor de propiedad

string

odatatype

Discriminador polimórfico

odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"

Valor de propiedad

"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"