Share via


LexicalTokenizerName type

Define valores para LexicalTokenizerName.
<xref:KnownLexicalTokenizerName> se puede usar indistintamente con LexicalTokenizerName, esta enumeración contiene los valores conocidos que admite el servicio.

Valores conocidos admitidos por el servicio

clásico: tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.
edgeNGram: tokeniza la entrada de un borde en n-gramas de los tamaños especificados. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.
keyword_v2: emite toda la entrada como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.
letra: divide el texto en letras no letras. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.
minúsculas: divide el texto en letras que no son letras y los convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.
microsoft_language_tokenizer: divide el texto mediante reglas específicas del idioma.
microsoft_language_stemming_tokenizer: divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formularios base.
nGram: tokeniza la entrada en n-gramas de los tamaños especificados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.
path_hierarchy_v2: tokenizador para jerarquías similares a la ruta de acceso. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.
pattern: Tokenizer que usa la coincidencia de patrones regex para construir tokens distintos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.
standard_v2: Analizador estándar de Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.
uax_url_email: tokeniza las direcciones URL y los correos electrónicos como un token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.
espacio en blanco: divide el texto en un espacio en blanco. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

type LexicalTokenizerName = string