Compartir a través de


KnownTokenizerNames enum

Valores conocidos de LexicalTokenizerName que acepta el servicio.

Campos

Classic

Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.

EdgeNGram

Tokeniza la entrada de un borde en n-gramas de los tamaños especificados. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.

Keyword

Emite la entrada completa como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.

Letter

Divide el texto por donde no hay letras. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.

Lowercase

Divide el texto por donde no hay letras y lo convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.

MicrosoftLanguageStemmingTokenizer

Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base.

MicrosoftLanguageTokenizer

Divide el texto mediante reglas específicas del idioma.

NGram

Tokeniza la entrada en n-gramas de tamaños dados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.

PathHierarchy

Tokenizador para las jerarquías parecidas a rutas de acceso. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.

Pattern

Tokenizador que usa la coincidencia de patrones regex para construir tokens distintos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.

Standard

Analizador estándar de Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.

UaxUrlEmail

Tokeniza las direcciones URL y los correos electrónicos como un token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.

Whitespace

Divide el texto por los espacios en blanco. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.