Partilhar via


KnownTokenizerNames enum

Define valores para TokenizerName.

Campos

Classic

Tokenizador baseado em gramática que é adequado para processar a maioria dos documentos em língua europeia. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

EdgeNGram

Tokeniza a entrada de uma borda em n-gramas do(s) tamanho(s) determinado(s). Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

Keyword

Emite toda a entrada como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

Letter

Divide o texto em letras não-letras. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

Lowercase

Divide o texto em letras não escritas e converte-as em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

MicrosoftLanguageStemmingTokenizer

Divide o texto usando regras específicas do idioma e reduz as palavras às suas formas base.

MicrosoftLanguageTokenizer

Divide o texto usando regras específicas do idioma.

NGram

Tokeniza a entrada em n-gramas do(s) tamanho(s) fornecido(s). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

PathHierarchy

Tokenizador para hierarquias semelhantes a caminhos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

Pattern

Tokenizador que usa a correspondência de padrões regex para construir tokens distintos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

Standard

Analisador padrão de Lucene; Composto pelo tokenizador padrão, filtro minúsculo e filtro stop. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

UaxUrlEmail

Tokeniza urls e e-mails como um token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

Whitespace

Divide o texto no espaço em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html