Поделиться через


KnownTokenizerNames enum

Известные значения LexicalTokenizerName, которые принимает служба.

Поля

Classic

Токенизатор на основе грамматики, подходящий для обработки большинства европейских языковых документов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

EdgeNGram

Маркеризирует входные данные из края в n-граммы заданных размеров. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

Keyword

Выводит все входные данные в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

Letter

Делит текст на небуквенный. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

Lowercase

Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

MicrosoftLanguageStemmingTokenizer

Разделяет текст с помощью правил, относящихся к языку, и сокращает количество слов к базовым формам.

MicrosoftLanguageTokenizer

Делит текст с помощью правил, относящихся к языку.

NGram

Маркеризирует входные данные в n-граммах заданных размеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

PathHierarchy

Токенизатор для иерархий, похожих на пути. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

Pattern

Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

Standard

Стандартный анализатор Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

UaxUrlEmail

Маркеризирует URL-адреса и сообщения электронной почты в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

Whitespace

Делит текст на пробелы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html