Поделиться через


KnownTokenizerNames enum

Известные значения LexicalTokenizerName , которые принимает служба.

Поля

Classic

Грамматический токенизатор, который подходит для обработки большинства документов на европейском языке. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

EdgeNGram

Маркеризует входные данные из края в n-граммы заданного размера. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

Keyword

Выдает все входные данные в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

Letter

Разбивает текст по небуквенным знакам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

Lowercase

Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

MicrosoftLanguageStemmingTokenizer

Разделяет текст с помощью правил, зависящих от языка, и сводит слова к их базовым формам.

MicrosoftLanguageTokenizer

Разбивает текст на основе правил определенного языка.

NGram

Размечает входные данные на N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

PathHierarchy

Создатель маркеров для иерархий в виде пути. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

Pattern

Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

Standard

Стандартный анализатор Lucene; Состоит из стандартного создателя маркеров, фильтра в нижнем регистре и фильтра stop. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

UaxUrlEmail

Размечает URL-адреса и сообщения электронной почты как один маркер. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

Whitespace

Разбивает текст по пробелам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html