Classic
|
Грамматический токенизатор, который подходит для обработки большинства документов на европейском языке. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
|
EdgeNGram
|
Маркеризует входные данные из края в n-граммы заданного размера. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
|
Keyword
|
Выдает все входные данные в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
|
Letter
|
Разбивает текст по небуквенным знакам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
|
Lowercase
|
Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
|
MicrosoftLanguageStemmingTokenizer
|
Разделяет текст с помощью правил, зависящих от языка, и сводит слова к их базовым формам.
|
MicrosoftLanguageTokenizer
|
Разбивает текст на основе правил определенного языка.
|
NGram
|
Размечает входные данные на N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
|
PathHierarchy
|
Создатель маркеров для иерархий в виде пути. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
|
Pattern
|
Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
|
Standard
|
Стандартный анализатор Lucene; Состоит из стандартного создателя маркеров, фильтра в нижнем регистре и фильтра stop. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
|
UaxUrlEmail
|
Размечает URL-адреса и сообщения электронной почты как один маркер. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
|
Whitespace
|
Разбивает текст по пробелам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html
|