Поделиться через


LexicalTokenizerName type

Определяет значения для LexicalTokenizerName.
<xref:KnownLexicalTokenizerName> можно использовать взаимозаменяемо с LexicalTokenizerName. Это перечисление содержит известные значения, поддерживаемые службой.

Известные значения, поддерживаемые службой

classic: грамматический создатель маркеров, который подходит для обработки большинства документов на европейском языке. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram: маркеризует входные данные из ребра в n-граммы заданного размера. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2: выдает все входные данные в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter: делит текст на небуквенный. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
нижний регистр: делит текст на небуквенный и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_tokenizer. Делит текст с помощью правил, относящихся к конкретному языку.
microsoft_language_stemming_tokenizer. Разделяет текст с помощью правил, относящихся к конкретному языку, и сводит слова к их базовым формам.
nGram: маркеризует входные данные в n-граммах заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2: создатель маркеров для иерархий, похожих на путь. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern: создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2: стандартный анализатор Lucene; Состоит из стандартного создателя маркеров, фильтра в нижнем регистре и фильтра stop. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email: маркеризует URL-адреса и сообщения электронной почты как один токен. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
пробел. Делит текст на пробелы. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

type LexicalTokenizerName = string