Поделиться через


KnownTokenFilterNames enum

Известные значения TokenFilterName , которые принимает служба.

Поля

Apostrophe

Удаляет все знаки после апострофа (включая сам апостроф). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

ArabicNormalization

Фильтр маркеров, применяющий нормализатор арабского языка для нормализации орфографии. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

AsciiFolding

Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

CjkBigram

Формирует биграмы терминов CJK, созданные из стандартного создателя маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

CjkWidth

Нормализует различия в ширине ККЯ. Сворачивают варианты fullwidth ASCII в эквивалентный базовый латиница, а полуширинный вариант Катакана — в эквивалентную кану. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

Classic

Удаляет английские притяжательные символы и точки из аббревиатур. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

CommonGram

Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

EdgeNGram

Создает n граммов заданного размера, начиная с передней или задней части входного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

Elision

Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

GermanNormalization

Нормализует немецкие символы в соответствии с эвристики алгоритма snowball German2. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

HindiNormalization

Нормализует текст на хинди, чтобы удалить некоторые различия в орфографических вариациях. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

IndicNormalization

Нормализует представление текста в Юникоде на индийских языках. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

KeywordRepeat

Выдает каждый входящий маркер дважды: один раз ключевое слово и один раз как не ключевое слово. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

KStem

Высокопроизводительный фильтр kstem для английского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

Length

Удаляет слишком длинные или слишком короткие слова. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

Limit

Ограничивает количество маркеров при индексировании. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

Lowercase

Нормализует текст в маркере в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm

NGram

Создает N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

PersianNormalization

Применяет нормализацию для персидского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

Phonetic

Создает маркеры для фонетических совпадений. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

PorterStem

Для преобразования потока маркеров использует алгоритм парадигматического выражения Porter. См. раздел http://tartarus.org/~martin/PorterStemmer

Reverse

Обращает порядок строки маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

ScandinavianFoldingNormalization

Складывает скандинавские символы åÄäæÄÆ-a> и öÖøØ-o>. Он также предотвращает использование двойных гласных aa, ae, ao, oe и oo, оставляя только первую. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

ScandinavianNormalization

Нормализует использование взаимозаменяемых скандинавских знаков. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

Shingle

Создает сочетания маркеров в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

Snowball

Фильтр, который объединяет слова с помощью парадигматического модуля, созданного Snowball. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

SoraniNormalization

Нормализует представление текста в Юникоде на языке сорани. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

Stemmer

Фильтр стволов для конкретного языка. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

Stopwords

Удаляет стоп-слова из потока маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

Trim

Усекает пробел в начале и конце маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

Truncate

Усекает термины до определенной длины. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

Unique

Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

Uppercase

Нормализует текст в маркере в верхний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

WordDelimiter

Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов.