Apostrophe
|
Удаляет все знаки после апострофа (включая сам апостроф). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
|
ArabicNormalization
|
Фильтр маркеров, применяющий нормализатор арабского языка для нормализации орфографии. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
|
AsciiFolding
|
Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
|
CjkBigram
|
Формирует биграмы терминов CJK, созданные из стандартного создателя маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
|
CjkWidth
|
Нормализует различия в ширине ККЯ. Сворачивают варианты fullwidth ASCII в эквивалентный базовый латиница, а полуширинный вариант Катакана — в эквивалентную кану. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
|
Classic
|
Удаляет английские притяжательные символы и точки из аббревиатур. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
|
CommonGram
|
Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
|
EdgeNGram
|
Создает n граммов заданного размера, начиная с передней или задней части входного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
|
Elision
|
Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
|
GermanNormalization
|
Нормализует немецкие символы в соответствии с эвристики алгоритма snowball German2. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
|
HindiNormalization
|
Нормализует текст на хинди, чтобы удалить некоторые различия в орфографических вариациях. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
|
IndicNormalization
|
Нормализует представление текста в Юникоде на индийских языках. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
|
KeywordRepeat
|
Выдает каждый входящий маркер дважды: один раз ключевое слово и один раз как не ключевое слово. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
|
KStem
|
Высокопроизводительный фильтр kstem для английского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
|
Length
|
Удаляет слишком длинные или слишком короткие слова. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
|
Limit
|
Ограничивает количество маркеров при индексировании. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
|
Lowercase
|
Нормализует текст в маркере в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm
|
NGram
|
Создает N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
|
PersianNormalization
|
Применяет нормализацию для персидского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
|
Phonetic
|
Создает маркеры для фонетических совпадений. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
|
PorterStem
|
Для преобразования потока маркеров использует алгоритм парадигматического выражения Porter. См. раздел http://tartarus.org/~martin/PorterStemmer
|
Reverse
|
Обращает порядок строки маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
|
ScandinavianFoldingNormalization
|
Складывает скандинавские символы åÄäæÄÆ-a> и öÖøØ-o>. Он также предотвращает использование двойных гласных aa, ae, ao, oe и oo, оставляя только первую. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
|
ScandinavianNormalization
|
Нормализует использование взаимозаменяемых скандинавских знаков. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
|
Shingle
|
Создает сочетания маркеров в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
|
Snowball
|
Фильтр, который объединяет слова с помощью парадигматического модуля, созданного Snowball. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
|
SoraniNormalization
|
Нормализует представление текста в Юникоде на языке сорани. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
|
Stemmer
|
Фильтр стволов для конкретного языка. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
|
Stopwords
|
Удаляет стоп-слова из потока маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
|
Trim
|
Усекает пробел в начале и конце маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
|
Truncate
|
Усекает термины до определенной длины. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
|
Unique
|
Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
|
Uppercase
|
Нормализует текст в маркере в верхний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
|
WordDelimiter
|
Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов.
|