Indexes - Analyze

Показывает, как анализатор разбивает текст на лексемы.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2026-04-01

Параметры URI

Имя В Обязательно Тип Описание
endpoint
path True

string (uri)

URL-адрес конечной точки службы поиска.

indexName
path True

string

Имя индекса.

api-version
query True

string

minLength: 1

Версия API, используемая для данной операции.

Заголовок запроса

Имя Обязательно Тип Описание
Accept

Accept

Заголовок Accept.

x-ms-client-request-id

string (uuid)

Непрозрачный, глобально уникальный, созданный клиентом идентификатор строки для запроса.

Текст запроса

Имя Обязательно Тип Описание
text True

string

Текст, который нужно разбить на маркеры.

analyzer

LexicalAnalyzerName

Имя анализатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать вместо него токенизатор. Параметры токенизатора и анализатора являются взаимоисключающими.

charFilters

CharFilterName[]

Необязательный список фильтров символов, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.

normalizer

LexicalNormalizerName

Имя нормализатора, используемого для нормализации заданного текста.

tokenFilters

TokenFilterName[]

Необязательный список фильтров маркеров, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.

tokenizer

LexicalTokenizerName

Имя токенизатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими.

Ответы

Имя Тип Описание
200 OK

AnalyzeResult

Запрос выполнен успешно.

Other Status Codes

ErrorResponse

Непредвиденное сообщение об ошибке.

Безопасность

api-key

Тип: apiKey
В: header

OAuth2Auth

Тип: oauth2
Flow: implicit
URL-адрес авторизации: https://login.microsoftonline.com/common/oauth2/v2.0/authorize

Области

Имя Описание
https://search.azure.com/.default

Примеры

SearchServiceIndexAnalyze

Образец запроса

POST https://exampleservice.search.windows.net/indexes('example-index')/search.analyze?api-version=2026-04-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

Пример ответа

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Определения

Имя Описание
Accept

Заголовок Accept.

AnalyzedTokenInfo

Сведения о маркере, возвращаемом анализатором.

AnalyzeRequest

Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.

AnalyzeResult

Результат тестирования анализатора на тексте.

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

ErrorDetail

Сведения об ошибке.

ErrorResponse

Распространенный ответ об ошибке для всех API Azure Resource Manager для возврата сведений об ошибке для неудачных операций. (Это также следует формату ответа об ошибках OData.).

LexicalAnalyzerName

Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.

LexicalNormalizerName

Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой.

LexicalTokenizerName

Определяет имена всех токенизаторов, поддерживаемых поисковой системой.

TokenFilterName

Определяет имена всех фильтров токенов, поддерживаемых поисковой системой.

Accept

Заголовок Accept.

Значение Описание
application/json;odata.metadata=minimal

AnalyzedTokenInfo

Сведения о маркере, возвращаемом анализатором.

Имя Тип Описание
endOffset

integer (int32)

Индекс последнего символа маркера в входном тексте.

position

integer (int32)

Позиция маркера в входном тексте относительно других маркеров. Первый маркер в входном тексте имеет позицию 0, следующая имеет позицию 1 и т. д. В зависимости от используемого анализатора некоторые маркеры могут иметь одинаковую позицию, например если они являются синонимами друг друга.

startOffset

integer (int32)

Индекс первого символа маркера в входном тексте.

token

string

Маркер, возвращаемый анализатором.

AnalyzeRequest

Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.

Имя Тип Описание
analyzer

LexicalAnalyzerName

Имя анализатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать вместо него токенизатор. Параметры токенизатора и анализатора являются взаимоисключающими.

charFilters

CharFilterName[]

Необязательный список фильтров символов, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.

normalizer

LexicalNormalizerName

Имя нормализатора, используемого для нормализации заданного текста.

text

string

Текст, который нужно разбить на маркеры.

tokenFilters

TokenFilterName[]

Необязательный список фильтров маркеров, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра токенизатора.

tokenizer

LexicalTokenizerName

Имя токенизатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими.

AnalyzeResult

Результат тестирования анализатора на тексте.

Имя Тип Описание
tokens

AnalyzedTokenInfo[]

Список токенов, возвращаемых анализатором, указанный в запросе.

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

Значение Описание
html_strip

Фильтр символов, который пытается удалить конструкции HTML. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

Имя Тип Описание
info

Дополнительные сведения.

type

string

Дополнительный тип сведений.

ErrorDetail

Сведения об ошибке.

Имя Тип Описание
additionalInfo

ErrorAdditionalInfo[]

Дополнительные сведения об ошибке.

code

string

Код ошибки.

details

ErrorDetail[]

Сведения об ошибке.

message

string

Сообщение об ошибке.

target

string

Целевой объект ошибки.

ErrorResponse

Распространенный ответ об ошибке для всех API Azure Resource Manager для возврата сведений об ошибке для неудачных операций. (Это также следует формату ответа об ошибках OData.).

Имя Тип Описание
error

ErrorDetail

Объект ошибки.

LexicalAnalyzerName

Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.

Значение Описание
ar.microsoft

Microsoft Analyzer для арабского языка.

ar.lucene

Анализатор Lucene для арабского языка.

hy.lucene

Анализатор Lucene для армянского языка.

bn.microsoft

Microsoft Analyzer для бенгальского языка.

eu.lucene

Анализатор Lucene для баскского языка.

bg.microsoft

Microsoft Analyzer для болгарского языка.

bg.lucene

Анализатор люцин для болгарского языка.

ca.microsoft

Microsoft analyzer для каталонского.

ca.lucene

Анализатор Lucene для каталанского языка.

zh-Hans.microsoft

Microsoft Analyzer для китайского языка (упрощённый).

zh-Hans.lucene

Анализатор Lucene для китайского языка (упрощенный).

zh-Hant.microsoft

Microsoft Analyzer для китайского (традиционный).

zh-Hant.lucene

Анализатор люцин для китайского языка (традиционный).

hr.microsoft

Microsoft analyzer для хорватского языка.

cs.microsoft

Microsoft analyzer для чешского языка.

cs.lucene

Анализатор Lucene для чешского языка.

da.microsoft

Microsoft Analyzer для датского языка.

da.lucene

Анализатор Lucene для датского языка.

nl.microsoft

Microsoft Analyzer для голландского языка.

nl.lucene

Анализатор Lucene для голландского языка.

en.microsoft

Microsoft Analyzer для английского языка.

en.lucene

Анализатор Lucene для английского языка.

et.microsoft

Microsoft analyzer для эстонского.

fi.microsoft

Microsoft analyzer для финского языка.

fi.lucene

Анализатор Lucene для финского языка.

fr.microsoft

Microsoft Analyzer для французского.

fr.lucene

Анализатор Lucene для французского языка.

gl.lucene

Анализатор Lucene для галисийского языка.

de.microsoft

Microsoft Analyzer для немецкого языка.

de.lucene

Анализатор Lucene для немецкого языка.

el.microsoft

Microsoft Analyzer для греческого.

el.lucene

Анализатор Lucene для греческого языка.

gu.microsoft

Microsoft Analyzer для гуджарати.

he.microsoft

Microsoft Analyzer для иврита.

hi.microsoft

Microsoft Analyzer для хинди.

hi.lucene

Анализатор Lucene для хинди.

hu.microsoft

Microsoft Analyzer для венгерского языка.

hu.lucene

Анализатор Lucene для венгерского языка.

is.microsoft

Microsoft Analyzer для исландского.

id.microsoft

Microsoft analyzer для индонезийского языка (Bahasa).

id.lucene

Анализатор Lucene для индонезийского языка.

ga.lucene

Анализатор Lucene для ирландцев.

it.microsoft

Microsoft Analyzer для итальянского.

it.lucene

Анализатор Lucene для итальянского языка.

ja.microsoft

Microsoft Analyzer для японского языка.

ja.lucene

Анализатор Lucene для японского языка.

kn.microsoft

Microsoft analyzer для каннада.

ko.microsoft

Microsoft Analyzer для корейского языка.

ko.lucene

Анализатор Lucene для корейского языка.

lv.microsoft

Microsoft analyzer для латвийского языка.

lv.lucene

Анализатор Lucene для латышского языка.

lt.microsoft

Microsoft analyzer для литовского языка.

ml.microsoft

Microsoft analyzer для малаялам.

ms.microsoft

Microsoft analyzer для малайского языка (латинский).

mr.microsoft

Microsoft Analyzer для маратхи.

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål).

no.lucene

Анализатор Lucene для норвежского языка.

fa.lucene

Анализатор Lucene для персидского языка.

pl.microsoft

Microsoft Analyzer для польского языка.

pl.lucene

Анализатор Lucene для польского языка.

pt-BR.microsoft

Microsoft Analyzer для португальского (Бразилия).

pt-BR.lucene

Анализатор Lucene для португальского языка (Бразилия).

pt-PT.microsoft

Microsoft analyzer для португальского языка (Португалия).

pt-PT.lucene

Анализатор Lucene для португальского языка (Португалия).

pa.microsoft

Microsoft analyzer for Punjabi.

ro.microsoft

Microsoft Analyzer для румынского.

ro.lucene

Анализатор Lucene для румынского языка.

ru.microsoft

Microsoft Analyzer для русского языка.

ru.lucene

Анализатор люцин для русского языка.

sr-cyrillic.microsoft

Microsoft analyzer для сербского языка (кириллица).

sr-latin.microsoft

Microsoft analyzer для сербского (латинского).

sk.microsoft

Microsoft analyzer для словацкого.

sl.microsoft

Microsoft analyzer for Slovenian.

es.microsoft

Microsoft Analyzer для испанского.

es.lucene

Анализатор Lucene для испанского языка.

sv.microsoft

Microsoft Analyzer для шведского языка.

sv.lucene

Анализатор Lucene для шведского языка.

ta.microsoft

Microsoft Analyzer для тамильского языка.

te.microsoft

Microsoft analyzer для телугу.

th.microsoft

Microsoft analyzer для тайского языка.

th.lucene

Анализатор Lucene для тайского языка.

tr.microsoft

Microsoft Analyzer для турецкого языка.

tr.lucene

Анализатор Lucene для турецкого языка.

uk.microsoft

Microsoft Analyzer для украинского языка.

ur.microsoft

Microsoft analyzer для урду.

vi.microsoft

Microsoft Analyzer для вьетнамского языка.

standard.lucene

Стандартный анализатор люцина.

standardasciifolding.lucene

Стандартный ASCII Folding Lucene analyzer. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Обрабатывает все содержимое поля как один маркер. Это полезно для таких данных, как zip-коды, идентификаторы и некоторые имена продуктов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Гибко разделяет текст на термины с помощью шаблона регулярного выражения. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Делит текст на небуквенный; Применяет фильтры маркеров стоп-слов и строчных регистров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

Анализатор, использующий токенизатор пробелов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой.

Значение Описание
asciifolding

Преобразует алфавитные, числовые и символьные символы Юникода, которые не находятся в первых 127 символах ASCII (блок Юникода "Базовый латиница") в эквиваленты ASCII, если такие эквиваленты существуют. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Удаляет элизии. Например, "l'avion" (плоскость) преобразуется в "avion" (плоскость). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Нормализует текст лексемы в нижний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Стандартный нормализатор, который состоит из строчных и асцифульдных. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Нормализует текст токена в верхний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Определяет имена всех токенизаторов, поддерживаемых поисковой системой.

Значение Описание
classic

Токенизатор на основе грамматики, подходящий для обработки большинства европейских языковых документов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Маркеризирует входные данные из края в n-граммы заданных размеров. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Выводит все входные данные в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Разбивает текст по небуквенным символам. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Разбивает текст на основе правил определенного языка.

microsoft_language_stemming_tokenizer

Разделяет текст с помощью правил, относящихся к языку, и сокращает количество слов к базовым формам.

nGram

Маркеризирует входные данные в n-граммах заданных размеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Токенизатор для путьоподобных иерархий. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Стандартный анализатор Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Разбивает URL-адреса и сообщения электронной почты на один токен. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Разбивает текст по пробелам. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Определяет имена всех фильтров токенов, поддерживаемых поисковой системой.

Значение Описание
arabic_normalization

Фильтр маркеров, применяющий нормализатор арабского языка для нормализации орфографии. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Удаляет все знаки после апострофа (включая сам апостроф). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Преобразует алфавитные, числовые и символьные символы Юникода, которые не находятся в первых 127 символах ASCII (блок Юникода "Базовый латиница") в эквиваленты ASCII, если такие эквиваленты существуют. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Формирует большие кадры терминов CJK, созданных из стандартного токенизатора. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Нормализует различия в ширине символов CJK. Складывает варианты ASCII полной ширины в эквивалентный базовый латинский язык, а полуширинные варианты катаканы — в эквивалентный кану. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Удаляет англоязычные присяговы и точки из акронимов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Удаляет элизии. Например, "l'avion" (плоскость) преобразуется в "avion" (плоскость). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Нормализует немецкие символы в соответствии с эвристиками алгоритма снежного шара Германии 2. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Нормализует текст на хинди, чтобы удалить некоторые различия в орфографических вариациях. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Нормализует представление текста в Юникоде на индийских языках. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Выводит каждый входящий токен дважды, один раз в качестве ключевого слова и один раз как не ключевое слово. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Высокопроизводительный фильтр kstem для английского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Удаляет слишком длинные или слишком короткие слова. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Ограничивает количество маркеров при индексировании. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Нормализует токен текст в нижний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Создает n-граммы заданного размера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Применяет нормализацию для персидского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Создайте маркеры для фонетических совпадений. См. https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Для преобразования потока маркеров используется алгоритм стебля портера. См. http://tartarus.org/~martin/PorterStemmer

reverse

Переворачивает строку токенов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Нормализует использование взаимозаменяемых скандинавских знаков. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Складывает скандинавские иероглифы Ã¥Ã... äæÃ"Æa> и öÖã ̧à ̃-o>. Он также дискриминирует использование двойных гласных aa, ae, ao, oe и oo, оставляя только первый. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Создает сочетания токенов в виде одного токена. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Фильтр, который стебляет слова с помощью созданного сноубола стебля. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Нормализует представление текста Sorani в Юникоде. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Фильтр для конкретного языка. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Удаляет стоп-слова из потока токенов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Усекает пробелы в начале и конце токенов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Усечение терминов до определенной длины. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Нормализует текст токена, переводя его в верхний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов.