Поделиться через


Indexes - Analyze

Показывает, как анализатор разбивает текст на маркеры.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-05-01-preview

Параметры URI

Имя В Обязательно Тип Описание
endpoint
path True

string

URL-адрес конечной точки службы поиска.

indexName
path True

string

Имя индекса, для которого тестируется анализатор.

api-version
query True

string

Версия API клиента.

Заголовок запроса

Имя Обязательно Тип Описание
x-ms-client-request-id

string

uuid

Идентификатор отслеживания, отправленный с запросом на помощь в отладке.

Текст запроса

Имя Обязательно Тип Описание
text True

string

Текст для разбиения на токены.

analyzer

LexicalAnalyzerName

Имя анализатора, используемого для прерывания заданного текста.

charFilters

CharFilterName[]

Необязательный список фильтров символов, используемых при нарушении заданного текста.

normalizer

LexicalNormalizerName

Имя нормализатора, используемого для нормализации заданного текста.

tokenFilters

TokenFilterName[]

Необязательный список фильтров маркеров, используемых при нарушении заданного текста.

tokenizer

LexicalTokenizerName

Имя создателя маркеров, используемого для прерывания заданного текста.

Ответы

Имя Тип Описание
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Ответ об ошибке.

Примеры

SearchServiceIndexAnalyze

Образец запроса

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-05-01-preview

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Пример ответа

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Определения

Имя Описание
AnalyzedTokenInfo

Сведения о маркере, возвращаемом анализатором.

AnalyzeRequest

Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.

AnalyzeResult

Результат тестирования анализатора в тексте.

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

ErrorDetail

Сведения об ошибке.

ErrorResponse

Сообщение об ошибке

LexicalAnalyzerName

Определяет имена всех анализаторов текста, поддерживаемых поисковой системой.

LexicalNormalizerName

Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой.

LexicalTokenizerName

Определяет имена всех создателей маркеров, поддерживаемых поисковой системой.

TokenFilterName

Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

AnalyzedTokenInfo

Сведения о маркере, возвращаемом анализатором.

Имя Тип Описание
endOffset

integer

Индекс последнего символа маркера во входном тексте.

position

integer

Положение маркера во входном тексте относительно других маркеров. Первый маркер во входном тексте имеет позицию 0, следующий — позицию 1 и т. д. В зависимости от используемого анализатора некоторые токены могут иметь одинаковое положение, например, если они являются синонимами друг друга.

startOffset

integer

Индекс первого символа маркера во входном тексте.

token

string

Маркер, возвращаемый анализатором.

AnalyzeRequest

Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.

Имя Тип Описание
analyzer

LexicalAnalyzerName

Имя анализатора, используемого для прерывания заданного текста.

charFilters

CharFilterName[]

Необязательный список фильтров символов, используемых при нарушении заданного текста.

normalizer

LexicalNormalizerName

Имя нормализатора, используемого для нормализации заданного текста.

text

string

Текст для разбиения на токены.

tokenFilters

TokenFilterName[]

Необязательный список фильтров маркеров, используемых при нарушении заданного текста.

tokenizer

LexicalTokenizerName

Имя создателя маркеров, используемого для прерывания заданного текста.

AnalyzeResult

Результат тестирования анализатора в тексте.

Имя Тип Описание
tokens

AnalyzedTokenInfo[]

Список маркеров, возвращаемых анализатором, указанным в запросе.

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

Имя Тип Описание
html_strip

string

Фильтр символов, который пытается удалить конструкции HTML. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

Имя Тип Описание
info

object

Дополнительные сведения.

type

string

Тип дополнительных сведений.

ErrorDetail

Сведения об ошибке.

Имя Тип Описание
additionalInfo

ErrorAdditionalInfo[]

Дополнительные сведения об ошибке.

code

string

Код ошибки.

details

ErrorDetail[]

Сведения об ошибке.

message

string

Сообщение об ошибке.

target

string

Целевой объект ошибки.

ErrorResponse

Сообщение об ошибке

Имя Тип Описание
error

ErrorDetail

Объект error.

LexicalAnalyzerName

Определяет имена всех анализаторов текста, поддерживаемых поисковой системой.

Имя Тип Описание
ar.lucene

string

Анализатор Lucene для арабского языка.

ar.microsoft

string

Анализатор Майкрософт для арабского языка.

bg.lucene

string

Анализатор Lucene для болгарского.

bg.microsoft

string

Анализатор Майкрософт для болгарского.

bn.microsoft

string

Анализатор Майкрософт для Bangla.

ca.lucene

string

Анализатор Lucene для каталонского.

ca.microsoft

string

Анализатор Майкрософт для каталонского.

cs.lucene

string

Анализатор Lucene для чешского языка.

cs.microsoft

string

Анализатор Майкрософт для чешского языка.

da.lucene

string

Анализатор Lucene для датского языка.

da.microsoft

string

Анализатор Майкрософт для датского языка.

de.lucene

string

Анализатор Lucene для немецкого языка.

de.microsoft

string

Анализатор Майкрософт для немецкого языка.

el.lucene

string

Анализатор Lucene для греческого языка.

el.microsoft

string

Анализатор Майкрософт для греческого языка.

en.lucene

string

Анализатор Lucene для английского языка.

en.microsoft

string

Анализатор Майкрософт для английского языка.

es.lucene

string

Анализатор Lucene для испанского языка.

es.microsoft

string

Анализатор Майкрософт для испанского языка.

et.microsoft

string

Анализатор Майкрософт для эстонского языка.

eu.lucene

string

Анализатор Lucene для Баскского.

fa.lucene

string

Анализатор Люцена для персидского языка.

fi.lucene

string

Анализатор Lucene для финского языка.

fi.microsoft

string

Анализатор Майкрософт для финского языка.

fr.lucene

string

Анализатор Lucene для французского языка.

fr.microsoft

string

Анализатор Майкрософт для французского языка.

ga.lucene

string

Анализатор Lucene для ирландского.

gl.lucene

string

Анализатор Lucene для Галисии.

gu.microsoft

string

Анализатор Майкрософт для Гуджарати.

he.microsoft

string

Анализатор Майкрософт для иврита.

hi.lucene

string

Анализатор Lucene для хинди.

hi.microsoft

string

Анализатор Майкрософт для хинди.

hr.microsoft

string

Анализатор Майкрософт для хорватского языка.

hu.lucene

string

Анализатор Lucene для венгерского.

hu.microsoft

string

Анализатор Майкрософт для венгерского.

hy.lucene

string

Анализатор Lucene для армянского.

id.lucene

string

Анализатор Lucene для индонезийского языка.

id.microsoft

string

Анализатор Майкрософт для индонезийского языка (Bahasa).

is.microsoft

string

Анализатор Майкрософт для Исландии.

it.lucene

string

Анализатор Lucene для итальянского языка.

it.microsoft

string

Анализатор Майкрософт для итальянского языка.

ja.lucene

string

Анализатор Lucene для японского языка.

ja.microsoft

string

Анализатор Майкрософт для японского языка.

keyword

string

Обрабатывает все содержимое поля как один маркер. Это полезно для данных некоторых типов, таких как почтовые индексы, идентификаторы и названия продуктов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Анализатор Майкрософт для Kannada.

ko.lucene

string

Анализатор Lucene для корейского языка.

ko.microsoft

string

Анализатор Майкрософт для корейского языка.

lt.microsoft

string

Анализатор Майкрософт для Литвы.

lv.lucene

string

Анализатор Lucene для латышского языка.

lv.microsoft

string

Анализатор Майкрософт для латышского языка.

ml.microsoft

string

Анализатор Майкрософт для Малаялам.

mr.microsoft

string

Анализатор Майкрософт для Маратхи.

ms.microsoft

string

Анализатор Майкрософт для малайского языка (латиница).

nb.microsoft

string

Анализатор Microsoft для норвежского языка (Букмол).

nl.lucene

string

Анализатор Lucene для голландского языка.

nl.microsoft

string

Анализатор Майкрософт для голландского языка.

no.lucene

string

Анализатор Lucene для норвежского языка.

pa.microsoft

string

Анализатор Майкрософт для Пенджаби.

pattern

string

Гибко разделяет текст на термины с помощью шаблона регулярного выражения. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Анализатор Lucene для польского.

pl.microsoft

string

Анализатор Майкрософт для польского.

pt-BR.lucene

string

Анализатор Lucene для португальского языка (Бразилия).

pt-BR.microsoft

string

Анализатор Майкрософт для португальского языка (Бразилия).

pt-PT.lucene

string

Анализатор Lucene для португальского языка (Португалия).

pt-PT.microsoft

string

Анализатор Майкрософт для португальского языка (Португалия).

ro.lucene

string

Анализатор Lucene для румынского языка.

ro.microsoft

string

Анализатор Майкрософт для румынского языка.

ru.lucene

string

Анализатор Lucene для русского языка.

ru.microsoft

string

Анализатор Майкрософт для русского языка.

simple

string

Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Анализатор Майкрософт для словацкого языка.

sl.microsoft

string

Анализатор Майкрософт для словенского языка.

sr-cyrillic.microsoft

string

Анализатор Майкрософт для сербского языка (кириллица).

sr-latin.microsoft

string

Анализатор Майкрософт для сербского языка (латиница).

standard.lucene

string

Стандартный анализатор Lucene.

standardasciifolding.lucene

string

Стандартный анализатор ASCII Свертывание Lucene. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Анализатор Lucene для шведского языка.

sv.microsoft

string

Анализатор Майкрософт для шведского языка.

ta.microsoft

string

Анализатор Майкрософт для Тамильского.

te.microsoft

string

Анализатор Майкрософт для Telugu.

th.lucene

string

Анализатор Lucene для тайского языка.

th.microsoft

string

Анализатор Майкрософт для тайского языка.

tr.lucene

string

Анализатор Lucene для турецкого языка.

tr.microsoft

string

Анализатор Майкрософт для турецкого языка.

uk.microsoft

string

Анализатор Майкрософт для украинского языка.

ur.microsoft

string

Анализатор Майкрософт для Urdu.

vi.microsoft

string

Анализатор Майкрософт для вьетнамского.

whitespace

string

Анализатор, использующий создатель маркеров пробелов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Анализатор Lucene для китайского языка (упрощенное письмо).

zh-Hans.microsoft

string

Microsoft Analyzer для китайского языка (упрощенное письмо).

zh-Hant.lucene

string

Анализатор Lucene для китайского языка (традиционное письмо).

zh-Hant.microsoft

string

Анализатор Майкрософт для китайского языка (традиционное письмо).

LexicalNormalizerName

Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой.

Имя Тип Описание
asciifolding

string

Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

string

Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

string

Нормализует текст маркера до нижнего регистра. См. раздел https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

string

Стандартный нормализатор, состоящий из нижнего регистра и асциимирования. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

string

Нормализует текст маркера до верхнего регистра. См. раздел https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Определяет имена всех создателей маркеров, поддерживаемых поисковой системой.

Имя Тип Описание
classic

string

Грамматический создатель маркеров, который подходит для обработки большинства документов на европейском языке. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Маркеризует входные данные из ребра в n граммов заданного размера. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Выдает все входные данные в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Разбивает текст по небуквенным знакам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Разделяет текст, используя правила для конкретного языка, и сводит слова к их базовым формам.

microsoft_language_tokenizer

string

Разбивает текст на основе правил определенного языка.

nGram

string

Размечает входные данные на N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Создатель маркеров для иерархий в виде пути. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Стандартный анализатор Lucene; Состоит из стандартного маркеризатора, нижнего регистра фильтра и фильтра stop. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Размечает URL-адреса и сообщения электронной почты как один маркер. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Разбивает текст по пробелам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

Имя Тип Описание
apostrophe

string

Удаляет все знаки после апострофа (включая сам апостроф). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Фильтр маркеров, применяющий нормализатор арабского языка для нормализации орфографии. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forms бикрамы терминов CJK, созданные из стандартного создателя маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Нормализует различия в ширине ККЯ. Сворачивают варианты fullwidth ASCII в эквивалентный базовый латиница, а полуширинный вариант Катакана — в эквивалентную кану. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Удаляет английские притяжательные символы и точки из аббревиатур. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Создает n граммов заданного размера, начиная с передней или задней части входного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Нормализует немецкие символы в соответствии с эвристики алгоритма snowball German2. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Нормализует текст на хинди, чтобы удалить некоторые различия в орфографических вариациях. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Нормализует представление текста в Юникоде на индийских языках. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Выдает каждый входящий маркер дважды: один раз ключевое слово и один раз как не ключевое слово. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Высокопроизводительный фильтр kstem для английского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Удаляет слишком длинные или слишком короткие слова. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Ограничивает количество маркеров при индексировании. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Нормализует текст в маркере в нижний регистр. См. раздел https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Создает N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Применяет нормализацию для персидского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Создает маркеры для фонетических совпадений. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Для преобразования потока маркеров использует алгоритм парадигматического выражения Porter. См. раздел http://tartarus.org/~martin/PorterStemmer

reverse

string

Обращает порядок строки маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Складывает скандинавские символы åÄäæÄÆ-a> и öÖøØ-o>. Он также предотвращает использование двойных гласных aa, ae, ao, oe и oo, оставляя только первую. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Нормализует использование взаимозаменяемых скандинавских знаков. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Создает сочетания маркеров в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Фильтр, который объединяет слова с помощью парадигматического модуля, созданного Snowball. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Нормализует представление текста в Юникоде на языке сорани. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Фильтр стволов для конкретного языка. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Удаляет стоп-слова из потока маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Усекает пробел в начале и конце маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Усекает термины до определенной длины. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Нормализует текст в маркере в верхний регистр. См. раздел https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов.