Indexes - Analyze
Показывает, как анализатор разбивает текст на маркеры.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-05-01-preview
Параметры URI
Имя | В | Обязательно | Тип | Описание |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL-адрес конечной точки службы поиска. |
index
|
path | True |
string |
Имя индекса, для которого тестируется анализатор. |
api-version
|
query | True |
string |
Версия API клиента. |
Заголовок запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Идентификатор отслеживания, отправленный с запросом на помощь в отладке. |
Текст запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
text | True |
string |
Текст для разбиения на токены. |
analyzer |
Имя анализатора, используемого для прерывания заданного текста. |
||
charFilters |
Необязательный список фильтров символов, используемых при нарушении заданного текста. |
||
normalizer |
Имя нормализатора, используемого для нормализации заданного текста. |
||
tokenFilters |
Необязательный список фильтров маркеров, используемых при нарушении заданного текста. |
||
tokenizer |
Имя создателя маркеров, используемого для прерывания заданного текста. |
Ответы
Имя | Тип | Описание |
---|---|---|
200 OK | ||
Other Status Codes |
Ответ об ошибке. |
Примеры
SearchServiceIndexAnalyze
Образец запроса
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-05-01-preview
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Пример ответа
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Определения
Имя | Описание |
---|---|
Analyzed |
Сведения о маркере, возвращаемом анализатором. |
Analyze |
Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры. |
Analyze |
Результат тестирования анализатора в тексте. |
Char |
Определяет имена всех фильтров символов, поддерживаемых поисковой системой. |
Error |
Дополнительные сведения об ошибке управления ресурсами. |
Error |
Сведения об ошибке. |
Error |
Сообщение об ошибке |
Lexical |
Определяет имена всех анализаторов текста, поддерживаемых поисковой системой. |
Lexical |
Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой. |
Lexical |
Определяет имена всех создателей маркеров, поддерживаемых поисковой системой. |
Token |
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой. |
AnalyzedTokenInfo
Сведения о маркере, возвращаемом анализатором.
Имя | Тип | Описание |
---|---|---|
endOffset |
integer |
Индекс последнего символа маркера во входном тексте. |
position |
integer |
Положение маркера во входном тексте относительно других маркеров. Первый маркер во входном тексте имеет позицию 0, следующий — позицию 1 и т. д. В зависимости от используемого анализатора некоторые токены могут иметь одинаковое положение, например, если они являются синонимами друг друга. |
startOffset |
integer |
Индекс первого символа маркера во входном тексте. |
token |
string |
Маркер, возвращаемый анализатором. |
AnalyzeRequest
Указывает некоторые компоненты текста и анализа, используемые для разбиения этого текста на маркеры.
Имя | Тип | Описание |
---|---|---|
analyzer |
Имя анализатора, используемого для прерывания заданного текста. |
|
charFilters |
Необязательный список фильтров символов, используемых при нарушении заданного текста. |
|
normalizer |
Имя нормализатора, используемого для нормализации заданного текста. |
|
text |
string |
Текст для разбиения на токены. |
tokenFilters |
Необязательный список фильтров маркеров, используемых при нарушении заданного текста. |
|
tokenizer |
Имя создателя маркеров, используемого для прерывания заданного текста. |
AnalyzeResult
Результат тестирования анализатора в тексте.
Имя | Тип | Описание |
---|---|---|
tokens |
Список маркеров, возвращаемых анализатором, указанным в запросе. |
CharFilterName
Определяет имена всех фильтров символов, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
html_strip |
string |
Фильтр символов, который пытается удалить конструкции HTML. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Дополнительные сведения об ошибке управления ресурсами.
Имя | Тип | Описание |
---|---|---|
info |
object |
Дополнительные сведения. |
type |
string |
Тип дополнительных сведений. |
ErrorDetail
Сведения об ошибке.
Имя | Тип | Описание |
---|---|---|
additionalInfo |
Дополнительные сведения об ошибке. |
|
code |
string |
Код ошибки. |
details |
Сведения об ошибке. |
|
message |
string |
Сообщение об ошибке. |
target |
string |
Целевой объект ошибки. |
ErrorResponse
Сообщение об ошибке
Имя | Тип | Описание |
---|---|---|
error |
Объект error. |
LexicalAnalyzerName
Определяет имена всех анализаторов текста, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
ar.lucene |
string |
Анализатор Lucene для арабского языка. |
ar.microsoft |
string |
Анализатор Майкрософт для арабского языка. |
bg.lucene |
string |
Анализатор Lucene для болгарского. |
bg.microsoft |
string |
Анализатор Майкрософт для болгарского. |
bn.microsoft |
string |
Анализатор Майкрософт для Bangla. |
ca.lucene |
string |
Анализатор Lucene для каталонского. |
ca.microsoft |
string |
Анализатор Майкрософт для каталонского. |
cs.lucene |
string |
Анализатор Lucene для чешского языка. |
cs.microsoft |
string |
Анализатор Майкрософт для чешского языка. |
da.lucene |
string |
Анализатор Lucene для датского языка. |
da.microsoft |
string |
Анализатор Майкрософт для датского языка. |
de.lucene |
string |
Анализатор Lucene для немецкого языка. |
de.microsoft |
string |
Анализатор Майкрософт для немецкого языка. |
el.lucene |
string |
Анализатор Lucene для греческого языка. |
el.microsoft |
string |
Анализатор Майкрософт для греческого языка. |
en.lucene |
string |
Анализатор Lucene для английского языка. |
en.microsoft |
string |
Анализатор Майкрософт для английского языка. |
es.lucene |
string |
Анализатор Lucene для испанского языка. |
es.microsoft |
string |
Анализатор Майкрософт для испанского языка. |
et.microsoft |
string |
Анализатор Майкрософт для эстонского языка. |
eu.lucene |
string |
Анализатор Lucene для Баскского. |
fa.lucene |
string |
Анализатор Люцена для персидского языка. |
fi.lucene |
string |
Анализатор Lucene для финского языка. |
fi.microsoft |
string |
Анализатор Майкрософт для финского языка. |
fr.lucene |
string |
Анализатор Lucene для французского языка. |
fr.microsoft |
string |
Анализатор Майкрософт для французского языка. |
ga.lucene |
string |
Анализатор Lucene для ирландского. |
gl.lucene |
string |
Анализатор Lucene для Галисии. |
gu.microsoft |
string |
Анализатор Майкрософт для Гуджарати. |
he.microsoft |
string |
Анализатор Майкрософт для иврита. |
hi.lucene |
string |
Анализатор Lucene для хинди. |
hi.microsoft |
string |
Анализатор Майкрософт для хинди. |
hr.microsoft |
string |
Анализатор Майкрософт для хорватского языка. |
hu.lucene |
string |
Анализатор Lucene для венгерского. |
hu.microsoft |
string |
Анализатор Майкрософт для венгерского. |
hy.lucene |
string |
Анализатор Lucene для армянского. |
id.lucene |
string |
Анализатор Lucene для индонезийского языка. |
id.microsoft |
string |
Анализатор Майкрософт для индонезийского языка (Bahasa). |
is.microsoft |
string |
Анализатор Майкрософт для Исландии. |
it.lucene |
string |
Анализатор Lucene для итальянского языка. |
it.microsoft |
string |
Анализатор Майкрософт для итальянского языка. |
ja.lucene |
string |
Анализатор Lucene для японского языка. |
ja.microsoft |
string |
Анализатор Майкрософт для японского языка. |
keyword |
string |
Обрабатывает все содержимое поля как один маркер. Это полезно для данных некоторых типов, таких как почтовые индексы, идентификаторы и названия продуктов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Анализатор Майкрософт для Kannada. |
ko.lucene |
string |
Анализатор Lucene для корейского языка. |
ko.microsoft |
string |
Анализатор Майкрософт для корейского языка. |
lt.microsoft |
string |
Анализатор Майкрософт для Литвы. |
lv.lucene |
string |
Анализатор Lucene для латышского языка. |
lv.microsoft |
string |
Анализатор Майкрософт для латышского языка. |
ml.microsoft |
string |
Анализатор Майкрософт для Малаялам. |
mr.microsoft |
string |
Анализатор Майкрософт для Маратхи. |
ms.microsoft |
string |
Анализатор Майкрософт для малайского языка (латиница). |
nb.microsoft |
string |
Анализатор Microsoft для норвежского языка (Букмол). |
nl.lucene |
string |
Анализатор Lucene для голландского языка. |
nl.microsoft |
string |
Анализатор Майкрософт для голландского языка. |
no.lucene |
string |
Анализатор Lucene для норвежского языка. |
pa.microsoft |
string |
Анализатор Майкрософт для Пенджаби. |
pattern |
string |
Гибко разделяет текст на термины с помощью шаблона регулярного выражения. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Анализатор Lucene для польского. |
pl.microsoft |
string |
Анализатор Майкрософт для польского. |
pt-BR.lucene |
string |
Анализатор Lucene для португальского языка (Бразилия). |
pt-BR.microsoft |
string |
Анализатор Майкрософт для португальского языка (Бразилия). |
pt-PT.lucene |
string |
Анализатор Lucene для португальского языка (Португалия). |
pt-PT.microsoft |
string |
Анализатор Майкрософт для португальского языка (Португалия). |
ro.lucene |
string |
Анализатор Lucene для румынского языка. |
ro.microsoft |
string |
Анализатор Майкрософт для румынского языка. |
ru.lucene |
string |
Анализатор Lucene для русского языка. |
ru.microsoft |
string |
Анализатор Майкрософт для русского языка. |
simple |
string |
Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Анализатор Майкрософт для словацкого языка. |
sl.microsoft |
string |
Анализатор Майкрософт для словенского языка. |
sr-cyrillic.microsoft |
string |
Анализатор Майкрософт для сербского языка (кириллица). |
sr-latin.microsoft |
string |
Анализатор Майкрософт для сербского языка (латиница). |
standard.lucene |
string |
Стандартный анализатор Lucene. |
standardasciifolding.lucene |
string |
Стандартный анализатор ASCII Свертывание Lucene. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Анализатор Lucene для шведского языка. |
sv.microsoft |
string |
Анализатор Майкрософт для шведского языка. |
ta.microsoft |
string |
Анализатор Майкрософт для Тамильского. |
te.microsoft |
string |
Анализатор Майкрософт для Telugu. |
th.lucene |
string |
Анализатор Lucene для тайского языка. |
th.microsoft |
string |
Анализатор Майкрософт для тайского языка. |
tr.lucene |
string |
Анализатор Lucene для турецкого языка. |
tr.microsoft |
string |
Анализатор Майкрософт для турецкого языка. |
uk.microsoft |
string |
Анализатор Майкрософт для украинского языка. |
ur.microsoft |
string |
Анализатор Майкрософт для Urdu. |
vi.microsoft |
string |
Анализатор Майкрософт для вьетнамского. |
whitespace |
string |
Анализатор, использующий создатель маркеров пробелов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Анализатор Lucene для китайского языка (упрощенное письмо). |
zh-Hans.microsoft |
string |
Microsoft Analyzer для китайского языка (упрощенное письмо). |
zh-Hant.lucene |
string |
Анализатор Lucene для китайского языка (традиционное письмо). |
zh-Hant.microsoft |
string |
Анализатор Майкрософт для китайского языка (традиционное письмо). |
LexicalNormalizerName
Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
asciifolding |
string |
Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
elision |
string |
Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
lowercase |
string |
Нормализует текст маркера до нижнего регистра. См. раздел https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
standard |
string |
Стандартный нормализатор, состоящий из нижнего регистра и асциимирования. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
uppercase |
string |
Нормализует текст маркера до верхнего регистра. См. раздел https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Определяет имена всех создателей маркеров, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
classic |
string |
Грамматический создатель маркеров, который подходит для обработки большинства документов на европейском языке. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Маркеризует входные данные из ребра в n граммов заданного размера. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Выдает все входные данные в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Разбивает текст по небуквенным знакам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Разделяет текст, используя правила для конкретного языка, и сводит слова к их базовым формам. |
microsoft_language_tokenizer |
string |
Разбивает текст на основе правил определенного языка. |
nGram |
string |
Размечает входные данные на N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Создатель маркеров для иерархий в виде пути. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Стандартный анализатор Lucene; Состоит из стандартного маркеризатора, нижнего регистра фильтра и фильтра stop. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Размечает URL-адреса и сообщения электронной почты как один маркер. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Разбивает текст по пробелам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
TokenFilterName
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
apostrophe |
string |
Удаляет все знаки после апострофа (включая сам апостроф). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html |
arabic_normalization |
string |
Фильтр маркеров, применяющий нормализатор арабского языка для нормализации орфографии. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html |
asciifolding |
string |
Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
cjk_bigram |
string |
Forms бикрамы терминов CJK, созданные из стандартного создателя маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html |
cjk_width |
string |
Нормализует различия в ширине ККЯ. Сворачивают варианты fullwidth ASCII в эквивалентный базовый латиница, а полуширинный вариант Катакана — в эквивалентную кану. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html |
classic |
string |
Удаляет английские притяжательные символы и точки из аббревиатур. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html |
common_grams |
string |
Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html |
edgeNGram_v2 |
string |
Создает n граммов заданного размера, начиная с передней или задней части входного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html |
elision |
string |
Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
german_normalization |
string |
Нормализует немецкие символы в соответствии с эвристики алгоритма snowball German2. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html |
hindi_normalization |
string |
Нормализует текст на хинди, чтобы удалить некоторые различия в орфографических вариациях. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html |
indic_normalization |
string |
Нормализует представление текста в Юникоде на индийских языках. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html |
keyword_repeat |
string |
Выдает каждый входящий маркер дважды: один раз ключевое слово и один раз как не ключевое слово. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html |
kstem |
string |
Высокопроизводительный фильтр kstem для английского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html |
length |
string |
Удаляет слишком длинные или слишком короткие слова. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html |
limit |
string |
Ограничивает количество маркеров при индексировании. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html |
lowercase |
string |
Нормализует текст в маркере в нижний регистр. См. раздел https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
nGram_v2 |
string |
Создает N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html |
persian_normalization |
string |
Применяет нормализацию для персидского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html |
phonetic |
string |
Создает маркеры для фонетических совпадений. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html |
porter_stem |
string |
Для преобразования потока маркеров использует алгоритм парадигматического выражения Porter. См. раздел http://tartarus.org/~martin/PorterStemmer |
reverse |
string |
Обращает порядок строки маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
scandinavian_folding |
string |
Складывает скандинавские символы åÄäæÄÆ-a> и öÖøØ-o>. Он также предотвращает использование двойных гласных aa, ae, ao, oe и oo, оставляя только первую. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html |
scandinavian_normalization |
string |
Нормализует использование взаимозаменяемых скандинавских знаков. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html |
shingle |
string |
Создает сочетания маркеров в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html |
snowball |
string |
Фильтр, который объединяет слова с помощью парадигматического модуля, созданного Snowball. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html |
sorani_normalization |
string |
Нормализует представление текста в Юникоде на языке сорани. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html |
stemmer |
string |
Фильтр стволов для конкретного языка. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters |
stopwords |
string |
Удаляет стоп-слова из потока маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html |
trim |
string |
Усекает пробел в начале и конце маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html |
truncate |
string |
Усекает термины до определенной длины. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html |
unique |
string |
Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html |
uppercase |
string |
Нормализует текст в маркере в верхний регистр. См. раздел https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
word_delimiter |
string |
Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов. |