你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Indexes - Analyze
显示分析器如何将文本分解为标记。
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01
URI 参数
名称 | 在 | 必需 | 类型 | 说明 |
---|---|---|---|---|
endpoint
|
path | True |
string |
搜索服务的终结点 URL。 |
index
|
path | True |
string |
要测试分析器的索引的名称。 |
api-version
|
query | True |
string |
客户端 API 版本。 |
请求头
名称 | 必需 | 类型 | 说明 |
---|---|---|---|
x-ms-client-request-id |
string uuid |
随请求一起发送以帮助调试的跟踪 ID。 |
请求正文
名称 | 必需 | 类型 | 说明 |
---|---|---|---|
text | True |
string |
要分解为标记的文本。 |
analyzer |
用于中断给定文本的分析器的名称。 如果未指定此参数,则必须改为指定 tokenizer。 tokenizer 和分析器参数是互斥的。 |
||
charFilters |
在中断给定文本时要使用的可选字符筛选器列表。 仅当使用 tokenizer 参数时,才能设置此参数。 |
||
tokenFilters |
中断给定文本时要使用的可选标记筛选器列表。 仅当使用 tokenizer 参数时,才能设置此参数。 |
||
tokenizer |
用于中断给定文本的 tokenizer 的名称。 如果未指定此参数,则必须改为指定分析器。 tokenizer 和分析器参数是互斥的。 |
响应
名称 | 类型 | 说明 |
---|---|---|
200 OK | ||
Other Status Codes |
错误响应。 |
示例
SearchServiceIndexAnalyze
示例请求
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
示例响应
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
定义
名称 | 说明 |
---|---|
Analyzed |
有关分析器返回的令牌的信息。 |
Analyze |
指定一些用于将文本分解为标记的文本和分析组件。 |
Analyze |
测试文本分析器的结果。 |
Char |
定义搜索引擎支持的所有字符筛选器的名称。 |
Lexical |
定义搜索引擎支持的所有文本分析器的名称。 |
Lexical |
定义搜索引擎支持的所有 tokenizer 的名称。 |
Search |
描述 API 的错误条件。 |
Token |
定义搜索引擎支持的所有令牌筛选器的名称。 |
AnalyzedTokenInfo
有关分析器返回的令牌的信息。
名称 | 类型 | 说明 |
---|---|---|
endOffset |
integer |
输入文本中标记的最后一个字符的索引。 |
position |
integer |
标记在输入文本中相对于其他标记的位置。 输入文本中的第一个标记的位置为 0,下一个标记的位置为 1,依依。 根据所使用的分析器,某些令牌可能具有相同的位置,例如,如果它们是彼此的同义词。 |
startOffset |
integer |
输入文本中标记的第一个字符的索引。 |
token |
string |
分析器返回的令牌。 |
AnalyzeRequest
指定一些用于将文本分解为标记的文本和分析组件。
名称 | 类型 | 说明 |
---|---|---|
analyzer |
用于中断给定文本的分析器的名称。 如果未指定此参数,则必须改为指定 tokenizer。 tokenizer 和分析器参数是互斥的。 |
|
charFilters |
中断给定文本时要使用的字符筛选器的可选列表。 仅当使用 tokenizer 参数时,才能设置此参数。 |
|
text |
string |
要分解为标记的文本。 |
tokenFilters |
中断给定文本时要使用的标记筛选器的可选列表。 仅当使用 tokenizer 参数时,才能设置此参数。 |
|
tokenizer |
用于中断给定文本的 tokenizer 的名称。 如果未指定此参数,则必须改为指定分析器。 tokenizer 和分析器参数是互斥的。 |
AnalyzeResult
测试文本分析器的结果。
名称 | 类型 | 说明 |
---|---|---|
tokens |
请求中指定的分析器返回的令牌列表。 |
CharFilterName
定义搜索引擎支持的所有字符筛选器的名称。
名称 | 类型 | 说明 |
---|---|---|
html_strip |
string |
尝试去除 HTML 构造的字符筛选器。 请参见https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
LexicalAnalyzerName
定义搜索引擎支持的所有文本分析器的名称。
名称 | 类型 | 说明 |
---|---|---|
ar.lucene |
string |
Lucene 阿拉伯语分析器。 |
ar.microsoft |
string |
适用于阿拉伯语的 Microsoft 分析器。 |
bg.lucene |
string |
保加利亚语的 Lucene 分析器。 |
bg.microsoft |
string |
适用于保加利亚语的 Microsoft 分析器。 |
bn.microsoft |
string |
适用于孟加拉语的 Microsoft 分析器。 |
ca.lucene |
string |
加泰罗尼亚的 Lucene 分析器。 |
ca.microsoft |
string |
适用于加泰罗尼亚的 Microsoft 分析器。 |
cs.lucene |
string |
用于捷克的 Lucene 分析器。 |
cs.microsoft |
string |
适用于捷克的 Microsoft 分析器。 |
da.lucene |
string |
丹麦语的 Lucene 分析器。 |
da.microsoft |
string |
适用于丹麦语的 Microsoft 分析器。 |
de.lucene |
string |
用于德语的 Lucene 分析器。 |
de.microsoft |
string |
适用于德语的 Microsoft 分析器。 |
el.lucene |
string |
用于希腊语的 Lucene 分析器。 |
el.microsoft |
string |
适用于希腊语的 Microsoft 分析器。 |
en.lucene |
string |
Lucene 英语分析器。 |
en.microsoft |
string |
Microsoft 分析器英语版。 |
es.lucene |
string |
用于西班牙语的 Lucene 分析器。 |
es.microsoft |
string |
适用于西班牙语的 Microsoft 分析器。 |
et.microsoft |
string |
适用于爱沙尼亚语的 Microsoft 分析器。 |
eu.lucene |
string |
用于巴斯克的 Lucene 分析器。 |
fa.lucene |
string |
用于波斯语的 Lucene 分析器。 |
fi.lucene |
string |
芬兰语的 Lucene 分析器。 |
fi.microsoft |
string |
适用于芬兰语的 Microsoft 分析器。 |
fr.lucene |
string |
Lucene 法语分析器。 |
fr.microsoft |
string |
适用于法语的 Microsoft 分析器。 |
ga.lucene |
string |
用于爱尔兰的 Lucene 分析器。 |
gl.lucene |
string |
加利西亚语的 Lucene 分析器。 |
gu.microsoft |
string |
适用于古吉拉特语的 Microsoft 分析器。 |
he.microsoft |
string |
适用于希伯来语的 Microsoft 分析器。 |
hi.lucene |
string |
用于印地语的 Lucene 分析器。 |
hi.microsoft |
string |
适用于印地语的 Microsoft 分析器。 |
hr.microsoft |
string |
适用于克罗地亚的 Microsoft 分析器。 |
hu.lucene |
string |
匈牙利语的 Lucene 分析器。 |
hu.microsoft |
string |
适用于匈牙利语的 Microsoft 分析器。 |
hy.lucene |
string |
亚美尼亚语的卢塞内分析器。 |
id.lucene |
string |
印尼语的 Lucene 分析器。 |
id.microsoft |
string |
适用于印度尼西亚 (Bahasa) 的 Microsoft 分析器。 |
is.microsoft |
string |
适用于冰岛语的 Microsoft 分析器。 |
it.lucene |
string |
用于意大利语的 Lucene 分析器。 |
it.microsoft |
string |
适用于意大利语的 Microsoft 分析器。 |
ja.lucene |
string |
用于日语的 Lucene 分析器。 |
ja.microsoft |
string |
适用于日语的 Microsoft 分析器。 |
keyword |
string |
将某个字段的整个内容视为单个标记。 此方法可用于搜索邮政编码、ID 和某些产品名称等数据。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
适用于 Kannada 的 Microsoft 分析器。 |
ko.lucene |
string |
用于朝鲜语的 Lucene 分析器。 |
ko.microsoft |
string |
适用于朝鲜语的 Microsoft 分析器。 |
lt.microsoft |
string |
适用于立陶宛语的 Microsoft 分析器。 |
lv.lucene |
string |
用于拉脱维亚语的 Lucene 分析器。 |
lv.microsoft |
string |
适用于拉脱维亚语的 Microsoft 分析器。 |
ml.microsoft |
string |
Microsoft analyzer for Malayalam。 |
mr.microsoft |
string |
适用于 Marathi 的 Microsoft 分析器。 |
ms.microsoft |
string |
适用于马来语的 Microsoft 分析器 (拉丁语) 。 |
nb.microsoft |
string |
适用于挪威语的 Microsoft 分析器 (Bokmål) 。 |
nl.lucene |
string |
用于荷兰语的 Lucene 分析器。 |
nl.microsoft |
string |
适用于荷兰语的 Microsoft 分析器。 |
no.lucene |
string |
挪威语的 Lucene 分析器。 |
pa.microsoft |
string |
适用于旁遮普语的 Microsoft 分析器。 |
pattern |
string |
通过正则表达式模式将文本灵活地分解成多个词条。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
用于波兰语的 Lucene 分析器。 |
pl.microsoft |
string |
适用于波兰的 Microsoft 分析器。 |
pt-BR.lucene |
string |
巴西葡萄牙语 (Lucene 分析器) 。 |
pt-BR.microsoft |
string |
巴西葡萄牙语 (Microsoft 分析器) 。 |
pt-PT.lucene |
string |
葡萄牙 (葡萄牙) 的 Lucene 分析器。 |
pt-PT.microsoft |
string |
适用于葡萄牙语的 Microsoft 分析器 (葡萄牙) 。 |
ro.lucene |
string |
罗马尼亚语的 Lucene 分析器。 |
ro.microsoft |
string |
适用于罗马尼亚语的 Microsoft 分析器。 |
ru.lucene |
string |
用于俄语的 Lucene 分析器。 |
ru.microsoft |
string |
适用于俄语的 Microsoft 分析器。 |
simple |
string |
在非字母处划分文本并将其转换为小写。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
适用于斯洛伐克语的 Microsoft 分析器。 |
sl.microsoft |
string |
适用于斯洛文尼亚语的 Microsoft 分析器。 |
sr-cyrillic.microsoft |
string |
适用于塞尔维亚 (西里尔文) 的 Microsoft 分析器。 |
sr-latin.microsoft |
string |
适用于塞尔维亚语 (拉丁语) 的 Microsoft 分析器。 |
standard.lucene |
string |
标准 Lucene 分析器。 |
standardasciifolding.lucene |
string |
标准 ASCII 折叠 Lucene 分析器。 请参见https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
将文本除以非字母;应用小写和非字标记筛选器。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
用于瑞典语的 Lucene 分析器。 |
sv.microsoft |
string |
适用于瑞典语的 Microsoft 分析器。 |
ta.microsoft |
string |
适用于泰米尔语的 Microsoft 分析器。 |
te.microsoft |
string |
适用于 Telugu 的 Microsoft 分析器。 |
th.lucene |
string |
用于泰语的 Lucene 分析器。 |
th.microsoft |
string |
适用于泰语的 Microsoft 分析器。 |
tr.lucene |
string |
用于土耳其语的 Lucene 分析器。 |
tr.microsoft |
string |
适用于土耳其语的 Microsoft 分析器。 |
uk.microsoft |
string |
适用于乌克兰语的 Microsoft 分析器。 |
ur.microsoft |
string |
适用于乌尔都语的 Microsoft 分析器。 |
vi.microsoft |
string |
适用于越南语的 Microsoft 分析器。 |
whitespace |
string |
使用空格 tokenizer 的分析器。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
用于中文 (简体中文) 的 Lucene 分析器。 |
zh-Hans.microsoft |
string |
适用于中文的 Microsoft 分析器 (简体中文) 。 |
zh-Hant.lucene |
string |
中文 (传统) 的 Lucene 分析器。 |
zh-Hant.microsoft |
string |
适用于中文 (传统) 的 Microsoft 分析器。 |
LexicalTokenizerName
定义搜索引擎支持的所有 tokenizer 的名称。
SearchError
描述 API 的错误条件。
名称 | 类型 | 说明 |
---|---|---|
code |
string |
服务器定义的一组错误代码中的一个。 |
details |
有关导致此项报告错误的特定错误的详细信息数组。 |
|
message |
string |
错误的用户可读表示形式。 |
TokenFilterName
定义搜索引擎支持的所有令牌筛选器的名称。