Indexes - Analyze
顯示分析器如何將文字分成標記。
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01
URI 參數
名稱 | 位於 | 必要 | 類型 | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
搜尋服務的端點 URL。 |
index
|
path | True |
string |
要測試分析器之索引的名稱。 |
api-version
|
query | True |
string |
用戶端 API 版本。 |
要求標頭
名稱 | 必要 | 類型 | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
隨要求一起傳送的追蹤標識碼,以協助偵錯。 |
要求本文
名稱 | 必要 | 類型 | Description |
---|---|---|---|
text | True |
string |
要分成標記的文字。 |
analyzer |
用來中斷指定文字的分析器名稱。 如果未指定此參數,您必須改為指定Tokenizer。 Tokenizer 和分析器參數互斥。 |
||
charFilters |
中斷指定文字時要使用的字元篩選選擇性清單。 只有在使用 Tokenizer 參數時,才能設定此參數。 |
||
tokenFilters |
中斷指定文字時要使用的令牌篩選選擇性清單。 只有在使用 Tokenizer 參數時,才能設定此參數。 |
||
tokenizer |
用來中斷指定文字之Tokenizer的名稱。 如果未指定此參數,您必須改為指定分析器。 Tokenizer 和分析器參數互斥。 |
回應
名稱 | 類型 | Description |
---|---|---|
200 OK | ||
Other Status Codes |
錯誤回應。 |
範例
SearchServiceIndexAnalyze
範例要求
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
範例回覆
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
定義
名稱 | Description |
---|---|
Analyzed |
分析器傳回之令牌的相關信息。 |
Analyze |
指定一些用來將文字分成標記的文字和分析元件。 |
Analyze |
在文字上測試分析器的結果。 |
Char |
定義搜尋引擎所支援之所有字元篩選的名稱。 |
Error |
資源管理錯誤其他資訊。 |
Error |
錯誤詳細數據。 |
Error |
錯誤回應 |
Lexical |
定義搜尋引擎所支援之所有文字分析器的名稱。 |
Lexical |
定義搜尋引擎支援的所有 Tokenizer 名稱。 |
Token |
定義搜尋引擎所支援之所有令牌篩選的名稱。 |
AnalyzedTokenInfo
分析器傳回之令牌的相關信息。
名稱 | 類型 | Description |
---|---|---|
endOffset |
integer |
輸入文字中標記最後一個字元的索引。 |
position |
integer |
標記在輸入文字中相對於其他標記的位置。 輸入文字中的第一個標記具有位置 0、下一個標記的位置 1 等等。 根據所使用的分析器而定,某些令牌的位置可能相同,例如,如果它們彼此同義。 |
startOffset |
integer |
輸入文字中標記第一個字元的索引。 |
token |
string |
分析器傳回的令牌。 |
AnalyzeRequest
指定一些用來將文字分成標記的文字和分析元件。
名稱 | 類型 | Description |
---|---|---|
analyzer |
用來中斷指定文字的分析器名稱。 如果未指定此參數,您必須改為指定Tokenizer。 Tokenizer 和分析器參數互斥。 |
|
charFilters |
中斷指定文字時要使用的字元篩選選擇性清單。 只有在使用 Tokenizer 參數時,才能設定此參數。 |
|
text |
string |
要分成標記的文字。 |
tokenFilters |
中斷指定文字時要使用的令牌篩選選擇性清單。 只有在使用 Tokenizer 參數時,才能設定此參數。 |
|
tokenizer |
用來中斷指定文字之Tokenizer的名稱。 如果未指定此參數,您必須改為指定分析器。 Tokenizer 和分析器參數互斥。 |
AnalyzeResult
在文字上測試分析器的結果。
名稱 | 類型 | Description |
---|---|---|
tokens |
要求中指定的分析器所傳回的令牌清單。 |
CharFilterName
定義搜尋引擎所支援之所有字元篩選的名稱。
名稱 | 類型 | Description |
---|---|---|
html_strip |
string |
嘗試去除 HTML 建構的字元篩選。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
資源管理錯誤其他資訊。
名稱 | 類型 | Description |
---|---|---|
info |
object |
其他資訊。 |
type |
string |
其他信息類型。 |
ErrorDetail
錯誤詳細數據。
名稱 | 類型 | Description |
---|---|---|
additionalInfo |
錯誤其他資訊。 |
|
code |
string |
錯誤碼。 |
details |
錯誤詳細數據。 |
|
message |
string |
錯誤訊息。 |
target |
string |
錯誤目標。 |
ErrorResponse
錯誤回應
名稱 | 類型 | Description |
---|---|---|
error |
error 物件。 |
LexicalAnalyzerName
定義搜尋引擎所支援之所有文字分析器的名稱。
名稱 | 類型 | Description |
---|---|---|
ar.lucene |
string |
阿拉伯文的 Lucene 分析器。 |
ar.microsoft |
string |
Microsoft阿拉伯文的分析器。 |
bg.lucene |
string |
保加利亞的 Lucene 分析器。 |
bg.microsoft |
string |
保加利亞文Microsoft分析器。 |
bn.microsoft |
string |
班格拉的 Microsoft 分析器。 |
ca.lucene |
string |
加泰隆尼亞的 Lucene 分析器。 |
ca.microsoft |
string |
Microsoft加泰羅尼亞的分析器。 |
cs.lucene |
string |
捷克文的 Lucene 分析器。 |
cs.microsoft |
string |
Microsoft捷克文的分析器。 |
da.lucene |
string |
丹麥文的 Lucene 分析器。 |
da.microsoft |
string |
Microsoft丹麥文的分析器。 |
de.lucene |
string |
適用於德文的 Lucene 分析器。 |
de.microsoft |
string |
Microsoft適用於德文的分析器。 |
el.lucene |
string |
希臘文的 Lucene 分析器。 |
el.microsoft |
string |
適用於希臘文的Microsoft分析器。 |
en.lucene |
string |
適用於英文的 Lucene 分析器。 |
en.microsoft |
string |
Microsoft英文分析器。 |
es.lucene |
string |
適用於西班牙文的 Lucene 分析器。 |
es.microsoft |
string |
Microsoft西班牙文分析器。 |
et.microsoft |
string |
愛沙尼亞Microsoft分析器。 |
eu.lucene |
string |
Basque 的 Lucene 分析器。 |
fa.lucene |
string |
波斯文的 Lucene 分析器。 |
fi.lucene |
string |
芬蘭文的 Lucene 分析器。 |
fi.microsoft |
string |
芬蘭文Microsoft分析器。 |
fr.lucene |
string |
適用於法文的 Lucene 分析器。 |
fr.microsoft |
string |
適用於法文Microsoft分析器。 |
ga.lucene |
string |
愛爾蘭的 Lucene 分析器。 |
gl.lucene |
string |
加利西亞的 Lucene 分析器。 |
gu.microsoft |
string |
Microsoft古吉拉蒂的分析器。 |
he.microsoft |
string |
Microsoft希伯來文的分析器。 |
hi.lucene |
string |
適用於印度文的 Lucene 分析器。 |
hi.microsoft |
string |
適用於印度文Microsoft分析器。 |
hr.microsoft |
string |
克羅埃西亞Microsoft分析器。 |
hu.lucene |
string |
匈牙利文的 Lucene 分析器。 |
hu.microsoft |
string |
匈牙利文Microsoft分析器。 |
hy.lucene |
string |
亞美尼亞文的 Lucene 分析器。 |
id.lucene |
string |
印尼文的 Lucene 分析器。 |
id.microsoft |
string |
Microsoft印尼(巴薩)的分析器。 |
is.microsoft |
string |
冰島Microsoft分析器。 |
it.lucene |
string |
義大利文的 Lucene 分析器。 |
it.microsoft |
string |
義大利文Microsoft分析器。 |
ja.lucene |
string |
日文的 Lucene 分析器。 |
ja.microsoft |
string |
日文Microsoft分析器。 |
keyword |
string |
將欄位的整個內容視為單一標記。 這適用於郵遞區號、標識元和某些產品名稱等數據。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
適用於 Kannada 的Microsoft分析器。 |
ko.lucene |
string |
韓文的 Lucene 分析器。 |
ko.microsoft |
string |
適用於韓文Microsoft分析器。 |
lt.microsoft |
string |
立陶宛Microsoft分析器。 |
lv.lucene |
string |
拉脫維亞的 Lucene 分析器。 |
lv.microsoft |
string |
拉脫維亞Microsoft分析器。 |
ml.microsoft |
string |
馬來亞蘭Microsoft分析器。 |
mr.microsoft |
string |
Microsoft Marathi 的分析器。 |
ms.microsoft |
string |
馬來語(拉丁)的Microsoft分析器。 |
nb.microsoft |
string |
挪威文(博克瑪律)的Microsoft分析器。 |
nl.lucene |
string |
荷蘭文的 Lucene 分析器。 |
nl.microsoft |
string |
Microsoft荷蘭文的分析器。 |
no.lucene |
string |
挪威文的 Lucene 分析器。 |
pa.microsoft |
string |
Microsoft旁遮普的分析器。 |
pattern |
string |
彈性地透過正則表示式模式將文字分隔成字詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
波蘭文的 Lucene 分析器。 |
pl.microsoft |
string |
Microsoft波蘭文的分析器。 |
pt-BR.lucene |
string |
葡萄牙文(巴西)的 Lucene 分析器。 |
pt-BR.microsoft |
string |
Microsoft葡萄牙文(巴西)的分析器。 |
pt-PT.lucene |
string |
葡萄牙文(葡萄牙)的 Lucene 分析器。 |
pt-PT.microsoft |
string |
葡萄牙文(葡萄牙)的Microsoft分析器。 |
ro.lucene |
string |
羅馬尼亞文的 Lucene 分析器。 |
ro.microsoft |
string |
Microsoft羅馬尼亞文的分析器。 |
ru.lucene |
string |
適用於俄羅斯的 Lucene 分析器。 |
ru.microsoft |
string |
適用於俄羅斯的Microsoft分析器。 |
simple |
string |
將文字分割成非字母,並將其轉換成小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
斯洛伐克文Microsoft分析器。 |
sl.microsoft |
string |
斯洛維尼亞Microsoft分析器。 |
sr-cyrillic.microsoft |
string |
塞爾維亞文(斯拉夫)的Microsoft分析器。 |
sr-latin.microsoft |
string |
塞爾維亞文(拉丁文)的Microsoft分析器。 |
standard.lucene |
string |
標準 Lucene 分析器。 |
standardasciifolding.lucene |
string |
標準 ASCII 折疊 Lucene 分析器。 請參閱 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
將文字分割為非字母;套用小寫和停用字詞標記篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
瑞典文的 Lucene 分析器。 |
sv.microsoft |
string |
Microsoft瑞典文的分析器。 |
ta.microsoft |
string |
泰米爾語Microsoft分析器。 |
te.microsoft |
string |
Microsoft Telugu 的分析器。 |
th.lucene |
string |
泰文的 Lucene 分析器。 |
th.microsoft |
string |
適用於泰文Microsoft分析器。 |
tr.lucene |
string |
土耳其文的 Lucene 分析器。 |
tr.microsoft |
string |
Microsoft土耳其文的分析器。 |
uk.microsoft |
string |
烏克蘭文Microsoft分析器。 |
ur.microsoft |
string |
烏爾都語的 Microsoft 分析器。 |
vi.microsoft |
string |
Microsoft越南語的分析器。 |
whitespace |
string |
使用空格符 Tokenizer 的分析器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
適用於中文的 Lucene 分析器(簡體中文)。 |
zh-Hans.microsoft |
string |
Microsoft中文分析器(簡體中文)。 |
zh-Hant.lucene |
string |
中國(繁體中文)的 Lucene 分析器。 |
zh-Hant.microsoft |
string |
Microsoft中文(繁體中文)分析器。 |
LexicalTokenizerName
定義搜尋引擎支援的所有 Tokenizer 名稱。
TokenFilterName
定義搜尋引擎所支援之所有令牌篩選的名稱。