Indexes - Analyze
분석기가 텍스트를 토큰으로 나누는 방법을 보여 줍니다.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01
URI 매개 변수
Name | In(다음 안에) | 필수 | 형식 | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
검색 서비스의 엔드포인트 URL입니다. |
index
|
path | True |
string |
분석기를 테스트할 인덱스의 이름입니다. |
api-version
|
query | True |
string |
클라이언트 API 버전입니다. |
요청 헤더
Name | 필수 | 형식 | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
디버깅에 도움이 되도록 요청과 함께 전송된 추적 ID입니다. |
요청 본문
Name | 필수 | 형식 | Description |
---|---|---|---|
text | True |
string |
토큰으로 분리할 텍스트입니다. |
analyzer |
지정된 텍스트를 중단하는 데 사용할 분석기의 이름입니다. 이 매개 변수를 지정하지 않으면 대신 토큰화기를 지정해야 합니다. tokenizer 및 분석기 매개 변수는 상호 배타적입니다. |
||
charFilters |
지정된 텍스트를 분리할 때 사용할 문자 필터의 선택적 목록입니다. 이 매개 변수는 tokenizer 매개 변수를 사용하는 경우에만 설정할 수 있습니다. |
||
tokenFilters |
지정된 텍스트를 분리할 때 사용할 토큰 필터의 선택적 목록입니다. 이 매개 변수는 tokenizer 매개 변수를 사용하는 경우에만 설정할 수 있습니다. |
||
tokenizer |
지정된 텍스트를 중단하는 데 사용할 tokenizer의 이름입니다. 이 매개 변수를 지정하지 않으면 대신 분석기를 지정해야 합니다. tokenizer 및 분석기 매개 변수는 상호 배타적입니다. |
응답
Name | 형식 | Description |
---|---|---|
200 OK | ||
Other Status Codes |
오류 응답입니다. |
예제
SearchServiceIndexAnalyze
샘플 요청
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
샘플 응답
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
정의
Name | Description |
---|---|
Analyzed |
분석기에서 반환된 토큰에 대한 정보입니다. |
Analyze |
해당 텍스트를 토큰으로 분리하는 데 사용되는 일부 텍스트 및 분석 구성 요소를 지정합니다. |
Analyze |
텍스트에서 분석기를 테스트한 결과입니다. |
Char |
검색 엔진에서 지원하는 모든 문자 필터의 이름을 정의합니다. |
Error |
리소스 관리 오류 추가 정보입니다. |
Error |
오류 세부 정보입니다. |
Error |
오류 응답 |
Lexical |
검색 엔진에서 지원하는 모든 텍스트 분석기의 이름을 정의합니다. |
Lexical |
검색 엔진에서 지원하는 모든 토큰화기의 이름을 정의합니다. |
Token |
검색 엔진에서 지원하는 모든 토큰 필터의 이름을 정의합니다. |
AnalyzedTokenInfo
분석기에서 반환된 토큰에 대한 정보입니다.
Name | 형식 | Description |
---|---|---|
endOffset |
integer |
입력 텍스트에 있는 토큰의 마지막 문자 인덱스입니다. |
position |
integer |
다른 토큰을 기준으로 입력 텍스트에서 토큰의 위치입니다. 입력 텍스트의 첫 번째 토큰은 위치가 0이고, 다음에는 위치 1이 있습니다. 사용된 분석기에서 일부 토큰의 위치는 같을 수 있습니다(예: 서로 동의어인 경우). |
startOffset |
integer |
입력 텍스트에 있는 토큰의 첫 번째 문자 인덱스입니다. |
token |
string |
분석기에서 반환된 토큰입니다. |
AnalyzeRequest
해당 텍스트를 토큰으로 분리하는 데 사용되는 일부 텍스트 및 분석 구성 요소를 지정합니다.
Name | 형식 | Description |
---|---|---|
analyzer |
지정된 텍스트를 중단하는 데 사용할 분석기의 이름입니다. 이 매개 변수를 지정하지 않으면 대신 토큰화기를 지정해야 합니다. tokenizer 및 분석기 매개 변수는 상호 배타적입니다. |
|
charFilters |
지정된 텍스트를 분리할 때 사용할 문자 필터의 선택적 목록입니다. 이 매개 변수는 tokenizer 매개 변수를 사용하는 경우에만 설정할 수 있습니다. |
|
text |
string |
토큰으로 분리할 텍스트입니다. |
tokenFilters |
지정된 텍스트를 분리할 때 사용할 토큰 필터의 선택적 목록입니다. 이 매개 변수는 tokenizer 매개 변수를 사용하는 경우에만 설정할 수 있습니다. |
|
tokenizer |
지정된 텍스트를 중단하는 데 사용할 tokenizer의 이름입니다. 이 매개 변수를 지정하지 않으면 대신 분석기를 지정해야 합니다. tokenizer 및 분석기 매개 변수는 상호 배타적입니다. |
AnalyzeResult
텍스트에서 분석기를 테스트한 결과입니다.
Name | 형식 | Description |
---|---|---|
tokens |
요청에 지정된 분석기에서 반환된 토큰 목록입니다. |
CharFilterName
검색 엔진에서 지원하는 모든 문자 필터의 이름을 정의합니다.
Name | 형식 | Description |
---|---|---|
html_strip |
string |
HTML 구문을 제거하려는 문자 필터입니다. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html 참조 |
ErrorAdditionalInfo
리소스 관리 오류 추가 정보입니다.
Name | 형식 | Description |
---|---|---|
info |
object |
추가 정보입니다. |
type |
string |
추가 정보 유형입니다. |
ErrorDetail
오류 세부 정보입니다.
Name | 형식 | Description |
---|---|---|
additionalInfo |
오류 추가 정보입니다. |
|
code |
string |
오류 코드입니다. |
details |
오류 세부 정보입니다. |
|
message |
string |
오류 메시지입니다. |
target |
string |
오류 대상입니다. |
ErrorResponse
오류 응답
Name | 형식 | Description |
---|---|---|
error |
오류 개체입니다. |
LexicalAnalyzerName
검색 엔진에서 지원하는 모든 텍스트 분석기의 이름을 정의합니다.
Name | 형식 | Description |
---|---|---|
ar.lucene |
string |
아랍어용 Lucene 분석기입니다. |
ar.microsoft |
string |
아랍어용 Microsoft 분석기입니다. |
bg.lucene |
string |
불가리아어용 Lucene 분석기입니다. |
bg.microsoft |
string |
불가리아어용 Microsoft 분석기입니다. |
bn.microsoft |
string |
Bangla용 Microsoft 분석기입니다. |
ca.lucene |
string |
카탈로니아어 Lucene 분석기입니다. |
ca.microsoft |
string |
카탈로니아어용 Microsoft 분석기입니다. |
cs.lucene |
string |
체코어용 Lucene 분석기입니다. |
cs.microsoft |
string |
체코어용 Microsoft 분석기입니다. |
da.lucene |
string |
덴마크어용 Lucene 분석기입니다. |
da.microsoft |
string |
덴마크어용 Microsoft 분석기입니다. |
de.lucene |
string |
독일어용 Lucene 분석기입니다. |
de.microsoft |
string |
독일어용 Microsoft 분석기입니다. |
el.lucene |
string |
그리스어용 Lucene 분석기입니다. |
el.microsoft |
string |
그리스어용 Microsoft 분석기입니다. |
en.lucene |
string |
영어용 Lucene 분석기입니다. |
en.microsoft |
string |
영어용 Microsoft 분석기입니다. |
es.lucene |
string |
스페인어용 Lucene 분석기입니다. |
es.microsoft |
string |
스페인어용 Microsoft 분석기입니다. |
et.microsoft |
string |
에스토니아어용 Microsoft 분석기입니다. |
eu.lucene |
string |
Basque용 Lucene 분석기입니다. |
fa.lucene |
string |
페르시아어용 Lucene 분석기입니다. |
fi.lucene |
string |
핀란드어용 Lucene 분석기입니다. |
fi.microsoft |
string |
핀란드어용 Microsoft 분석기입니다. |
fr.lucene |
string |
프랑스어용 Lucene 분석기입니다. |
fr.microsoft |
string |
프랑스어용 Microsoft 분석기입니다. |
ga.lucene |
string |
아일랜드어용 Lucene 분석기입니다. |
gl.lucene |
string |
Galician용 Lucene 분석기입니다. |
gu.microsoft |
string |
Gujarati용 Microsoft 분석기입니다. |
he.microsoft |
string |
히브리어용 Microsoft 분석기. |
hi.lucene |
string |
힌디어용 Lucene 분석기입니다. |
hi.microsoft |
string |
힌디어용 Microsoft 분석기입니다. |
hr.microsoft |
string |
크로아티아어용 Microsoft 분석기입니다. |
hu.lucene |
string |
헝가리어용 Lucene 분석기입니다. |
hu.microsoft |
string |
헝가리어용 Microsoft 분석기입니다. |
hy.lucene |
string |
아르메니아어용 Lucene 분석기입니다. |
id.lucene |
string |
인도네시아어용 Lucene 분석기입니다. |
id.microsoft |
string |
인도네시아어용 Microsoft 분석기(Bahasa). |
is.microsoft |
string |
아이슬란드어용 Microsoft 분석기입니다. |
it.lucene |
string |
이탈리아어용 Lucene 분석기입니다. |
it.microsoft |
string |
이탈리아어용 Microsoft 분석기입니다. |
ja.lucene |
string |
일본어용 Lucene 분석기입니다. |
ja.microsoft |
string |
일본어용 Microsoft 분석기입니다. |
keyword |
string |
필드의 전체 콘텐츠를 단일 토큰으로 처리합니다. 이는 우편 번호, ID 및 일부 제품 이름과 같은 데이터에 유용합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html 참조 |
kn.microsoft |
string |
Kannada용 Microsoft 분석기입니다. |
ko.lucene |
string |
한국어용 Lucene 분석기입니다. |
ko.microsoft |
string |
한국어용 Microsoft 분석기입니다. |
lt.microsoft |
string |
리투아니아어용 Microsoft 분석기입니다. |
lv.lucene |
string |
라트비아어용 Lucene 분석기입니다. |
lv.microsoft |
string |
라트비아어용 Microsoft 분석기입니다. |
ml.microsoft |
string |
Malayalam용 Microsoft 분석기입니다. |
mr.microsoft |
string |
Marathi용 Microsoft 분석기입니다. |
ms.microsoft |
string |
말레이어용 Microsoft 분석기(라틴 문자) |
nb.microsoft |
string |
노르웨이어용 Microsoft 분석기(Bokmål). |
nl.lucene |
string |
네덜란드어용 Lucene 분석기입니다. |
nl.microsoft |
string |
네덜란드어용 Microsoft 분석기입니다. |
no.lucene |
string |
노르웨이어용 Lucene 분석기입니다. |
pa.microsoft |
string |
펀자브어용 Microsoft 분석기입니다. |
pattern |
string |
정규식 패턴을 통해 텍스트를 용어로 유연하게 구분합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html 참조 |
pl.lucene |
string |
폴란드어용 Lucene 분석기입니다. |
pl.microsoft |
string |
폴란드어용 Microsoft 분석기입니다. |
pt-BR.lucene |
string |
포르투갈어(브라질)용 Lucene 분석기입니다. |
pt-BR.microsoft |
string |
포르투갈어(브라질)용 Microsoft 분석기입니다. |
pt-PT.lucene |
string |
포르투갈어(포르투갈)용 Lucene 분석기입니다. |
pt-PT.microsoft |
string |
포르투갈어(포르투갈)용 Microsoft 분석기입니다. |
ro.lucene |
string |
루마니아어 Lucene 분석기입니다. |
ro.microsoft |
string |
루마니아어용 Microsoft 분석기입니다. |
ru.lucene |
string |
러시아어용 Lucene 분석기입니다. |
ru.microsoft |
string |
러시아어용 Microsoft 분석기입니다. |
simple |
string |
텍스트를 문자가 아닌 문자로 나누고 소문자로 변환합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html 참조 |
sk.microsoft |
string |
슬로바키아어용 Microsoft 분석기입니다. |
sl.microsoft |
string |
슬로베니아어용 Microsoft 분석기입니다. |
sr-cyrillic.microsoft |
string |
세르비아어용 Microsoft 분석기(키릴 자모). |
sr-latin.microsoft |
string |
세르비아어(라틴어)용 Microsoft 분석기입니다. |
standard.lucene |
string |
표준 Lucene 분석기입니다. |
standardasciifolding.lucene |
string |
표준 ASCII 접기 Lucene 분석기입니다. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers 참조 |
stop |
string |
텍스트를 문자가 아닌 문자로 나눕니다. 소문자 및 중지 단어 토큰 필터를 적용합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html 참조 |
sv.lucene |
string |
스웨덴어용 Lucene 분석기입니다. |
sv.microsoft |
string |
스웨덴어용 Microsoft 분석기입니다. |
ta.microsoft |
string |
타밀어용 Microsoft 분석기. |
te.microsoft |
string |
Telugu용 Microsoft 분석기입니다. |
th.lucene |
string |
태국어용 Lucene 분석기입니다. |
th.microsoft |
string |
태국어용 Microsoft 분석기입니다. |
tr.lucene |
string |
터키어용 Lucene 분석기입니다. |
tr.microsoft |
string |
터키어용 Microsoft 분석기입니다. |
uk.microsoft |
string |
우크라이나어용 Microsoft 분석기입니다. |
ur.microsoft |
string |
Urdu용 Microsoft 분석기입니다. |
vi.microsoft |
string |
베트남어용 Microsoft 분석기입니다. |
whitespace |
string |
공백 토큰화기를 사용하는 분석기입니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html 참조 |
zh-Hans.lucene |
string |
중국어(간체)용 Lucene 분석기입니다. |
zh-Hans.microsoft |
string |
중국어용 Microsoft 분석기(간체). |
zh-Hant.lucene |
string |
중국어(번체)용 Lucene 분석기입니다. |
zh-Hant.microsoft |
string |
중국어(번체)용 Microsoft 분석기입니다. |
LexicalTokenizerName
검색 엔진에서 지원하는 모든 토큰화기의 이름을 정의합니다.
TokenFilterName
검색 엔진에서 지원하는 모든 토큰 필터의 이름을 정의합니다.