Indexes - Analyze
Laat zien hoe een analyse tekst opsplitst in tokens.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01
URI-parameters
Name | In | Vereist | Type | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
De eindpunt-URL van de zoekservice. |
index
|
path | True |
string |
De naam van de index waarvoor een analyse moet worden getest. |
api-version
|
query | True |
string |
Client-API-versie. |
Aanvraagkoptekst
Name | Vereist | Type | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
De tracerings-id die met de aanvraag wordt verzonden om te helpen bij foutopsporing. |
Aanvraagbody
Name | Vereist | Type | Description |
---|---|---|---|
text | True |
string |
De tekst die moet worden opgesplitst in tokens. |
analyzer |
De naam van de analyse die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De parameters tokenizer en analyzer sluiten elkaar uit. |
||
charFilters |
Een optionele lijst met tekenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de parameter tokenizer gebruikt. |
||
tokenFilters |
Een optionele lijst met tokenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de parameter tokenizer gebruikt. |
||
tokenizer |
De naam van de tokenizer die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyse opgeven. De parameters tokenizer en analyzer sluiten elkaar uit. |
Antwoorden
Name | Type | Description |
---|---|---|
200 OK | ||
Other Status Codes |
Foutreactie. |
Voorbeelden
SearchServiceIndexAnalyze
Sample Request
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Sample Response
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definities
Name | Description |
---|---|
Analyzed |
Informatie over een token dat door een analyse wordt geretourneerd. |
Analyze |
Hiermee geeft u enkele tekst- en analyseonderdelen op die worden gebruikt om die tekst op te splitsen in tokens. |
Analyze |
Het resultaat van het testen van een analyse op tekst. |
Char |
Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine. |
Lexical |
Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine. |
Lexical |
Definieert de namen van alle tokenizers die worden ondersteund door de zoekmachine. |
Search |
Beschrijft een foutvoorwaarde voor de API. |
Token |
Definieert de namen van alle tokenfilters die worden ondersteund door de zoekmachine. |
AnalyzedTokenInfo
Informatie over een token dat door een analyse wordt geretourneerd.
Name | Type | Description |
---|---|---|
endOffset |
integer |
De index van het laatste teken van het token in de invoertekst. |
position |
integer |
De positie van het token in de invoertekst ten opzichte van andere tokens. Het eerste token in de invoertekst heeft positie 0, het volgende heeft positie 1, enzovoort. Afhankelijk van de analyse die wordt gebruikt, kunnen sommige tokens dezelfde positie hebben, bijvoorbeeld als ze synoniemen van elkaar zijn. |
startOffset |
integer |
De index van het eerste teken van het token in de invoertekst. |
token |
string |
Het token dat door de analyse wordt geretourneerd. |
AnalyzeRequest
Hiermee geeft u enkele tekst- en analyseonderdelen op die worden gebruikt om die tekst op te splitsen in tokens.
Name | Type | Description |
---|---|---|
analyzer |
De naam van de analyse die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De parameters tokenizer en analyzer sluiten elkaar uit. |
|
charFilters |
Een optionele lijst met tekenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de parameter tokenizer gebruikt. |
|
text |
string |
De tekst die moet worden opgesplitst in tokens. |
tokenFilters |
Een optionele lijst met tokenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de parameter tokenizer gebruikt. |
|
tokenizer |
De naam van de tokenizer die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyse opgeven. De parameters tokenizer en analyzer sluiten elkaar uit. |
AnalyzeResult
Het resultaat van het testen van een analyse op tekst.
Name | Type | Description |
---|---|---|
tokens |
De lijst met tokens die worden geretourneerd door de analyse die is opgegeven in de aanvraag. |
CharFilterName
Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine.
Name | Type | Description |
---|---|---|
html_strip |
string |
Een tekenfilter waarmee HTML-constructies worden verwijderd. Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
LexicalAnalyzerName
Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine.
Name | Type | Description |
---|---|---|
ar.lucene |
string |
Lucene analyzer voor Arabisch. |
ar.microsoft |
string |
Microsoft Analyzer voor Arabisch. |
bg.lucene |
string |
Lucene analyzer voor Bulgaars. |
bg.microsoft |
string |
Microsoft analyzer voor Bulgaars. |
bn.microsoft |
string |
Microsoft Analyzer voor Bangla. |
ca.lucene |
string |
Lucene analyzer voor Catalaans. |
ca.microsoft |
string |
Microsoft Analyzer voor Catalaans. |
cs.lucene |
string |
Lucene analyzer voor Tsjechisch. |
cs.microsoft |
string |
Microsoft Analyzer voor Tsjechisch. |
da.lucene |
string |
Lucene analyzer voor Deens. |
da.microsoft |
string |
Microsoft Analyzer voor Deens. |
de.lucene |
string |
Lucene analyzer voor Duits. |
de.microsoft |
string |
Microsoft Analyzer voor Duits. |
el.lucene |
string |
Lucene analyzer voor Grieks. |
el.microsoft |
string |
Microsoft Analyzer voor Grieks. |
en.lucene |
string |
Lucene analyzer voor Engels. |
en.microsoft |
string |
Microsoft Analyzer voor Engels. |
es.lucene |
string |
Lucene analyzer voor Spaans. |
es.microsoft |
string |
Microsoft Analyzer voor Spaans. |
et.microsoft |
string |
Microsoft Analyzer voor Estlands. |
eu.lucene |
string |
Lucene analyzer voor Baskisch. |
fa.lucene |
string |
Lucene analyzer voor Perzisch. |
fi.lucene |
string |
Lucene analyzer voor Fins. |
fi.microsoft |
string |
Microsoft Analyzer voor Fins. |
fr.lucene |
string |
Lucene analyzer voor Frans. |
fr.microsoft |
string |
Microsoft Analyzer voor Frans. |
ga.lucene |
string |
Lucene analyzer voor Iers. |
gl.lucene |
string |
Lucene analyzer voor Galicisch. |
gu.microsoft |
string |
Microsoft Analyzer voor Gujarati. |
he.microsoft |
string |
Microsoft analyzer voor Hebreeuws. |
hi.lucene |
string |
Lucene analyzer voor Hindi. |
hi.microsoft |
string |
Microsoft Analyzer voor Hindi. |
hr.microsoft |
string |
Microsoft Analyzer voor Kroatisch. |
hu.lucene |
string |
Lucene analyzer voor Hongaars. |
hu.microsoft |
string |
Microsoft Analyzer voor Hongaars. |
hy.lucene |
string |
Lucene analyzer voor Armeens. |
id.lucene |
string |
Lucene analyzer voor Indonesisch. |
id.microsoft |
string |
Microsoft Analyzer voor Indonesisch (Bahasa). |
is.microsoft |
string |
Microsoft Analyzer voor IJslands. |
it.lucene |
string |
Lucene analyzer voor Italiaans. |
it.microsoft |
string |
Microsoft Analyzer voor Italiaans. |
ja.lucene |
string |
Lucene analyzer voor Japans. |
ja.microsoft |
string |
Microsoft Analyzer voor Japans. |
keyword |
string |
Behandelt de volledige inhoud van een veld als één token. Dit is handig voor gegevens zoals postcodes, id's en sommige productnamen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Microsoft Analyzer voor Kannada. |
ko.lucene |
string |
Lucene analyzer voor Koreaans. |
ko.microsoft |
string |
Microsoft Analyzer voor Koreaans. |
lt.microsoft |
string |
Microsoft Analyzer voor Litouws. |
lv.lucene |
string |
Lucene analyzer voor Lets. |
lv.microsoft |
string |
Microsoft analyzer voor Lets. |
ml.microsoft |
string |
Microsoft Analyzer voor Malayalam. |
mr.microsoft |
string |
Microsoft Analyzer voor Marathi. |
ms.microsoft |
string |
Microsoft Analyzer voor Maleis (Latijns). |
nb.microsoft |
string |
Microsoft Analyzer voor Noors (Bokmål). |
nl.lucene |
string |
Lucene analyzer voor Nederlands. |
nl.microsoft |
string |
Microsoft analyzer voor Nederlands. |
no.lucene |
string |
Lucene analyzer voor Noors. |
pa.microsoft |
string |
Microsoft Analyzer voor Punjabi. |
pattern |
string |
Op flexibele wijze scheidt u tekst in termen via een patroon voor reguliere expressies. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Lucene analyzer voor Pools. |
pl.microsoft |
string |
Microsoft Analyzer voor Pools. |
pt-BR.lucene |
string |
Lucene Analyzer voor Portugees (Brazilië). |
pt-BR.microsoft |
string |
Microsoft Analyzer voor Portugees (Brazilië). |
pt-PT.lucene |
string |
Lucene analyzer voor Portugees (Portugal). |
pt-PT.microsoft |
string |
Microsoft Analyzer voor Portugees (Portugal). |
ro.lucene |
string |
Lucene analyzer voor Roemeens. |
ro.microsoft |
string |
Microsoft Analyzer voor Roemeens. |
ru.lucene |
string |
Lucene analyzer voor Russisch. |
ru.microsoft |
string |
Microsoft Analyzer voor Russisch. |
simple |
string |
Hiermee verdeelt u tekst op niet-letters en converteert u deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Microsoft Analyzer voor Slowaaks. |
sl.microsoft |
string |
Microsoft Analyzer voor Sloveens. |
sr-cyrillic.microsoft |
string |
Microsoft analyzer voor Servisch (Cyrillisch). |
sr-latin.microsoft |
string |
Microsoft analyzer voor Servisch (Latijns). |
standard.lucene |
string |
Standard Lucene Analyzer. |
standardasciifolding.lucene |
string |
Standaard ASCII Folding Lucene analyzer. Zie https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Verdeelt tekst op niet-letters; Hiermee past u de tokenfilters kleine letters en stopwoorden toe. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Lucene analyzer voor Zweeds. |
sv.microsoft |
string |
Microsoft Analyzer voor Zweeds. |
ta.microsoft |
string |
Microsoft Analyzer voor Tamil. |
te.microsoft |
string |
Microsoft Analyzer voor Telugu. |
th.lucene |
string |
Lucene analyzer voor Thai. |
th.microsoft |
string |
Microsoft Analyzer voor Thais. |
tr.lucene |
string |
Lucene analyzer voor Turks. |
tr.microsoft |
string |
Microsoft Analyzer voor Turks. |
uk.microsoft |
string |
Microsoft Analyzer voor Oekraïens. |
ur.microsoft |
string |
Microsoft Analyzer voor Urdu. |
vi.microsoft |
string |
Microsoft Analyzer voor Vietnamees. |
whitespace |
string |
Een analyse die gebruikmaakt van de witruimtetokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Lucene analyzer voor Chinees (vereenvoudigd). |
zh-Hans.microsoft |
string |
Microsoft Analyzer voor Chinees (vereenvoudigd). |
zh-Hant.lucene |
string |
Lucene analyzer voor Chinees (traditioneel). |
zh-Hant.microsoft |
string |
Microsoft Analyzer voor Chinees (traditioneel). |
LexicalTokenizerName
Definieert de namen van alle tokenizers die worden ondersteund door de zoekmachine.
Name | Type | Description |
---|---|---|
classic |
string |
Tokenizer op basis van grammatica die geschikt is voor het verwerken van de meeste Europese documenten. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Hiermee wordt de invoer van een rand omgezet in n-grammen van de opgegeven grootte(n). Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Verzendt de volledige invoer als één token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Verdeelt tekst op niet-letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Hiermee verdeelt u tekst op niet-letters en converteert u deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Verdeelt tekst met behulp van taalspecifieke regels en reduceert woorden tot de basisvormen. |
microsoft_language_tokenizer |
string |
Verdeelt tekst met behulp van taalspecifieke regels. |
nGram |
string |
Hiermee wordt de invoer omgezet in n-grammen van de opgegeven grootte(n). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer voor padachtige hiërarchieën. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer die gebruikmaakt van regex-patroonkoppeling om afzonderlijke tokens te maken. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Standard Lucene analyzer; Bestaat uit de standaardtokenizer, het filter in kleine letters en het stopfilter. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Hiermee worden URL's en e-mailberichten als één token gebruikt. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Hiermee verdeelt u tekst bij witruimte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
SearchError
Beschrijft een foutvoorwaarde voor de API.
Name | Type | Description |
---|---|---|
code |
string |
Een van een door de server gedefinieerde set foutcodes. |
details |
Een matrix met details over specifieke fouten die tot deze gerapporteerde fout hebben geleid. |
|
message |
string |
Een door mensen leesbare weergave van de fout. |
TokenFilterName
Definieert de namen van alle tokenfilters die worden ondersteund door de zoekmachine.