Indexes - Analyze
Laat zien hoe een analyseprogramma tekst opsplitst in tokens.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01
URI-parameters
| Name | In | Vereist | Type | Description |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
De eindpunt-URL van de zoekservice. |
|
index
|
path | True |
string |
De naam van de index waarvoor een analysator moet worden getest. |
|
api-version
|
query | True |
string |
Client-API-versie. |
Aanvraagkoptekst
| Name | Vereist | Type | Description |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
De tracking-ID die is verzonden met het verzoek om te helpen bij het opsporen. |
Aanvraagbody
| Name | Vereist | Type | Description |
|---|---|---|---|
| text | True |
string |
De tekst om in tokens op te splitsen. |
| analyzer |
De naam van de analysator die moet worden gebruikt om de gegeven tekst te breken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De parameters van de tokenizer en analyzer sluiten elkaar uit. |
||
| charFilters |
Een optionele lijst met tekenfilters die kunnen worden gebruikt bij het opsplitsen van de gegeven tekst. Deze parameter kan alleen worden ingesteld bij gebruik van de tokenizer-parameter. |
||
| normalizer |
De naam van de normalisator die moet worden gebruikt om de gegeven tekst te normaliseren. |
||
| tokenFilters |
Een optionele lijst met tokenfilters die kunnen worden gebruikt bij het opsplitsen van de gegeven tekst. Deze parameter kan alleen worden ingesteld bij gebruik van de tokenizer-parameter. |
||
| tokenizer |
De naam van de tokenizer die moet worden gebruikt om de gegeven tekst te breken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyser opgeven. De parameters van de tokenizer en analyzer sluiten elkaar uit. |
Antwoorden
| Name | Type | Description |
|---|---|---|
| 200 OK | ||
| Other Status Codes |
Foutreactie. |
Voorbeelden
SearchServiceIndexAnalyze
Voorbeeldaanvraag
POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01
{
"text": "Text to analyze",
"analyzer": "ar.lucene"
}
Voorbeeldrespons
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definities
| Name | Description |
|---|---|
|
Analyzed |
Informatie over een token dat wordt geretourneerd door een analysator. |
|
Analyze |
Hiermee geeft u enkele tekst- en analysecomponenten op die worden gebruikt om die tekst op te splitsen in tokens. |
|
Analyze |
Het resultaat van het testen van een analyzer op tekst. |
|
Char |
Definieert de namen van alle tekenfilters die door de zoekmachine worden ondersteund. |
|
Error |
Aanvullende informatie over de resourcebeheerfout. |
|
Error |
De foutdetails. |
|
Error |
Foutreactie |
|
Lexical |
Definieert de namen van alle tekstanalysatoren die door de zoekmachine worden ondersteund. |
|
Lexical |
Definieert de namen van alle tekstnormalizers die door de zoekmachine worden ondersteund. |
|
Lexical |
Definieert de namen van alle tokenizers die door de zoekmachine worden ondersteund. |
|
Token |
Definieert de namen van alle tokenfilters die door de zoekmachine worden ondersteund. |
AnalyzedTokenInfo
Informatie over een token dat wordt geretourneerd door een analysator.
| Name | Type | Description |
|---|---|---|
| endOffset |
integer (int32) |
De index van het laatste teken van het token in de invoertekst. |
| position |
integer (int32) |
De positie van het token in de invoertekst ten opzichte van andere tokens. Het eerste token in de invoertekst heeft positie 0, het volgende heeft positie 1, enzovoort. Afhankelijk van de gebruikte analyzer kunnen sommige tokens dezelfde positie hebben, bijvoorbeeld als ze synoniemen van elkaar zijn. |
| startOffset |
integer (int32) |
De index van het eerste teken van het token in de invoertekst. |
| token |
string |
Het token dat door de analysator wordt geretourneerd. |
AnalyzeRequest
Hiermee geeft u enkele tekst- en analysecomponenten op die worden gebruikt om die tekst op te splitsen in tokens.
| Name | Type | Description |
|---|---|---|
| analyzer |
De naam van de analysator die moet worden gebruikt om de gegeven tekst te breken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De parameters van de tokenizer en analyzer sluiten elkaar uit. |
|
| charFilters |
Een optionele lijst met tekenfilters die kunnen worden gebruikt bij het opsplitsen van de gegeven tekst. Deze parameter kan alleen worden ingesteld bij gebruik van de tokenizer-parameter. |
|
| normalizer |
De naam van de normalisator die moet worden gebruikt om de gegeven tekst te normaliseren. |
|
| text |
string |
De tekst om in tokens op te splitsen. |
| tokenFilters |
Een optionele lijst met tokenfilters die kunnen worden gebruikt bij het opsplitsen van de gegeven tekst. Deze parameter kan alleen worden ingesteld bij gebruik van de tokenizer-parameter. |
|
| tokenizer |
De naam van de tokenizer die moet worden gebruikt om de gegeven tekst te breken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyser opgeven. De parameters van de tokenizer en analyzer sluiten elkaar uit. |
AnalyzeResult
Het resultaat van het testen van een analyzer op tekst.
| Name | Type | Description |
|---|---|---|
| tokens |
De lijst met tokens die worden geretourneerd door de analysator die in de aanvraag is opgegeven. |
CharFilterName
Definieert de namen van alle tekenfilters die door de zoekmachine worden ondersteund.
| Waarde | Description |
|---|---|
| html_strip |
Een tekenfilter dat probeert HTML-constructies te verwijderen. Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Aanvullende informatie over de resourcebeheerfout.
| Name | Type | Description |
|---|---|---|
| info |
object |
De aanvullende informatie. |
| type |
string |
Het extra informatietype. |
ErrorDetail
De foutdetails.
| Name | Type | Description |
|---|---|---|
| additionalInfo |
De fout bevat aanvullende informatie. |
|
| code |
string |
De foutcode. |
| details |
De foutdetails. |
|
| message |
string |
Het foutbericht. |
| target |
string |
Het foutdoel. |
ErrorResponse
Foutreactie
| Name | Type | Description |
|---|---|---|
| error |
Het foutobject. |
LexicalAnalyzerName
Definieert de namen van alle tekstanalysatoren die door de zoekmachine worden ondersteund.
| Waarde | Description |
|---|---|
| ar.microsoft |
Microsoft-analyzer voor Arabisch. |
| ar.lucene |
Lucene analyzer voor Arabisch. |
| hy.lucene |
Lucene analyzer voor Armeens. |
| bn.microsoft |
Microsoft-analysator voor Bangla. |
| eu.lucene |
Lucene-analysator voor Baskisch. |
| bg.microsoft |
Microsoft analyzer voor Bulgaars. |
| bg.lucene |
Lucene analyzer voor Bulgaars. |
| ca.microsoft |
Microsoft analyzer voor het Catalaans. |
| ca.lucene |
Lucene analyzer voor Catalaans. |
| zh-Hans.microsoft |
Microsoft-analyzer voor Chinees (vereenvoudigd). |
| zh-Hans.lucene |
Lucene analyzer voor Chinees (Vereenvoudigd). |
| zh-Hant.microsoft |
Microsoft-analyzer voor Chinees (traditioneel). |
| zh-Hant.lucene |
Lucene analyzer voor Chinees (traditioneel). |
| hr.microsoft |
Microsoft analyzer voor Kroatisch. |
| cs.microsoft |
Microsoft analyzer voor Tsjechisch. |
| cs.lucene |
Lucene analyzer voor Tsjechisch. |
| da.microsoft |
Microsoft analyzer voor Deens. |
| da.lucene |
Lucene analyzer voor Deens. |
| nl.microsoft |
Microsoft analyzer voor Nederlands. |
| nl.lucene |
Lucene analyzer voor Nederlands. |
| en.microsoft |
Microsoft-analysator voor Engels. |
| en.lucene |
Lucene analyzer voor Engels. |
| et.microsoft |
Microsoft analyzer voor het Ests. |
| fi.microsoft |
Microsoft-analysator voor Fins. |
| fi.lucene |
Lucene analyzer voor Fins. |
| fr.microsoft |
Microsoft analyzer voor Frans. |
| fr.lucene |
Lucene analyzer voor Frans. |
| gl.lucene |
Lucene analyzer voor Galicisch. |
| de.microsoft |
Microsoft-analysator voor Duits. |
| de.lucene |
Lucene analyzer voor Duits. |
| el.microsoft |
Microsoft analyzer voor Grieks. |
| el.lucene |
Lucene analyzer voor Grieks. |
| gu.microsoft |
Microsoft-analysator voor Gujarati. |
| he.microsoft |
Microsoft-analysator voor Hebreeuws. |
| hi.microsoft |
Microsoft-analyzer voor Hindi. |
| hi.lucene |
Lucene analyzer voor Hindi. |
| hu.microsoft |
Microsoft analyzer voor Hongaars. |
| hu.lucene |
Lucene analyzer voor Hongaars. |
| is.microsoft |
Microsoft-analyzer voor IJslands. |
| id.microsoft |
Microsoft analyzer voor Indonesisch (Bahasa). |
| id.lucene |
Lucene analyzer voor Indonesisch. |
| ga.lucene |
Lucene analyzer voor Iers. |
| it.microsoft |
Microsoft-analyzer voor Italiaans. |
| it.lucene |
Lucene analyzer voor Italiaans. |
| ja.microsoft |
Microsoft analyzer voor Japans. |
| ja.lucene |
Lucene analyzer voor Japans. |
| kn.microsoft |
Microsoft-analyzer voor Kannada. |
| ko.microsoft |
Microsoft-analysator voor Koreaans. |
| ko.lucene |
Lucene analyzer voor Koreaans. |
| lv.microsoft |
Microsoft analyzer voor Lets. |
| lv.lucene |
Lucene analyzer voor Lets. |
| lt.microsoft |
Microsoft analyzer voor Litouws. |
| ml.microsoft |
Microsoft-analyzer voor Malayalam. |
| ms.microsoft |
Microsoft analyzer voor Maleis (Latijn). |
| mr.microsoft |
Microsoft-analyzer voor Marathi. |
| nb.microsoft |
Microsoft analyzer voor Noors (Bokmål). |
| no.lucene |
Lucene analyzer voor Noors. |
| fa.lucene |
Lucene analyzer voor Perzisch. |
| pl.microsoft |
Microsoft-analysator voor Pools. |
| pl.lucene |
Lucene analyzer voor Pools. |
| pt-BR.microsoft |
Microsoft analyzer voor Portugees (Brazilië). |
| pt-BR.lucene |
Lucene analyzer voor Portugees (Brazilië). |
| pt-PT.microsoft |
Microsoft analyzer voor Portugees (Portugal). |
| pt-PT.lucene |
Lucene analyzer voor Portugees (Portugal). |
| pa.microsoft |
Microsoft-analysator voor Punjabi. |
| ro.microsoft |
Microsoft analyzer voor Roemeens. |
| ro.lucene |
Lucene analyzer voor Roemeens. |
| ru.microsoft |
Microsoft-analysator voor Russisch. |
| ru.lucene |
Lucene analyzer voor Russisch. |
| sr-cyrillic.microsoft |
Microsoft analyzer voor Servisch (Cyrillisch). |
| sr-latin.microsoft |
Microsoft-analyzer voor Servisch (Latijn). |
| sk.microsoft |
Microsoft-analyzer voor Slowaaks. |
| sl.microsoft |
Microsoft analyzer voor het Sloveens. |
| es.microsoft |
Microsoft-analyzer voor Spaans. |
| es.lucene |
Lucene analyzer voor Spaans. |
| sv.microsoft |
Microsoft analyzer voor Zweeds. |
| sv.lucene |
Lucene analyzer voor Zweeds. |
| ta.microsoft |
Microsoft-analyzer voor Tamil. |
| te.microsoft |
Microsoft-analysator voor Telugu. |
| th.microsoft |
Microsoft-analyzer voor Thais. |
| th.lucene |
Lucene analyzer voor Thais. |
| tr.microsoft |
Microsoft-analysator voor Turks. |
| tr.lucene |
Lucene analyzer voor Turks. |
| uk.microsoft |
Microsoft-analysator voor Oekraïens. |
| ur.microsoft |
Microsoft-analyzer voor Urdu. |
| vi.microsoft |
Microsoft-analyzer voor Vietnamees. |
| standard.lucene |
Standaard Lucene-analysator. |
| standardasciifolding.lucene |
Standaard ASCII opvouwbare lucene-analysator. Zie https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
Hiermee wordt de volledige inhoud van een veld als één token behandeld. Dit is handig voor gegevens zoals postcodes, ID's en sommige productnamen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
Scheidt tekst flexibel in termen via een patroon van reguliere expressies. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
Verdeelt tekst op niet-letters en converteert deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
Verdeelt tekst op niet-letters; Hiermee past u de tokenfilters voor kleine letters en stopwoorden toe. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
Een analysator die gebruikmaakt van de whitespace-tokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
Definieert de namen van alle tekstnormalizers die door de zoekmachine worden ondersteund.
| Waarde | Description |
|---|---|
| asciifolding |
Hiermee worden alfabetische, numerieke en symbolische Unicode-tekens die niet in de eerste 127 ASCII-tekens (het Unicode-blok 'Basis Latijn' voorkomen) geconverteerd naar hun ASCII-equivalenten, als dergelijke equivalenten bestaan. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| elision |
Verwijdert elisies. Bijvoorbeeld, "l'avion" (het vliegtuig) wordt geconverteerd naar "avion" (vliegtuig). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| lowercase |
Normaliseert tokentekst naar kleine letters. Zie https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| standard |
Standaard normalisator, die bestaat uit kleine letters en asciifolding. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| uppercase |
Normaliseert tokentekst naar hoofdletters. Zie https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Definieert de namen van alle tokenizers die door de zoekmachine worden ondersteund.
TokenFilterName
Definieert de namen van alle tokenfilters die door de zoekmachine worden ondersteund.