Delen via


Indexes - Analyze

Laat zien hoe een analyseprogramma tekst opsplitst in tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01

URI-parameters

Name In Vereist Type Description
endpoint
path True

string

De eindpunt-URL van de zoekservice.

indexName
path True

string

De naam van de index waarvoor een analysator moet worden getest.

api-version
query True

string

Client-API-versie.

Aanvraagkoptekst

Name Vereist Type Description
x-ms-client-request-id

string (uuid)

De tracking-ID die is verzonden met het verzoek om te helpen bij het opsporen.

Aanvraagbody

Name Vereist Type Description
text True

string

De tekst om in tokens op te splitsen.

analyzer

LexicalAnalyzerName

De naam van de analysator die moet worden gebruikt om de gegeven tekst te breken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De parameters van de tokenizer en analyzer sluiten elkaar uit.

charFilters

CharFilterName[]

Een optionele lijst met tekenfilters die kunnen worden gebruikt bij het opsplitsen van de gegeven tekst. Deze parameter kan alleen worden ingesteld bij gebruik van de tokenizer-parameter.

normalizer

LexicalNormalizerName

De naam van de normalisator die moet worden gebruikt om de gegeven tekst te normaliseren.

tokenFilters

TokenFilterName[]

Een optionele lijst met tokenfilters die kunnen worden gebruikt bij het opsplitsen van de gegeven tekst. Deze parameter kan alleen worden ingesteld bij gebruik van de tokenizer-parameter.

tokenizer

LexicalTokenizerName

De naam van de tokenizer die moet worden gebruikt om de gegeven tekst te breken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyser opgeven. De parameters van de tokenizer en analyzer sluiten elkaar uit.

Antwoorden

Name Type Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Foutreactie.

Voorbeelden

SearchServiceIndexAnalyze

Voorbeeldaanvraag

POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

Voorbeeldrespons

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definities

Name Description
AnalyzedTokenInfo

Informatie over een token dat wordt geretourneerd door een analysator.

AnalyzeRequest

Hiermee geeft u enkele tekst- en analysecomponenten op die worden gebruikt om die tekst op te splitsen in tokens.

AnalyzeResult

Het resultaat van het testen van een analyzer op tekst.

CharFilterName

Definieert de namen van alle tekenfilters die door de zoekmachine worden ondersteund.

ErrorAdditionalInfo

Aanvullende informatie over de resourcebeheerfout.

ErrorDetail

De foutdetails.

ErrorResponse

Foutreactie

LexicalAnalyzerName

Definieert de namen van alle tekstanalysatoren die door de zoekmachine worden ondersteund.

LexicalNormalizerName

Definieert de namen van alle tekstnormalizers die door de zoekmachine worden ondersteund.

LexicalTokenizerName

Definieert de namen van alle tokenizers die door de zoekmachine worden ondersteund.

TokenFilterName

Definieert de namen van alle tokenfilters die door de zoekmachine worden ondersteund.

AnalyzedTokenInfo

Informatie over een token dat wordt geretourneerd door een analysator.

Name Type Description
endOffset

integer (int32)

De index van het laatste teken van het token in de invoertekst.

position

integer (int32)

De positie van het token in de invoertekst ten opzichte van andere tokens. Het eerste token in de invoertekst heeft positie 0, het volgende heeft positie 1, enzovoort. Afhankelijk van de gebruikte analyzer kunnen sommige tokens dezelfde positie hebben, bijvoorbeeld als ze synoniemen van elkaar zijn.

startOffset

integer (int32)

De index van het eerste teken van het token in de invoertekst.

token

string

Het token dat door de analysator wordt geretourneerd.

AnalyzeRequest

Hiermee geeft u enkele tekst- en analysecomponenten op die worden gebruikt om die tekst op te splitsen in tokens.

Name Type Description
analyzer

LexicalAnalyzerName

De naam van de analysator die moet worden gebruikt om de gegeven tekst te breken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De parameters van de tokenizer en analyzer sluiten elkaar uit.

charFilters

CharFilterName[]

Een optionele lijst met tekenfilters die kunnen worden gebruikt bij het opsplitsen van de gegeven tekst. Deze parameter kan alleen worden ingesteld bij gebruik van de tokenizer-parameter.

normalizer

LexicalNormalizerName

De naam van de normalisator die moet worden gebruikt om de gegeven tekst te normaliseren.

text

string

De tekst om in tokens op te splitsen.

tokenFilters

TokenFilterName[]

Een optionele lijst met tokenfilters die kunnen worden gebruikt bij het opsplitsen van de gegeven tekst. Deze parameter kan alleen worden ingesteld bij gebruik van de tokenizer-parameter.

tokenizer

LexicalTokenizerName

De naam van de tokenizer die moet worden gebruikt om de gegeven tekst te breken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyser opgeven. De parameters van de tokenizer en analyzer sluiten elkaar uit.

AnalyzeResult

Het resultaat van het testen van een analyzer op tekst.

Name Type Description
tokens

AnalyzedTokenInfo[]

De lijst met tokens die worden geretourneerd door de analysator die in de aanvraag is opgegeven.

CharFilterName

Definieert de namen van alle tekenfilters die door de zoekmachine worden ondersteund.

Waarde Description
html_strip

Een tekenfilter dat probeert HTML-constructies te verwijderen. Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Aanvullende informatie over de resourcebeheerfout.

Name Type Description
info

object

De aanvullende informatie.

type

string

Het extra informatietype.

ErrorDetail

De foutdetails.

Name Type Description
additionalInfo

ErrorAdditionalInfo[]

De fout bevat aanvullende informatie.

code

string

De foutcode.

details

ErrorDetail[]

De foutdetails.

message

string

Het foutbericht.

target

string

Het foutdoel.

ErrorResponse

Foutreactie

Name Type Description
error

ErrorDetail

Het foutobject.

LexicalAnalyzerName

Definieert de namen van alle tekstanalysatoren die door de zoekmachine worden ondersteund.

Waarde Description
ar.microsoft

Microsoft-analyzer voor Arabisch.

ar.lucene

Lucene analyzer voor Arabisch.

hy.lucene

Lucene analyzer voor Armeens.

bn.microsoft

Microsoft-analysator voor Bangla.

eu.lucene

Lucene-analysator voor Baskisch.

bg.microsoft

Microsoft analyzer voor Bulgaars.

bg.lucene

Lucene analyzer voor Bulgaars.

ca.microsoft

Microsoft analyzer voor het Catalaans.

ca.lucene

Lucene analyzer voor Catalaans.

zh-Hans.microsoft

Microsoft-analyzer voor Chinees (vereenvoudigd).

zh-Hans.lucene

Lucene analyzer voor Chinees (Vereenvoudigd).

zh-Hant.microsoft

Microsoft-analyzer voor Chinees (traditioneel).

zh-Hant.lucene

Lucene analyzer voor Chinees (traditioneel).

hr.microsoft

Microsoft analyzer voor Kroatisch.

cs.microsoft

Microsoft analyzer voor Tsjechisch.

cs.lucene

Lucene analyzer voor Tsjechisch.

da.microsoft

Microsoft analyzer voor Deens.

da.lucene

Lucene analyzer voor Deens.

nl.microsoft

Microsoft analyzer voor Nederlands.

nl.lucene

Lucene analyzer voor Nederlands.

en.microsoft

Microsoft-analysator voor Engels.

en.lucene

Lucene analyzer voor Engels.

et.microsoft

Microsoft analyzer voor het Ests.

fi.microsoft

Microsoft-analysator voor Fins.

fi.lucene

Lucene analyzer voor Fins.

fr.microsoft

Microsoft analyzer voor Frans.

fr.lucene

Lucene analyzer voor Frans.

gl.lucene

Lucene analyzer voor Galicisch.

de.microsoft

Microsoft-analysator voor Duits.

de.lucene

Lucene analyzer voor Duits.

el.microsoft

Microsoft analyzer voor Grieks.

el.lucene

Lucene analyzer voor Grieks.

gu.microsoft

Microsoft-analysator voor Gujarati.

he.microsoft

Microsoft-analysator voor Hebreeuws.

hi.microsoft

Microsoft-analyzer voor Hindi.

hi.lucene

Lucene analyzer voor Hindi.

hu.microsoft

Microsoft analyzer voor Hongaars.

hu.lucene

Lucene analyzer voor Hongaars.

is.microsoft

Microsoft-analyzer voor IJslands.

id.microsoft

Microsoft analyzer voor Indonesisch (Bahasa).

id.lucene

Lucene analyzer voor Indonesisch.

ga.lucene

Lucene analyzer voor Iers.

it.microsoft

Microsoft-analyzer voor Italiaans.

it.lucene

Lucene analyzer voor Italiaans.

ja.microsoft

Microsoft analyzer voor Japans.

ja.lucene

Lucene analyzer voor Japans.

kn.microsoft

Microsoft-analyzer voor Kannada.

ko.microsoft

Microsoft-analysator voor Koreaans.

ko.lucene

Lucene analyzer voor Koreaans.

lv.microsoft

Microsoft analyzer voor Lets.

lv.lucene

Lucene analyzer voor Lets.

lt.microsoft

Microsoft analyzer voor Litouws.

ml.microsoft

Microsoft-analyzer voor Malayalam.

ms.microsoft

Microsoft analyzer voor Maleis (Latijn).

mr.microsoft

Microsoft-analyzer voor Marathi.

nb.microsoft

Microsoft analyzer voor Noors (Bokmål).

no.lucene

Lucene analyzer voor Noors.

fa.lucene

Lucene analyzer voor Perzisch.

pl.microsoft

Microsoft-analysator voor Pools.

pl.lucene

Lucene analyzer voor Pools.

pt-BR.microsoft

Microsoft analyzer voor Portugees (Brazilië).

pt-BR.lucene

Lucene analyzer voor Portugees (Brazilië).

pt-PT.microsoft

Microsoft analyzer voor Portugees (Portugal).

pt-PT.lucene

Lucene analyzer voor Portugees (Portugal).

pa.microsoft

Microsoft-analysator voor Punjabi.

ro.microsoft

Microsoft analyzer voor Roemeens.

ro.lucene

Lucene analyzer voor Roemeens.

ru.microsoft

Microsoft-analysator voor Russisch.

ru.lucene

Lucene analyzer voor Russisch.

sr-cyrillic.microsoft

Microsoft analyzer voor Servisch (Cyrillisch).

sr-latin.microsoft

Microsoft-analyzer voor Servisch (Latijn).

sk.microsoft

Microsoft-analyzer voor Slowaaks.

sl.microsoft

Microsoft analyzer voor het Sloveens.

es.microsoft

Microsoft-analyzer voor Spaans.

es.lucene

Lucene analyzer voor Spaans.

sv.microsoft

Microsoft analyzer voor Zweeds.

sv.lucene

Lucene analyzer voor Zweeds.

ta.microsoft

Microsoft-analyzer voor Tamil.

te.microsoft

Microsoft-analysator voor Telugu.

th.microsoft

Microsoft-analyzer voor Thais.

th.lucene

Lucene analyzer voor Thais.

tr.microsoft

Microsoft-analysator voor Turks.

tr.lucene

Lucene analyzer voor Turks.

uk.microsoft

Microsoft-analysator voor Oekraïens.

ur.microsoft

Microsoft-analyzer voor Urdu.

vi.microsoft

Microsoft-analyzer voor Vietnamees.

standard.lucene

Standaard Lucene-analysator.

standardasciifolding.lucene

Standaard ASCII opvouwbare lucene-analysator. Zie https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Hiermee wordt de volledige inhoud van een veld als één token behandeld. Dit is handig voor gegevens zoals postcodes, ID's en sommige productnamen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Scheidt tekst flexibel in termen via een patroon van reguliere expressies. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Verdeelt tekst op niet-letters en converteert deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Verdeelt tekst op niet-letters; Hiermee past u de tokenfilters voor kleine letters en stopwoorden toe. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

Een analysator die gebruikmaakt van de whitespace-tokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Definieert de namen van alle tekstnormalizers die door de zoekmachine worden ondersteund.

Waarde Description
asciifolding

Hiermee worden alfabetische, numerieke en symbolische Unicode-tekens die niet in de eerste 127 ASCII-tekens (het Unicode-blok 'Basis Latijn' voorkomen) geconverteerd naar hun ASCII-equivalenten, als dergelijke equivalenten bestaan. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Verwijdert elisies. Bijvoorbeeld, "l'avion" (het vliegtuig) wordt geconverteerd naar "avion" (vliegtuig). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Normaliseert tokentekst naar kleine letters. Zie https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Standaard normalisator, die bestaat uit kleine letters en asciifolding. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Normaliseert tokentekst naar hoofdletters. Zie https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Definieert de namen van alle tokenizers die door de zoekmachine worden ondersteund.

Waarde Description
classic

Op grammatica gebaseerde tokenizer die geschikt is voor het verwerken van de meeste Europeestalige documenten. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokeniseert de invoer van een rand in n-grammen van de gegeven grootte(n). Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Zendt de volledige invoer uit als een enkel token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Verdeelt tekst op niet-letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Verdeelt tekst op niet-letters en converteert deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Verdeelt tekst met behulp van taalspecifieke regels.

microsoft_language_stemming_tokenizer

Verdeelt tekst met behulp van taalspecifieke regels en reduceert woorden tot hun basisvorm.

nGram

Tokeniseert de invoer in n-grammen van de gegeven grootte(n). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizer voor padachtige hiërarchieën. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizer die regex-patroonmatching gebruikt om afzonderlijke tokens te maken. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Standaard Lucene-analysator; Samengesteld uit de standaard tokenizer, kleine letters filter en stopfilter. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokeniseert url's en e-mails als één token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Verdeelt tekst in witruimte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definieert de namen van alle tokenfilters die door de zoekmachine worden ondersteund.

Waarde Description
arabic_normalization

Een tokenfilter dat de Arabische normalisator toepast om de spelling te normaliseren. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Verwijdert alle tekens na een apostrof (inclusief de apostrof zelf). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Hiermee worden alfabetische, numerieke en symbolische Unicode-tekens die niet in de eerste 127 ASCII-tekens (het Unicode-blok 'Basis Latijn' voorkomen) geconverteerd naar hun ASCII-equivalenten, als dergelijke equivalenten bestaan. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Vormt bigrammen van CJK-termen die worden gegenereerd op basis van de standaard tokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normaliseert CJK-breedteverschillen. Vouwt ASCII-varianten over de volledige breedte in de equivalente basisversie van het Latijn en Katakana-varianten met halve breedte in de equivalente Kana. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Verwijdert Engelse bezittelijke voornaamwoorden en punten uit afkortingen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Construeer bigrammen voor vaak voorkomende termen tijdens het indexeren. Afzonderlijke termen worden ook nog steeds geïndexeerd, met bigrammen eroverheen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Genereert n-gram van de gegeven grootte(n) vanaf de voor- of achterkant van een invoertoken. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Verwijdert elisies. Bijvoorbeeld, "l'avion" (het vliegtuig) wordt geconverteerd naar "avion" (vliegtuig). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normaliseert Duitse karakters volgens de heuristieken van het German2-sneeuwbalalgoritme. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normaliseert tekst in het Hindi om enkele verschillen in spellingsvariaties te verwijderen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normaliseert de Unicode-weergave van tekst in Indiase talen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Verzendt elk binnenkomend token twee keer, één keer als trefwoord en één keer als niet-trefwoord. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Een high-performance kstem filter voor Engels. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Verwijdert woorden die te lang of te kort zijn. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Beperkt het aantal tokens tijdens het indexeren. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normaliseert tokentekst naar kleine letters. Zie https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Genereert n-gram van de gegeven grootte(s). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Past normalisatie toe voor het Perzisch. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Maak tokens voor fonetische overeenkomsten. Zie https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Gebruikt het Porter-stamalgoritme om de tokenstroom te transformeren. Zie http://tartarus.org/~martin/PorterStemmer

reverse

Keert de tokentekenreeks om. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Normaliseert het gebruik van de verwisselbare Scandinavische karakters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Vouwt Scandinavische karakters åÅäæÄÆ-a> en öÖøØ-o>. Het discrimineert ook het gebruik van dubbele klinkers aa, ae, ao, oe en oo, waardoor alleen de eerste overblijft. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Maakt combinaties van tokens als één token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Een filter dat woorden verzamelt met behulp van een door Snowball gegenereerde stemmer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normaliseert de Unicode-weergave van Sorani-tekst. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Taalspecifieke stamfilter. Zie https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Verwijdert stopwoorden uit een tokenstroom. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Hiermee snijdt u de voor- en achterruimte bij van tokens. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Kort de termen af tot een specifieke lengte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Filtert tokens met dezelfde tekst als het vorige token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normaliseert tokentekst naar hoofdletters. Zie https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Splitst woorden op in subwoorden en voert optionele transformaties uit op subwoordgroepen.