Indexes - Analyze

Referentie

Service:: Search Service

API Version:: 2023-11-01

Laat zien hoe een analyse tekst opsplitst in tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

URI-parameters

Name	In	Vereist	Type	Description
endpoint	path	True	string	De eindpunt-URL van de zoekservice.
indexName	path	True	string	De naam van de index waarvoor een analyse moet worden getest.
api-version	query	True	string	Client-API-versie.

Aanvraagkoptekst

Name	Vereist	Type	Description
x-ms-client-request-id		string uuid	De tracerings-id die met de aanvraag wordt verzonden om te helpen bij foutopsporing.

Aanvraagbody

Name	Vereist	Type	Description
text	True	string	De tekst die moet worden opgesplitst in tokens.
analyzer		LexicalAnalyzerName	De naam van de analyse die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De parameters tokenizer en analyzer sluiten elkaar uit.
charFilters		CharFilterName[]	Een optionele lijst met tekenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de parameter tokenizer gebruikt.
tokenFilters		TokenFilterName[]	Een optionele lijst met tokenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de parameter tokenizer gebruikt.
tokenizer		LexicalTokenizerName	De naam van de tokenizer die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyse opgeven. De parameters tokenizer en analyzer sluiten elkaar uit.

Antwoorden

Name	Type	Description
200 OK	AnalyzeResult
Other Status Codes	SearchError	Foutreactie.

Voorbeelden

SearchServiceIndexAnalyze

Sample Request

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Sample Response

Status code:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definities

Name	Description
AnalyzedTokenInfo	Informatie over een token dat door een analyse wordt geretourneerd.
AnalyzeRequest	Hiermee geeft u enkele tekst- en analyseonderdelen op die worden gebruikt om die tekst op te splitsen in tokens.
AnalyzeResult	Het resultaat van het testen van een analyse op tekst.
CharFilterName	Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine.
LexicalAnalyzerName	Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine.
LexicalTokenizerName	Definieert de namen van alle tokenizers die worden ondersteund door de zoekmachine.
SearchError	Beschrijft een foutvoorwaarde voor de API.
TokenFilterName	Definieert de namen van alle tokenfilters die worden ondersteund door de zoekmachine.

AnalyzedTokenInfo

Informatie over een token dat door een analyse wordt geretourneerd.

Name	Type	Description
endOffset	integer	De index van het laatste teken van het token in de invoertekst.
position	integer	De positie van het token in de invoertekst ten opzichte van andere tokens. Het eerste token in de invoertekst heeft positie 0, het volgende heeft positie 1, enzovoort. Afhankelijk van de analyse die wordt gebruikt, kunnen sommige tokens dezelfde positie hebben, bijvoorbeeld als ze synoniemen van elkaar zijn.
startOffset	integer	De index van het eerste teken van het token in de invoertekst.
token	string	Het token dat door de analyse wordt geretourneerd.

AnalyzeRequest

Hiermee geeft u enkele tekst- en analyseonderdelen op die worden gebruikt om die tekst op te splitsen in tokens.

Name	Type	Description
analyzer	LexicalAnalyzerName	De naam van de analyse die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een tokenizer opgeven. De parameters tokenizer en analyzer sluiten elkaar uit.
charFilters	CharFilterName[]	Een optionele lijst met tekenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de parameter tokenizer gebruikt.
text	string	De tekst die moet worden opgesplitst in tokens.
tokenFilters	TokenFilterName[]	Een optionele lijst met tokenfilters die moeten worden gebruikt bij het verbreken van de opgegeven tekst. Deze parameter kan alleen worden ingesteld wanneer u de parameter tokenizer gebruikt.
tokenizer	LexicalTokenizerName	De naam van de tokenizer die moet worden gebruikt om de opgegeven tekst te verbreken. Als deze parameter niet is opgegeven, moet u in plaats daarvan een analyse opgeven. De parameters tokenizer en analyzer sluiten elkaar uit.

AnalyzeResult

Het resultaat van het testen van een analyse op tekst.

Name	Type	Description
tokens	AnalyzedTokenInfo[]	De lijst met tokens die worden geretourneerd door de analyse die is opgegeven in de aanvraag.

CharFilterName

Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine.

Name	Type	Description
html_strip	string	Een tekenfilter waarmee HTML-constructies worden verwijderd. Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

LexicalAnalyzerName

Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine.

Name	Type	Description
ar.lucene	string	Lucene analyzer voor Arabisch.
ar.microsoft	string	Microsoft Analyzer voor Arabisch.
bg.lucene	string	Lucene analyzer voor Bulgaars.
bg.microsoft	string	Microsoft analyzer voor Bulgaars.
bn.microsoft	string	Microsoft Analyzer voor Bangla.
ca.lucene	string	Lucene analyzer voor Catalaans.
ca.microsoft	string	Microsoft Analyzer voor Catalaans.
cs.lucene	string	Lucene analyzer voor Tsjechisch.
cs.microsoft	string	Microsoft Analyzer voor Tsjechisch.
da.lucene	string	Lucene analyzer voor Deens.
da.microsoft	string	Microsoft Analyzer voor Deens.
de.lucene	string	Lucene analyzer voor Duits.
de.microsoft	string	Microsoft Analyzer voor Duits.
el.lucene	string	Lucene analyzer voor Grieks.
el.microsoft	string	Microsoft Analyzer voor Grieks.
en.lucene	string	Lucene analyzer voor Engels.
en.microsoft	string	Microsoft Analyzer voor Engels.
es.lucene	string	Lucene analyzer voor Spaans.
es.microsoft	string	Microsoft Analyzer voor Spaans.
et.microsoft	string	Microsoft Analyzer voor Estlands.
eu.lucene	string	Lucene analyzer voor Baskisch.
fa.lucene	string	Lucene analyzer voor Perzisch.
fi.lucene	string	Lucene analyzer voor Fins.
fi.microsoft	string	Microsoft Analyzer voor Fins.
fr.lucene	string	Lucene analyzer voor Frans.
fr.microsoft	string	Microsoft Analyzer voor Frans.
ga.lucene	string	Lucene analyzer voor Iers.
gl.lucene	string	Lucene analyzer voor Galicisch.
gu.microsoft	string	Microsoft Analyzer voor Gujarati.
he.microsoft	string	Microsoft analyzer voor Hebreeuws.
hi.lucene	string	Lucene analyzer voor Hindi.
hi.microsoft	string	Microsoft Analyzer voor Hindi.
hr.microsoft	string	Microsoft Analyzer voor Kroatisch.
hu.lucene	string	Lucene analyzer voor Hongaars.
hu.microsoft	string	Microsoft Analyzer voor Hongaars.
hy.lucene	string	Lucene analyzer voor Armeens.
id.lucene	string	Lucene analyzer voor Indonesisch.
id.microsoft	string	Microsoft Analyzer voor Indonesisch (Bahasa).
is.microsoft	string	Microsoft Analyzer voor IJslands.
it.lucene	string	Lucene analyzer voor Italiaans.
it.microsoft	string	Microsoft Analyzer voor Italiaans.
ja.lucene	string	Lucene analyzer voor Japans.
ja.microsoft	string	Microsoft Analyzer voor Japans.
keyword	string	Behandelt de volledige inhoud van een veld als één token. Dit is handig voor gegevens zoals postcodes, id's en sommige productnamen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	string	Microsoft Analyzer voor Kannada.
ko.lucene	string	Lucene analyzer voor Koreaans.
ko.microsoft	string	Microsoft Analyzer voor Koreaans.
lt.microsoft	string	Microsoft Analyzer voor Litouws.
lv.lucene	string	Lucene analyzer voor Lets.
lv.microsoft	string	Microsoft analyzer voor Lets.
ml.microsoft	string	Microsoft Analyzer voor Malayalam.
mr.microsoft	string	Microsoft Analyzer voor Marathi.
ms.microsoft	string	Microsoft Analyzer voor Maleis (Latijns).
nb.microsoft	string	Microsoft Analyzer voor Noors (Bokmål).
nl.lucene	string	Lucene analyzer voor Nederlands.
nl.microsoft	string	Microsoft analyzer voor Nederlands.
no.lucene	string	Lucene analyzer voor Noors.
pa.microsoft	string	Microsoft Analyzer voor Punjabi.
pattern	string	Op flexibele wijze scheidt u tekst in termen via een patroon voor reguliere expressies. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	string	Lucene analyzer voor Pools.
pl.microsoft	string	Microsoft Analyzer voor Pools.
pt-BR.lucene	string	Lucene Analyzer voor Portugees (Brazilië).
pt-BR.microsoft	string	Microsoft Analyzer voor Portugees (Brazilië).
pt-PT.lucene	string	Lucene analyzer voor Portugees (Portugal).
pt-PT.microsoft	string	Microsoft Analyzer voor Portugees (Portugal).
ro.lucene	string	Lucene analyzer voor Roemeens.
ro.microsoft	string	Microsoft Analyzer voor Roemeens.
ru.lucene	string	Lucene analyzer voor Russisch.
ru.microsoft	string	Microsoft Analyzer voor Russisch.
simple	string	Hiermee verdeelt u tekst op niet-letters en converteert u deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	string	Microsoft Analyzer voor Slowaaks.
sl.microsoft	string	Microsoft Analyzer voor Sloveens.
sr-cyrillic.microsoft	string	Microsoft analyzer voor Servisch (Cyrillisch).
sr-latin.microsoft	string	Microsoft analyzer voor Servisch (Latijns).
standard.lucene	string	Standard Lucene Analyzer.
standardasciifolding.lucene	string	Standaard ASCII Folding Lucene analyzer. Zie https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	string	Verdeelt tekst op niet-letters; Hiermee past u de tokenfilters kleine letters en stopwoorden toe. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	string	Lucene analyzer voor Zweeds.
sv.microsoft	string	Microsoft Analyzer voor Zweeds.
ta.microsoft	string	Microsoft Analyzer voor Tamil.
te.microsoft	string	Microsoft Analyzer voor Telugu.
th.lucene	string	Lucene analyzer voor Thai.
th.microsoft	string	Microsoft Analyzer voor Thais.
tr.lucene	string	Lucene analyzer voor Turks.
tr.microsoft	string	Microsoft Analyzer voor Turks.
uk.microsoft	string	Microsoft Analyzer voor Oekraïens.
ur.microsoft	string	Microsoft Analyzer voor Urdu.
vi.microsoft	string	Microsoft Analyzer voor Vietnamees.
whitespace	string	Een analyse die gebruikmaakt van de witruimtetokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	string	Lucene analyzer voor Chinees (vereenvoudigd).
zh-Hans.microsoft	string	Microsoft Analyzer voor Chinees (vereenvoudigd).
zh-Hant.lucene	string	Lucene analyzer voor Chinees (traditioneel).
zh-Hant.microsoft	string	Microsoft Analyzer voor Chinees (traditioneel).

LexicalTokenizerName

Definieert de namen van alle tokenizers die worden ondersteund door de zoekmachine.

Name	Type	Description
classic	string	Tokenizer op basis van grammatica die geschikt is voor het verwerken van de meeste Europese documenten. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	string	Hiermee wordt de invoer van een rand omgezet in n-grammen van de opgegeven grootte(n). Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	string	Verzendt de volledige invoer als één token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	string	Verdeelt tekst op niet-letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	string	Hiermee verdeelt u tekst op niet-letters en converteert u deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	string	Verdeelt tekst met behulp van taalspecifieke regels en reduceert woorden tot de basisvormen.
microsoft_language_tokenizer	string	Verdeelt tekst met behulp van taalspecifieke regels.
nGram	string	Hiermee wordt de invoer omgezet in n-grammen van de opgegeven grootte(n). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	string	Tokenizer voor padachtige hiërarchieën. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	string	Tokenizer die gebruikmaakt van regex-patroonkoppeling om afzonderlijke tokens te maken. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	string	Standard Lucene analyzer; Bestaat uit de standaardtokenizer, het filter in kleine letters en het stopfilter. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	string	Hiermee worden URL's en e-mailberichten als één token gebruikt. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	string	Hiermee verdeelt u tekst bij witruimte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

SearchError

Beschrijft een foutvoorwaarde voor de API.

Name	Type	Description
code	string	Een van een door de server gedefinieerde set foutcodes.
details	SearchError[]	Een matrix met details over specifieke fouten die tot deze gerapporteerde fout hebben geleid.
message	string	Een door mensen leesbare weergave van de fout.

TokenFilterName

Definieert de namen van alle tokenfilters die worden ondersteund door de zoekmachine.

Name	Type	Description
apostrophe	string	Verwijdert alle tekens na een apostrof (inclusief de apostrof zelf). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	string	Een tokenfilter waarmee de Arabische normalisatiefunctie wordt toegepast om de spelling te normaliseren. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	string	Converteert alfabetische, numerieke en symbolische Unicode-tekens die zich niet in de eerste 127 ASCII-tekens (het Unicode-blok 'Basic Latin' bevinden) naar hun ASCII-equivalenten, als dergelijke equivalenten bestaan. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	string	Vormt bigrams van CJK-termen die worden gegenereerd op basis van de standaardtokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	string	Normaliseert CJK-breedteverschillen. Vouwt fullwidth ASCII-varianten in het equivalente latijnse basis en Katakana-varianten met halve breedte in de equivalente Kana. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	string	Verwijdert Engelse bezittelijke en puntjes uit acroniemen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	string	Maak bigrams voor veelgebruikte termen tijdens het indexeren. Enkele termen worden ook nog steeds geïndexeerd, met bigrams erboven. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	string	Genereert n-gram van de opgegeven grootte(n) vanaf de voor- of achterkant van een invoertoken. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	string	Verwijdert elisions. 'l'avion' (het vliegtuig) wordt bijvoorbeeld geconverteerd naar 'avion' (vliegtuig). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	string	Normaliseert Duitse tekens volgens de heuristiek van het Duitse 2-sneeuwbal-algoritme. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	string	Hiermee normaliseert u tekst in Hindi om enkele verschillen in spellingvariaties te verwijderen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	string	Normaliseert de Unicode-weergave van tekst in Indiase talen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	string	Verzendt elk binnenkomende token twee keer, eenmaal als trefwoord en eenmaal als niet-trefwoord. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	string	Een high-performance kstem filter voor Engels. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	string	Hiermee verwijdert u woorden die te lang of te kort zijn. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	string	Beperkt het aantal tokens tijdens het indexeren. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	string	Hiermee wordt tokentekst genormaliseerd naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm
nGram_v2	string	Genereert n-gram van de opgegeven grootte(n). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	string	Past normalisatie toe voor Perzisch. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	string	Tokens maken voor fonetische overeenkomsten. Zie https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	string	Maakt gebruik van het Porter-stem-algoritme om de tokenstroom te transformeren. Zie http://tartarus.org/~martin/PorterStemmer
reverse	string	Hiermee keert u de tokentekenreeks om. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	string	Vouwt Scandinavische karakters åÅäæÄÆ-a> en öÖøØ-o>. Het discrimineert ook het gebruik van dubbele klinkers aa, ae, ao, oe en oo, waardoor alleen de eerste overblijft. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	string	Normaliseert het gebruik van de uitwisselbare Scandinavische tekens. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	string	Hiermee maakt u combinaties van tokens als één token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	string	Een filter dat woorden afstelt met behulp van een door sneeuwbal gegenereerde stemmer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	string	Normaliseert de Unicode-weergave van Sorani-tekst. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	string	Taalspecifiek stemfilter. Zie https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	string	Hiermee verwijdert u stopwoorden uit een tokenstroom. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	string	Hiermee worden voorloop- en volgspaties van tokens verwijderd. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	string	Hiermee worden de voorwaarden afgekapt tot een specifieke lengte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	string	Hiermee filtert u tokens met dezelfde tekst als het vorige token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	string	Tokentekst wordt genormaliseerd naar hoofdletters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	string	Hiermee splitst u woorden in subwoorden en voert u optionele transformaties uit op subwoordgroepen.