Sdílet prostřednictvím


Indexes - Analyze

Ukazuje, jak analyzátor rozděluje text na tokeny.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-05-01-preview

Parametry identifikátoru URI

Name V Vyžadováno Typ Description
endpoint
path True

string

Adresa URL koncového bodu vyhledávací služby.

indexName
path True

string

Název indexu, pro který chcete testovat analyzátor.

api-version
query True

string

Verze rozhraní API klienta.

Hlavička požadavku

Name Vyžadováno Typ Description
x-ms-client-request-id

string

uuid

ID sledování odeslané spolu s požadavkem na pomoc s laděním.

Text požadavku

Name Vyžadováno Typ Description
text True

string

Text, který se má rozdělit na tokeny.

analyzer

LexicalAnalyzerName

Název analyzátoru, který se má použít k přerušení daného textu.

charFilters

CharFilterName[]

Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu.

normalizer

LexicalNormalizerName

Název normalizátoru, který se má použít k normalizaci daného textu.

tokenFilters

TokenFilterName[]

Volitelný seznam filtrů tokenů, které se mají použít při dělení daného textu.

tokenizer

LexicalTokenizerName

Název tokenizátoru, který se má použít k přerušení daného textu.

Odpovědi

Name Typ Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Chybová odpověď.

Příklady

SearchServiceIndexAnalyze

Ukázkový požadavek

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-05-01-preview

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Ukázková odpověď

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definice

Name Description
AnalyzedTokenInfo

Informace o tokenu vráceného analyzátorem

AnalyzeRequest

Určuje některé komponenty textu a analýzy, které slouží k rozdělení textu na tokeny.

AnalyzeResult

Výsledek testování analyzátoru na textu.

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

ErrorAdditionalInfo

Další informace o chybě správy prostředků

ErrorDetail

Podrobnosti o chybě.

ErrorResponse

Odpověď na chybu

LexicalAnalyzerName

Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem.

LexicalNormalizerName

Definuje názvy všech normalizátorů textu podporovaných vyhledávacím webem.

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

AnalyzedTokenInfo

Informace o tokenu vráceného analyzátorem

Name Typ Description
endOffset

integer

Index posledního znaku tokenu ve vstupním textu.

position

integer

Umístění tokenu ve vstupním textu vzhledem k jiným tokenům. První token ve vstupním textu má pozici 0, další pozici 1 atd. V závislosti na použitém analyzátoru můžou mít některé tokeny stejnou pozici, například pokud jsou vzájemně synonymy.

startOffset

integer

Index prvního znaku tokenu ve vstupním textu.

token

string

Token vrácený analyzátorem.

AnalyzeRequest

Určuje některé komponenty textu a analýzy, které slouží k rozdělení textu na tokeny.

Name Typ Description
analyzer

LexicalAnalyzerName

Název analyzátoru, který se má použít k přerušení daného textu.

charFilters

CharFilterName[]

Volitelný seznam filtrů znaků, které se mají použít při dělení daného textu.

normalizer

LexicalNormalizerName

Název normalizátoru, který se má použít k normalizaci daného textu.

text

string

Text, který se má rozdělit na tokeny.

tokenFilters

TokenFilterName[]

Volitelný seznam filtrů tokenů, které se mají použít při dělení daného textu.

tokenizer

LexicalTokenizerName

Název tokenizátoru, který se má použít k přerušení daného textu.

AnalyzeResult

Výsledek testování analyzátoru na textu.

Name Typ Description
tokens

AnalyzedTokenInfo[]

Seznam tokenů vrácených analyzátorem zadaným v požadavku

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

Name Typ Description
html_strip

string

Filtr znaků, který se pokouší vysunout konstruktory HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html.

ErrorAdditionalInfo

Další informace o chybě správy prostředků

Name Typ Description
info

object

Další informace.

type

string

Typ další informace.

ErrorDetail

Podrobnosti o chybě.

Name Typ Description
additionalInfo

ErrorAdditionalInfo[]

Další informace o chybě

code

string

Kód chyby

details

ErrorDetail[]

Podrobnosti o chybě

message

string

Chybová zpráva

target

string

Cíl chyby.

ErrorResponse

Odpověď na chybu

Name Typ Description
error

ErrorDetail

Objekt chyby.

LexicalAnalyzerName

Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem.

Name Typ Description
ar.lucene

string

Analyzátor Lucene pro arabštinu.

ar.microsoft

string

Microsoft analyzer pro arabštinu.

bg.lucene

string

Analyzátor Lucene pro bulharštinu.

bg.microsoft

string

Microsoft analyzer pro bulharštinu.

bn.microsoft

string

Microsoft analyzer for Bangla.

ca.lucene

string

Analyzátor Lucene pro katalánštinu.

ca.microsoft

string

Microsoft analyzer pro katalánštinu.

cs.lucene

string

Analyzátor Lucene pro češtinu.

cs.microsoft

string

Microsoft analyzer pro češtinu.

da.lucene

string

Analyzátor Lucene pro dánštinu.

da.microsoft

string

Microsoft analyzer pro dánštinu.

de.lucene

string

Analyzátor Lucene pro němčinu.

de.microsoft

string

Microsoft analyzer pro němčinu.

el.lucene

string

Analyzátor Lucene pro řečtinu.

el.microsoft

string

Microsoft analyzer pro řečtinu.

en.lucene

string

Analyzátor Lucene pro angličtinu.

en.microsoft

string

Microsoft analyzer pro angličtinu.

es.lucene

string

Analyzátor Lucene pro španělštinu.

es.microsoft

string

Microsoft analyzer pro španělštinu.

et.microsoft

string

Analyzátor Microsoftu pro estonštinu.

eu.lucene

string

Analyzátor Lucene pro baskicko.

fa.lucene

string

Analyzátor Lucene pro perštinu.

fi.lucene

string

Analyzátor Lucene pro finštinu.

fi.microsoft

string

Microsoft analyzer pro finštinu.

fr.lucene

string

Analyzátor Lucene pro francouzštinu.

fr.microsoft

string

Microsoft analyzer pro francouzštinu.

ga.lucene

string

Analyzátor Lucene pro irštinu.

gl.lucene

string

Analyzátor Lucene pro Galicijštinu.

gu.microsoft

string

Microsoft analyzer for Gudžarátština.

he.microsoft

string

Microsoft analyzer pro hebrejštinu.

hi.lucene

string

Analyzátor Lucene pro hindštinu.

hi.microsoft

string

Microsoft analyzer pro hindštinu.

hr.microsoft

string

Microsoft analyzer pro chorvatštinu.

hu.lucene

string

Analyzátor Lucene pro maďarštinu.

hu.microsoft

string

Microsoft analyzer pro maďarštinu.

hy.lucene

string

Analyzátor Lucene pro arménštinu.

id.lucene

string

Analyzátor Lucene pro indonéštinu.

id.microsoft

string

Microsoft analyzer for Indonéština (Bahasa).

is.microsoft

string

Analyzátor Microsoftu pro islandštinu.

it.lucene

string

Analyzátor Lucene pro italštinu.

it.microsoft

string

Microsoft analyzer pro italštinu.

ja.lucene

string

Analyzátor Lucene pro japonštinu.

ja.microsoft

string

Microsoft analyzer pro japonštinu.

keyword

string

Zpracovává celý obsah pole jako jeden token. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html.

kn.microsoft

string

Microsoft analyzer for Kannada.

ko.lucene

string

Analyzátor Lucene pro korejštinu.

ko.microsoft

string

Microsoft analyzer pro korejštinu.

lt.microsoft

string

Microsoft analyzer pro litevštinu.

lv.lucene

string

Analyzátor Lucene pro lotyštinu.

lv.microsoft

string

Microsoft analyzer pro lotyštinu.

ml.microsoft

string

Microsoft analyzer for Malayalam.

mr.microsoft

string

Microsoft analyzer for Marathi.

ms.microsoft

string

Microsoft analyzer for Malajština (latinka).

nb.microsoft

string

Microsoft analyzer for Norština (Bokmål).

nl.lucene

string

Analyzátor Lucene pro nizozemštinu.

nl.microsoft

string

Microsoft analyzer pro holandštinu.

no.lucene

string

Analyzátor Lucene pro norštinu.

pa.microsoft

string

Microsoft analyzer for Punjabi.

pattern

string

Pružně rozděluje text na termíny pomocí vzoru regulárního výrazu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html.

pl.lucene

string

Analyzátor Lucene pro polštinu.

pl.microsoft

string

Microsoft analyzer pro polštinu.

pt-BR.lucene

string

Analyzátor Lucene pro portugalštinu (Brazílie).

pt-BR.microsoft

string

Microsoft analyzer pro portugalštinu (Brazílie).

pt-PT.lucene

string

Analyzátor Lucene pro portugalštinu (Portugalsko).

pt-PT.microsoft

string

Microsoft analyzer pro portugalštinu (Portugalsko).

ro.lucene

string

Analyzátor Lucene pro rumunštinu.

ro.microsoft

string

Microsoft analyzer pro rumunštinu.

ru.lucene

string

Analyzátor Lucene pro ruštinu.

ru.microsoft

string

Microsoft analyzer pro ruštinu.

simple

string

Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html.

sk.microsoft

string

Microsoft analyzer pro slovenštinu.

sl.microsoft

string

Microsoft analyzer pro slovinštinu.

sr-cyrillic.microsoft

string

Microsoft analyzer pro srbštinu (cyrilice).

sr-latin.microsoft

string

Microsoft analyzer pro srbštinu (latinka).

standard.lucene

string

Standardní analyzátor Lucene.

standardasciifolding.lucene

string

Standardní analyzátor ASCII Folding Lucene. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers.

stop

string

Rozdělí text na jiné než písmena; Použije filtry tokenů malých písmen a stopword. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html.

sv.lucene

string

Analyzátor Lucene pro švédštinu.

sv.microsoft

string

Microsoft analyzer pro švédštinu.

ta.microsoft

string

Microsoft analyzer for Tamilština.

te.microsoft

string

Microsoft analyzer for Telugu.

th.lucene

string

Analyzátor Lucene pro thajštinu.

th.microsoft

string

Microsoft analyzer pro thajštinu.

tr.lucene

string

Analyzátor Lucene pro turečtinu.

tr.microsoft

string

Microsoft analyzer pro turečtinu.

uk.microsoft

string

Microsoft analyzer for Ukrajinština.

ur.microsoft

string

Microsoft analyzer for Urdu.

vi.microsoft

string

Analyzátor microsoftu pro vietnamštinu.

whitespace

string

Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html.

zh-Hans.lucene

string

Analyzátor Lucene pro čínštinu (zjednodušená).

zh-Hans.microsoft

string

Microsoft analyzer pro čínštinu (zjednodušená).

zh-Hant.lucene

string

Analyzátor Lucene pro čínštinu (tradiční).

zh-Hant.microsoft

string

Microsoft analyzer pro čínštinu (tradiční).

LexicalNormalizerName

Definuje názvy všech normalizátorů textu podporovaných vyhledávacím webem.

Name Typ Description
asciifolding

string

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka"), na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

elision

string

Odebere elisions. Například "l'avion" (letadlo) se převede na "avion" (rovina). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

lowercase

string

Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html.

standard

string

Standardní normalizátor, který se skládá z malých písmen a asciifolding. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

uppercase

string

Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

Name Typ Description
classic

string

Tokenizátor založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.

edgeNGram

string

Tokenizuje vstup z hrany na n-gramů dané velikosti. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.

keyword_v2

string

Vygeneruje celý vstup jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.

letter

string

Rozdělí text na jiné než písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.

lowercase

string

Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.

microsoft_language_stemming_tokenizer

string

Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní tvary.

microsoft_language_tokenizer

string

Rozdělí text pomocí pravidel specifických pro jazyk.

nGram

string

Tokenizuje vstup na n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.

path_hierarchy_v2

string

Tokenizátor pro hierarchie podobné cestám. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.

pattern

string

Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.

standard_v2

string

Standardní analyzátor Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.

uax_url_email

string

Tokenizuje adresy URL a e-maily jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.

whitespace

string

Rozdělí text na prázdné znaky. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

Name Typ Description
apostrophe

string

Odstraní všechny znaky za apostrofem (včetně samotného apostrofu). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.

arabic_normalization

string

Filtr tokenů, který používá arabský normalizátor k normalizaci pravopisu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.

asciifolding

string

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 ASCII znaků (blok Unicode "základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

cjk_bigram

string

Forms bigramy výrazů CJK, které jsou generovány ze standardního tokenizátoru. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.

cjk_width

string

Normalizuje rozdíly šířky CJK. Přeloží fullwidth varianty ASCII do ekvivalentní základní latinky a varianty Katakana s poloviční šířkou do ekvivalentní kany. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.

classic

string

Odebere anglické přivlastňovací texty a tečky z akronymů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.

common_grams

string

Při indexování můžete vytvářet bigramy pro často se vyskytující termíny. Indexují se také jednotlivé termíny s překryvnými bigramy. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.

edgeNGram_v2

string

Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.

elision

string

Odstraní elisions. Například "l'avion" (letadlo) se převede na "avion" (letadlo). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

german_normalization

string

Normalizuje německé znaky podle heuristiky algoritmu snowball german2. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.

hindi_normalization

string

Normalizuje text v hindštině, aby se odstranily některé rozdíly v pravopisných variantách. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.

indic_normalization

string

Normalizuje reprezentaci textu v indickém jazyce v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.

keyword_repeat

string

Vygeneruje každý příchozí token dvakrát, jednou jako klíčové slovo a jednou jako bez klíčového slova. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.

kstem

string

Vysoce výkonný filtr kstem pro angličtinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.

length

string

Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.

limit

string

Omezuje počet tokenů při indexování. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.

lowercase

string

Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html.

nGram_v2

string

Vygeneruje n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.

persian_normalization

string

Použije normalizaci pro perštinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.

phonetic

string

Create tokeny pro fonetické shody. Viz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.

porter_stem

string

Používá algoritmus stemmingu Porter k transformaci streamu tokenu. Viz http://tartarus.org/~martin/PorterStemmer.

reverse

string

Vrátí řetězec tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

scandinavian_folding

string

Složí skandinávci åÅäæÄÆ-a> a öÖøØ-o>. Diskriminuje také použití dvojitých samohlásek aa, ae, ao, oe a oo, takže zůstane jen první. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.

scandinavian_normalization

string

Normalizuje použití zaměnitelných severských znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.

shingle

string

Vytvoří kombinace tokenů jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.

snowball

string

Filtr, který vytváří slova pomocí generovaného sněžnice. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.

sorani_normalization

string

Normalizuje reprezentaci textu Sorani v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.

stemmer

string

Filtr stemming specifický pro jazyk. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.

stopwords

string

Odebere stop slova z datového proudu tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.

trim

string

Oříznou úvodní a koncové prázdné znaky z tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.

truncate

string

Zkracuje termíny na určitou délku. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.

unique

string

Vyfiltruje tokeny se stejným textem jako předchozí token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.

uppercase

string

Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

word_delimiter

string

Rozdělí slova na podsloví a provede volitelné transformace skupin podslov.