Apostrophe
|
Odstraní všechny znaky za apostrofem (včetně samotného apostrofu). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.
|
ArabicNormalization
|
Filtr tokenů, který použije arabský normalizátor k normalizaci ortografie. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.
|
AsciiFolding
|
Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka"), na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.
|
CjkBigram
|
Vytváří bigramy výrazů CJK, které jsou generovány ze standardního tokenizátoru. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.
|
CjkWidth
|
Normalizuje rozdíly šířky CJK. Přeloží fullwidth varianty ASCII do ekvivalentní základní latinky a varianty Katakana s poloviční šířkou do ekvivalentní kany. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.
|
Classic
|
Odebere anglické přivlastňovací texty a tečky ze zkratek. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.
|
CommonGram
|
Sestavte bigramy pro často se vyskytující termíny při indexování. Jednotlivé termíny se stále indexují, překryvné bigramy. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.
|
EdgeNGram
|
Generuje n-gramů dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.
|
Elision
|
Odebere elisions. Například "l'avion" (letadlo) se převede na "avion" (rovina). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.
|
GermanNormalization
|
Normalizuje německé znaky podle heuristiky algoritmu sněhové koule German2. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.
|
HindiNormalization
|
Normalizuje text v hindštině, aby se odstranily některé rozdíly ve variantách pravopisu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.
|
IndicNormalization
|
Normalizuje reprezentaci textu v kódu Unicode v indických jazycích. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.
|
KeywordRepeat
|
Vygeneruje každý příchozí token dvakrát, jednou jako klíčové slovo a jednou jako jiné. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.
|
KStem
|
Vysoce výkonný filtr kstem pro angličtinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.
|
Length
|
Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.
|
Limit
|
Omezuje počet tokenů při indexování. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.
|
Lowercase
|
Normalizuje text tokenu na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm.
|
NGram
|
Vygeneruje n-gramů dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.
|
PersianNormalization
|
Použije normalizaci pro perštinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.
|
Phonetic
|
Vytvoření tokenů pro fonetické shody Viz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.
|
PorterStem
|
Použije algoritmus stemming porteru k transformaci streamu tokenu. Viz http://tartarus.org/~martin/PorterStemmer.
|
Reverse
|
Obrátí řetězec tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.
|
ScandinavianFoldingNormalization
|
Složí znak Skandinávie åÅäæÄÆ-a> a ööøØ-o>. Diskriminuje také použití dvojitých samohlásek aa, ae, ao, oe ao, oe a oo, přičemž ponechá jen první. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.
|
ScandinavianNormalization
|
Normalizuje použití zaměnitelných znaků ve skandinávii. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.
|
Shingle
|
Vytvoří kombinace tokenů jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.
|
Snowball
|
Filtr, který vytváří slova pomocí stopky vygenerované snowballem. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.
|
SoraniNormalization
|
Normalizuje reprezentaci textu Sorani v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.
|
Stemmer
|
Filtr stemming specifický pro jazyk. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.
|
Stopwords
|
Odebere stop slova z datového proudu tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.
|
Trim
|
Oříznou úvodní a koncové prázdné znaky z tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.
|
Truncate
|
Zkracuje termíny na určitou délku. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.
|
Unique
|
Vyfiltruje tokeny se stejným textem jako předchozí token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.
|
Uppercase
|
Normalizuje text tokenu na velká písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.
|
WordDelimiter
|
Rozdělí slova na podsloví a provede volitelné transformace skupin podslov.
|