Apostrophe
|
去除撇号后面的所有字符(包括撇号本身)。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
|
ArabicNormalization
|
一个标记筛选器,它应用阿拉伯语规范化程序来规范化正字法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
|
AsciiFolding
|
将“基本拉丁语”Unicode) 块 (的前 127 个 ASCII 字符中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项(如果存在此类等效字符)。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
|
CjkBigram
|
形成从标准 tokenizer 生成的 CJK 术语的 bigram。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
|
CjkWidth
|
规范化 CJK 宽度差异。 将全形 ASCII 变体折叠为等效的基本拉丁语,将半角片假名变体折叠为等效的假名。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
|
Classic
|
从首字母缩略词中删除英语所有物和点。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
|
CommonGram
|
在编制索引时为经常出现的词条构造二元语法。 此外,仍将为单个词条编制索引并叠加二元语法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
|
EdgeNGram
|
从输入令牌的前面或后面开始,生成给定大小 (s) 的 n 元语法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
|
Elision
|
删除省音。 例如,“l'avion” (平面) 将转换为“avion” (平面) 。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
|
GermanNormalization
|
根据 German2 snowball 算法的启发法规范化德语字符。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
|
HindiNormalization
|
规范化印地语文本,以消除拼写变体中的一些差异。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
|
IndicNormalization
|
规范化印地语文本的 Unicode 表示形式。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
|
KeywordRepeat
|
发出每个传入令牌两次,一次作为关键字 (keyword) 发出,一次作为非关键字 (keyword) 发出。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
|
KStem
|
适用于英语的高性能 kstem 筛选器。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
|
Length
|
删除太长或太短的字词。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
|
Limit
|
编制索引时限制标记数量。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
|
Lowercase
|
将标记文本规范化为小写。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm
|
NGram
|
生成给定大小的 n 元语法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
|
PersianNormalization
|
为波斯语应用规范化。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
|
Phonetic
|
为拼音匹配项创建标记。 请参见https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
|
PorterStem
|
使用 Porter 词干算法转换令牌流。 请参见http://tartarus.org/~martin/PorterStemmer
|
Reverse
|
反转标记字符串。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
|
ScandinavianFoldingNormalization
|
折叠斯堪的纳维亚语字符 åÅäæÄÆ->a 和 öÖøØ->o。 它还排斥双元音 aa、ae、ao、oe 和 oo 的使用,只留下第一个元音。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
|
ScandinavianNormalization
|
规范化可互换的斯堪的纳维亚语字符的使用。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
|
Shingle
|
创建标记组合作为单个标记。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
|
Snowball
|
使用 Snowball 生成的词干分析器对单词进行词干的筛选器。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
|
SoraniNormalization
|
规范化索拉尼语文本的 Unicode 表示形式。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
|
Stemmer
|
特定于语言的词干筛选。 请参见https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
|
Stopwords
|
从标记流中删除非索引字。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
|
Trim
|
剪裁标记中的前导和尾随空格。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
|
Truncate
|
将字词截断为特定长度。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
|
Unique
|
筛选出与前一个标记具有相同文本的标记。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
|
Uppercase
|
将标记文本规范化为大写。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
|
WordDelimiter
|
将字词拆分为子字,并对子字组执行可选转换。
|