你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

KnownTokenFilterNames enum

服务接受的 TokenFilterName 的已知值。

字段

Apostrophe

去除撇号后面的所有字符(包括撇号本身)。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

ArabicNormalization

一个标记筛选器,它应用阿拉伯语规范化程序来规范化正字法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

AsciiFolding

将“基本拉丁语”Unicode) 块 (的前 127 个 ASCII 字符中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项(如果存在此类等效字符)。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

CjkBigram

形成从标准 tokenizer 生成的 CJK 术语的 bigram。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

CjkWidth

规范化 CJK 宽度差异。 将全形 ASCII 变体折叠为等效的基本拉丁语,将半角片假名变体折叠为等效的假名。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

Classic

从首字母缩略词中删除英语所有物和点。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

CommonGram

在编制索引时为经常出现的词条构造二元语法。 此外,仍将为单个词条编制索引并叠加二元语法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

EdgeNGram

从输入令牌的前面或后面开始,生成给定大小 (s) 的 n 元语法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

Elision

删除省音。 例如,“l'avion” (平面) 将转换为“avion” (平面) 。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

GermanNormalization

根据 German2 snowball 算法的启发法规范化德语字符。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

HindiNormalization

规范化印地语文本,以消除拼写变体中的一些差异。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

IndicNormalization

规范化印地语文本的 Unicode 表示形式。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

KeywordRepeat

发出每个传入令牌两次,一次作为关键字 (keyword) 发出,一次作为非关键字 (keyword) 发出。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

KStem

适用于英语的高性能 kstem 筛选器。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

Length

删除太长或太短的字词。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

Limit

编制索引时限制标记数量。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

Lowercase

将标记文本规范化为小写。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm

NGram

生成给定大小的 n 元语法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

PersianNormalization

为波斯语应用规范化。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

Phonetic

为拼音匹配项创建标记。 请参见https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

PorterStem

使用 Porter 词干算法转换令牌流。 请参见http://tartarus.org/~martin/PorterStemmer

Reverse

反转标记字符串。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

ScandinavianFoldingNormalization

折叠斯堪的纳维亚语字符 åÅäæÄÆ->a 和 öÖøØ->o。 它还排斥双元音 aa、ae、ao、oe 和 oo 的使用,只留下第一个元音。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

ScandinavianNormalization

规范化可互换的斯堪的纳维亚语字符的使用。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

Shingle

创建标记组合作为单个标记。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

Snowball

使用 Snowball 生成的词干分析器对单词进行词干的筛选器。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

SoraniNormalization

规范化索拉尼语文本的 Unicode 表示形式。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

Stemmer

特定于语言的词干筛选。 请参见https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

Stopwords

从标记流中删除非索引字。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

Trim

剪裁标记中的前导和尾随空格。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

Truncate

将字词截断为特定长度。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

Unique

筛选出与前一个标记具有相同文本的标记。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

Uppercase

将标记文本规范化为大写。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

WordDelimiter

将字词拆分为子字,并对子字组执行可选转换。