你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

KnownTokenizerNames enum

服务接受的 LexicalTokenizerName 的已知值。

字段

Classic

适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

EdgeNGram

将来自边缘的输入标记化为给定大小 (s) 的 n 克。 请参见https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

Keyword

将整个输入作为单个标记发出。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

Letter

在非字母处划分文本。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

Lowercase

在非字母处划分文本并将其转换为小写。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

MicrosoftLanguageStemmingTokenizer

使用特定于语言的规则划分文本,并将各字词缩减为其原形。

MicrosoftLanguageTokenizer

使用特定于语言的规则划分文本。

NGram

将输入标记为给定大小的 n 元语法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

PathHierarchy

用于路径式层次结构的 tokenizer。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

Pattern

使用正则表达式模式匹配来构造不同令牌的 Tokenizer。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

Standard

标准 Lucene 分析器;由标准标记器、小写筛选器和停止筛选器组成。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

UaxUrlEmail

将 URL 和电子邮件标记为一个标记。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

Whitespace

在空格处划分文本。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html