你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

MicrosoftLanguageStemmingTokenizer 类

定义

使用特定于语言的规则划分文本,并将各字词缩减为其原形。

[Newtonsoft.Json.JsonObject("#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer")]
public class MicrosoftLanguageStemmingTokenizer : Microsoft.Azure.Search.Models.Tokenizer
[<Newtonsoft.Json.JsonObject("#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer")>]
type MicrosoftLanguageStemmingTokenizer = class
    inherit Tokenizer
Public Class MicrosoftLanguageStemmingTokenizer
Inherits Tokenizer
继承
MicrosoftLanguageStemmingTokenizer
属性
Newtonsoft.Json.JsonObjectAttribute

构造函数

MicrosoftLanguageStemmingTokenizer()

初始化 MicrosoftLanguageStemmingTokenizer 类的新实例。

MicrosoftLanguageStemmingTokenizer(String, Nullable<Int32>, Nullable<Boolean>, Nullable<MicrosoftStemmingTokenizerLanguage>)

初始化 MicrosoftLanguageStemmingTokenizer 类的新实例。

属性

IsSearchTokenizer

获取或设置一个值,该值指示如何使用 tokenizer。 如果用作搜索 tokenizer,则设置为 true;如果用作索引标记器,则设置为 false。 默认值为 false。

Language

获取或设置要使用的语言。 默认值为英语。 可能的值包括:“arabic”、“bangla”、“保加利亚”、“加泰罗尼亚”、“克罗地亚”、“捷克”、“丹麦”、“荷兰”、“英语”、“爱沙尼亚语”、“芬兰”、“法语”、“德语”、“希腊”、“古吉拉特语”、“希伯来语”、“印地语”、“匈牙利语”、“冰岛语”、 'indonesian', 'italian', 'kannada', '拉脱维亚语', '立陶宛', '马来', '马拉雅拉姆语', 'marathi', '挪威Bokmaal', 'polish', '葡萄牙语', 'portugueseBrazilian', 'punjabi', '罗马尼亚语', 'russian', '塞尔维亚西里尔语', '塞尔维亚拉廷', '斯洛伐克语', '斯洛文尼亚语', 'spanish', 'swedish', 'tamil', 'telugu', 'turkish', '乌克兰', 'urdu'

MaxTokenLength

获取或设置最大令牌长度。 超过最大长度的标记将被拆分。 可以使用的最大标记长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。

Name

获取或设置 tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

(继承自 Tokenizer)

方法

Validate()

验证 对象。

适用于