MicrosoftLanguageStemmingTokenizer interface
使用語言特有的規則來分割文字,並將字組縮減到其基本形式。
- Extends
屬性
is |
值,指出如何使用 Tokenizer。 如果做為搜尋 Tokenizer,請將 設定為 true,如果做為索引標記化工具,請將 設定為 false。 預設值為 false。 |
language | 要使用的語言。 預設值為英文。 |
max |
權杖長度上限。 超過長度上限的權杖會進行分割。 可用的語彙基元長度上限是 300 個字元。 超過 300 個字元的權杖會先分割成長度為 300 的權杖,然後每個權杖都會根據最大權杖長度集進行分割。 預設值為 255。 |
odatatype | 多型辨別器,指定這個物件可以有不同的類型 |
繼承的屬性
name | Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。 |
屬性詳細資料
isSearchTokenizer
值,指出如何使用 Tokenizer。 如果做為搜尋 Tokenizer,請將 設定為 true,如果做為索引標記化工具,請將 設定為 false。 預設值為 false。
isSearchTokenizer?: boolean
屬性值
boolean
language
要使用的語言。 預設值為英文。
language?: MicrosoftStemmingTokenizerLanguage
屬性值
maxTokenLength
權杖長度上限。 超過長度上限的權杖會進行分割。 可用的語彙基元長度上限是 300 個字元。 超過 300 個字元的權杖會先分割成長度為 300 的權杖,然後每個權杖都會根據最大權杖長度集進行分割。 預設值為 255。
maxTokenLength?: number
屬性值
number
odatatype
多型辨別器,指定這個物件可以有不同的類型
odatatype: "#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer"
屬性值
"#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer"
繼承的屬性詳細資料
name
Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。
name: string
屬性值
string