NGramTokenizer interface
Маркеризирует входные данные в n-граммах заданных размеров. Этот токенизатор реализуется с помощью Apache Lucene.
- Extends
Свойства
| max |
Максимальная длина n-грамма. Значение по умолчанию — 2. Максимальное значение — 300. |
| min |
Минимальная длина n-грамма. Значение по умолчанию — 1. Максимальное значение — 300. Должно быть меньше значения maxGram. |
| odatatype | Полиморфная дискриминация, указывающая различные типы этого объекта, может быть |
| token |
Классы символов, которые хранятся в маркерах. |
Унаследованные свойства
| name | Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами. |
Сведения о свойстве
maxGram
Максимальная длина n-грамма. Значение по умолчанию — 2. Максимальное значение — 300.
maxGram?: number
Значение свойства
number
minGram
Минимальная длина n-грамма. Значение по умолчанию — 1. Максимальное значение — 300. Должно быть меньше значения maxGram.
minGram?: number
Значение свойства
number
odatatype
Полиморфная дискриминация, указывающая различные типы этого объекта, может быть
odatatype: "#Microsoft.Azure.Search.NGramTokenizer"
Значение свойства
"#Microsoft.Azure.Search.NGramTokenizer"
tokenChars
Классы символов, которые хранятся в маркерах.
tokenChars?: TokenCharacterKind[]
Значение свойства
Сведения об унаследованном свойстве
name
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.
name: string
Значение свойства
string
Унаследовано отLexicalTokenizer.name