Поделиться через


NGramTokenizer interface

Маркеризирует входные данные в n-граммах заданных размеров. Этот токенизатор реализуется с помощью Apache Lucene.

Extends

Свойства

maxGram

Максимальная длина n-грамма. Значение по умолчанию — 2. Максимальное значение — 300.

minGram

Минимальная длина n-грамма. Значение по умолчанию — 1. Максимальное значение — 300. Должно быть меньше значения maxGram.

odatatype

Полиморфная дискриминация, указывающая различные типы этого объекта, может быть

tokenChars

Классы символов, которые хранятся в маркерах.

Унаследованные свойства

name

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

Сведения о свойстве

maxGram

Максимальная длина n-грамма. Значение по умолчанию — 2. Максимальное значение — 300.

maxGram?: number

Значение свойства

number

minGram

Минимальная длина n-грамма. Значение по умолчанию — 1. Максимальное значение — 300. Должно быть меньше значения maxGram.

minGram?: number

Значение свойства

number

odatatype

Полиморфная дискриминация, указывающая различные типы этого объекта, может быть

odatatype: "#Microsoft.Azure.Search.NGramTokenizer"

Значение свойства

"#Microsoft.Azure.Search.NGramTokenizer"

tokenChars

Классы символов, которые хранятся в маркерах.

tokenChars?: TokenCharacterKind[]

Значение свойства

Сведения об унаследованном свойстве

name

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

name: string

Значение свойства

string

Унаследовано отLexicalTokenizer.name