Поделиться через


PatternTokenizer interface

Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. Этот токенизатор реализуется с помощью Apache Lucene.

Свойства

flags

Флаги регулярных выражений. Возможные значения: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "ЛИТЕРАЛ", "MULTILINE", "UNICODE_CASE", "UNIX_LINES"

group

Отсчитываемый от нуля порядковый номер соответствующей группы в шаблоне регулярного выражения для извлечения в токены. Используйте -1, если вы хотите использовать весь шаблон для разделения входных данных на маркеры независимо от совпадающих групп. Значение по умолчанию — -1. Значение по умолчанию: -1.

name

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

odatatype

Полиморфная дискриминация

pattern

Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию используется выражение, соответствующее одному или нескольким символам пробелов. Значение по умолчанию: \W+.

Сведения о свойстве

flags

Флаги регулярных выражений. Возможные значения: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "ЛИТЕРАЛ", "MULTILINE", "UNICODE_CASE", "UNIX_LINES"

flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

Значение свойства

("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

group

Отсчитываемый от нуля порядковый номер соответствующей группы в шаблоне регулярного выражения для извлечения в токены. Используйте -1, если вы хотите использовать весь шаблон для разделения входных данных на маркеры независимо от совпадающих групп. Значение по умолчанию — -1. Значение по умолчанию: -1.

group?: number

Значение свойства

number

name

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

name: string

Значение свойства

string

odatatype

Полиморфная дискриминация

odatatype: "#Microsoft.Azure.Search.PatternTokenizer"

Значение свойства

"#Microsoft.Azure.Search.PatternTokenizer"

pattern

Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию используется выражение, соответствующее одному или нескольким символам пробелов. Значение по умолчанию: \W+.

pattern?: string

Значение свойства

string