Bagikan melalui


PatternTokenizer interface

Tokenizer yang menggunakan pencocokan pola regex untuk membangun token yang berbeda. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

Properti

flags

Bendera ekspresi reguler. Nilai yang mungkin termasuk: 'CANON_EQ', 'CASE_INSENSITIVE', 'COMMENTS', 'DOTALL', 'LITERAL', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES'

group

Ordinal berbasis nol dari grup yang cocok dalam pola ekspresi reguler untuk mengekstrak ke dalam token. Gunakan -1 jika Anda ingin menggunakan seluruh pola untuk membagi input menjadi token, terlepas dari grup yang cocok. Defaultnya adalah -1. Nilai default: -1.

name

Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

odatatype

Diskriminator Polimorfik

pattern

Pola ekspresi reguler untuk mencocokkan pemisah token. Defaultnya adalah ekspresi yang cocok dengan satu atau beberapa karakter spasi kosong. Nilai default: \W+.

Detail Properti

flags

Bendera ekspresi reguler. Nilai yang mungkin termasuk: 'CANON_EQ', 'CASE_INSENSITIVE', 'COMMENTS', 'DOTALL', 'LITERAL', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES'

flags?: RegexFlags[]

Nilai Properti

group

Ordinal berbasis nol dari grup yang cocok dalam pola ekspresi reguler untuk mengekstrak ke dalam token. Gunakan -1 jika Anda ingin menggunakan seluruh pola untuk membagi input menjadi token, terlepas dari grup yang cocok. Defaultnya adalah -1. Nilai default: -1.

group?: number

Nilai Properti

number

name

Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

name: string

Nilai Properti

string

odatatype

Diskriminator Polimorfik

odatatype: "#Microsoft.Azure.Search.PatternTokenizer"

Nilai Properti

"#Microsoft.Azure.Search.PatternTokenizer"

pattern

Pola ekspresi reguler untuk mencocokkan pemisah token. Defaultnya adalah ekspresi yang cocok dengan satu atau beberapa karakter spasi kosong. Nilai default: \W+.

pattern?: string

Nilai Properti

string