PatternTokenizer interface
Tokenizer yang menggunakan pencocokan pola regex untuk membangun token yang berbeda. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Properti
flags | Bendera ekspresi reguler. Nilai yang mungkin termasuk: 'CANON_EQ', 'CASE_INSENSITIVE', 'COMMENTS', 'DOTALL', 'LITERAL', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES' |
group | Ordinal berbasis nol dari grup yang cocok dalam pola ekspresi reguler untuk mengekstrak ke dalam token. Gunakan -1 jika Anda ingin menggunakan seluruh pola untuk membagi input menjadi token, terlepas dari grup yang cocok. Defaultnya adalah -1. Nilai default: -1. |
name | Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
odatatype | Diskriminator Polimorfik |
pattern | Pola ekspresi reguler untuk mencocokkan pemisah token. Defaultnya adalah ekspresi yang cocok dengan satu atau beberapa karakter spasi kosong. Nilai default: |
Detail Properti
flags
Bendera ekspresi reguler. Nilai yang mungkin termasuk: 'CANON_EQ', 'CASE_INSENSITIVE', 'COMMENTS', 'DOTALL', 'LITERAL', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES'
flags?: RegexFlags[]
Nilai Properti
group
Ordinal berbasis nol dari grup yang cocok dalam pola ekspresi reguler untuk mengekstrak ke dalam token. Gunakan -1 jika Anda ingin menggunakan seluruh pola untuk membagi input menjadi token, terlepas dari grup yang cocok. Defaultnya adalah -1. Nilai default: -1.
group?: number
Nilai Properti
number
name
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.
name: string
Nilai Properti
string
odatatype
Diskriminator Polimorfik
odatatype: "#Microsoft.Azure.Search.PatternTokenizer"
Nilai Properti
"#Microsoft.Azure.Search.PatternTokenizer"
pattern
Pola ekspresi reguler untuk mencocokkan pemisah token. Defaultnya adalah ekspresi yang cocok dengan satu atau beberapa karakter spasi kosong. Nilai default: \W+
.
pattern?: string
Nilai Properti
string