PatternTokenizer interface
Tokenizer yang menggunakan pencocokan pola regex untuk membangun token yang berbeda. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Properti
| flags | Bendera ekspresi reguler. Nilai yang mungkin termasuk: 'CANON_EQ', 'CASE_INSENSITIVE', 'COMMENTS', 'DOTALL', 'LITERAL', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES' |
| group | Ordinal berbasis nol dari grup yang cocok dalam pola ekspresi reguler untuk mengekstrak ke dalam token. Gunakan -1 jika Anda ingin menggunakan seluruh pola untuk membagi input menjadi token, terlepas dari grup yang cocok. Defaultnya adalah -1. Nilai default: -1. |
| name | Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
| odatatype | Diskriminator Polimorfik |
| pattern | Pola ekspresi reguler untuk mencocokkan pemisah token. Defaultnya adalah ekspresi yang cocok dengan satu atau beberapa karakter spasi kosong. Nilai default: |
Detail Properti
flags
Bendera ekspresi reguler. Nilai yang mungkin termasuk: 'CANON_EQ', 'CASE_INSENSITIVE', 'COMMENTS', 'DOTALL', 'LITERAL', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES'
flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
Nilai Properti
("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
group
Ordinal berbasis nol dari grup yang cocok dalam pola ekspresi reguler untuk mengekstrak ke dalam token. Gunakan -1 jika Anda ingin menggunakan seluruh pola untuk membagi input menjadi token, terlepas dari grup yang cocok. Defaultnya adalah -1. Nilai default: -1.
group?: number
Nilai Properti
number
name
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.
name: string
Nilai Properti
string
odatatype
Diskriminator Polimorfik
odatatype: "#Microsoft.Azure.Search.PatternTokenizer"
Nilai Properti
"#Microsoft.Azure.Search.PatternTokenizer"
pattern
Pola ekspresi reguler untuk mencocokkan pemisah token. Defaultnya adalah ekspresi yang cocok dengan satu atau beberapa karakter spasi kosong. Nilai default: \W+.
pattern?: string
Nilai Properti
string