Udostępnij za pośrednictwem


PatternTokenizer interface

Tokenizer, który używa dopasowania wzorca regularnego do konstruowania odrębnych tokenów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

Właściwości

flags

Flagi wyrażeń regularnych. Możliwe wartości obejmują: "CANON_EQ", "CASE_INSENSITIVE", "KOMENTARZE", "DOTALL", "LITERAŁ", "MULTILINE", "UNICODE_CASE", "UNIX_LINES"

group

Porządkowość oparta na zerowej grupie pasującej we wzorcu wyrażenia regularnego w celu wyodrębnienia do tokenów. Użyj -1, jeśli chcesz użyć całego wzorca, aby podzielić dane wejściowe na tokeny, niezależnie od pasujących grup. Wartość domyślna to -1. Wartość domyślna: -1.

name

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

odatatype

Dyskryminujące polimorficzne

pattern

Wzorzec wyrażenia regularnego odpowiadający separatorom tokenów. Wartość domyślna to wyrażenie zgodne z co najmniej jednym znakiem odstępu. Wartość domyślna: \W+.

Szczegóły właściwości

flags

Flagi wyrażeń regularnych. Możliwe wartości obejmują: "CANON_EQ", "CASE_INSENSITIVE", "KOMENTARZE", "DOTALL", "LITERAŁ", "MULTILINE", "UNICODE_CASE", "UNIX_LINES"

flags?: RegexFlags[]

Wartość właściwości

group

Porządkowość oparta na zerowej grupie pasującej we wzorcu wyrażenia regularnego w celu wyodrębnienia do tokenów. Użyj -1, jeśli chcesz użyć całego wzorca, aby podzielić dane wejściowe na tokeny, niezależnie od pasujących grup. Wartość domyślna to -1. Wartość domyślna: -1.

group?: number

Wartość właściwości

number

name

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

name: string

Wartość właściwości

string

odatatype

Dyskryminujące polimorficzne

odatatype: "#Microsoft.Azure.Search.PatternTokenizer"

Wartość właściwości

"#Microsoft.Azure.Search.PatternTokenizer"

pattern

Wzorzec wyrażenia regularnego odpowiadający separatorom tokenów. Wartość domyślna to wyrażenie zgodne z co najmniej jednym znakiem odstępu. Wartość domyślna: \W+.

pattern?: string

Wartość właściwości

string