Delen via


PatternTokenizer interface

Tokenizer die gebruikmaakt van regex-patroonkoppeling om afzonderlijke tokens te maken. Deze tokenizer wordt geïmplementeerd met apache Lucene.

Eigenschappen

flags

Markeringen voor reguliere expressies. Mogelijke waarden zijn: 'CANON_EQ', 'CASE_INSENSITIVE', 'COMMENTS', 'DOTALL', 'LITERAL', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES'

group

Het op nul gebaseerde ordinaal van de overeenkomende groep in het reguliere expressiepatroon dat moet worden geëxtraheerd in tokens. Gebruik -1 als u het hele patroon wilt gebruiken om de invoer op te splitsen in tokens, ongeacht de overeenkomende groepen. De standaardwaarde is -1. Standaardwaarde: -1.

name

De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens.

odatatype

Polymorfe discriminator

pattern

Een patroon voor reguliere expressies dat overeenkomt met tokenscheidingstekens. Standaard is een expressie die overeenkomt met een of meer witruimtetekens. Standaardwaarde: \W+.

Eigenschapdetails

flags

Markeringen voor reguliere expressies. Mogelijke waarden zijn: 'CANON_EQ', 'CASE_INSENSITIVE', 'COMMENTS', 'DOTALL', 'LITERAL', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES'

flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

Waarde van eigenschap

("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

group

Het op nul gebaseerde ordinaal van de overeenkomende groep in het reguliere expressiepatroon dat moet worden geëxtraheerd in tokens. Gebruik -1 als u het hele patroon wilt gebruiken om de invoer op te splitsen in tokens, ongeacht de overeenkomende groepen. De standaardwaarde is -1. Standaardwaarde: -1.

group?: number

Waarde van eigenschap

number

name

De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens.

name: string

Waarde van eigenschap

string

odatatype

Polymorfe discriminator

odatatype: "#Microsoft.Azure.Search.PatternTokenizer"

Waarde van eigenschap

"#Microsoft.Azure.Search.PatternTokenizer"

pattern

Een patroon voor reguliere expressies dat overeenkomt met tokenscheidingstekens. Standaard is een expressie die overeenkomt met een of meer witruimtetekens. Standaardwaarde: \W+.

pattern?: string

Waarde van eigenschap

string