PatternTokenizer interface
Tokenizer die gebruikmaakt van regex-patroonkoppeling om afzonderlijke tokens te maken. Deze tokenizer wordt geïmplementeerd met apache Lucene.
Eigenschappen
flags | Markeringen voor reguliere expressies. Mogelijke waarden zijn: 'CANON_EQ', 'CASE_INSENSITIVE', 'COMMENTS', 'DOTALL', 'LITERAL', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES' |
group | Het op nul gebaseerde ordinaal van de overeenkomende groep in het reguliere expressiepatroon dat moet worden geëxtraheerd in tokens. Gebruik -1 als u het hele patroon wilt gebruiken om de invoer op te splitsen in tokens, ongeacht de overeenkomende groepen. De standaardwaarde is -1. Standaardwaarde: -1. |
name | De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
odatatype | Polymorfe discriminator |
pattern | Een patroon voor reguliere expressies dat overeenkomt met tokenscheidingstekens. Standaard is een expressie die overeenkomt met een of meer witruimtetekens. Standaardwaarde: |
Eigenschapdetails
flags
Markeringen voor reguliere expressies. Mogelijke waarden zijn: 'CANON_EQ', 'CASE_INSENSITIVE', 'COMMENTS', 'DOTALL', 'LITERAL', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES'
flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
Waarde van eigenschap
("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
group
Het op nul gebaseerde ordinaal van de overeenkomende groep in het reguliere expressiepatroon dat moet worden geëxtraheerd in tokens. Gebruik -1 als u het hele patroon wilt gebruiken om de invoer op te splitsen in tokens, ongeacht de overeenkomende groepen. De standaardwaarde is -1. Standaardwaarde: -1.
group?: number
Waarde van eigenschap
number
name
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens.
name: string
Waarde van eigenschap
string
odatatype
Polymorfe discriminator
odatatype: "#Microsoft.Azure.Search.PatternTokenizer"
Waarde van eigenschap
"#Microsoft.Azure.Search.PatternTokenizer"
pattern
Een patroon voor reguliere expressies dat overeenkomt met tokenscheidingstekens. Standaard is een expressie die overeenkomt met een of meer witruimtetekens. Standaardwaarde: \W+
.
pattern?: string
Waarde van eigenschap
string