Udostępnij za pośrednictwem


LuceneStandardTokenizer interface

Przerywa tekst po regułach segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

Właściwości

maxTokenLength

Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. Wartość domyślna: 255.

name

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

odatatype

Dyskryminujące polimorficzne

Szczegóły właściwości

maxTokenLength

Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. Wartość domyślna: 255.

maxTokenLength?: number

Wartość właściwości

number

name

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

name: string

Wartość właściwości

string

odatatype

Dyskryminujące polimorficzne

odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"

Wartość właściwości

"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"