LuceneStandardTokenizer interface
Przerywa tekst po regułach segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Właściwości
max |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. Wartość domyślna: 255. |
name | Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
odatatype | Dyskryminujące polimorficzne |
Szczegóły właściwości
maxTokenLength
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. Wartość domyślna: 255.
maxTokenLength?: number
Wartość właściwości
number
name
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.
name: string
Wartość właściwości
string
odatatype
Dyskryminujące polimorficzne
odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"
Wartość właściwości
"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"