Sdílet prostřednictvím


LuceneStandardTokenizer interface

Rozdělí text podle pravidel segmentace textu v kódování Unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.

Vlastnosti

maxTokenLength

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, který lze použít, je 300 znaků. Výchozí hodnota: 255.

name

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

odatatype

Polymorfní diskriminátor

Podrobnosti vlastnosti

maxTokenLength

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, který lze použít, je 300 znaků. Výchozí hodnota: 255.

maxTokenLength?: number

Hodnota vlastnosti

number

name

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

name: string

Hodnota vlastnosti

string

odatatype

Polymorfní diskriminátor

odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"

Hodnota vlastnosti

"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"