CustomAnalyzer interface

Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné nebo prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci, která se skládá z jednoho předdefinovaného tokenizátoru a jednoho nebo více filtrů. Tokenizátor zodpovídá za dělení textu na tokeny a filtry pro úpravy tokenů vygenerovaných tokenem.

Vlastnosti

charFilters

Seznam filtrů znaků sloužících k přípravě vstupního textu před zpracováním tokenizátorem. Mohou například nahradit určité znaky nebo symboly. Filtry se spouští v pořadí, v jakém jsou uvedeny.

name

Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

odatatype

Polymorfní diskriminátor

tokenFilters

Seznam filtrů tokenů, které se používají k vyfiltrování nebo úpravě tokenů generovaných tokenizátorem. Můžete například zadat filtr malými písmeny, který převede všechny znaky na malá písmena. Filtry se spouští v pořadí, v jakém jsou uvedeny.

tokenizerName

Název tokenizátoru, který se má použít k rozdělení souvislého textu do posloupnosti tokenů, například rozdělení věty na slova. KnownTokenizerNames je výčet obsahující předdefinované názvy tokenizátorů.

Podrobnosti vlastnosti

charFilters

Seznam filtrů znaků sloužících k přípravě vstupního textu před zpracováním tokenizátorem. Mohou například nahradit určité znaky nebo symboly. Filtry se spouští v pořadí, v jakém jsou uvedeny.

charFilters?: string[]

Hodnota vlastnosti

string[]

name

Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

name: string

Hodnota vlastnosti

string

odatatype

Polymorfní diskriminátor

odatatype: "#Microsoft.Azure.Search.CustomAnalyzer"

Hodnota vlastnosti

"#Microsoft.Azure.Search.CustomAnalyzer"

tokenFilters

Seznam filtrů tokenů, které se používají k vyfiltrování nebo úpravě tokenů generovaných tokenizátorem. Můžete například zadat filtr malými písmeny, který převede všechny znaky na malá písmena. Filtry se spouští v pořadí, v jakém jsou uvedeny.

tokenFilters?: string[]

Hodnota vlastnosti

string[]

tokenizerName

Název tokenizátoru, který se má použít k rozdělení souvislého textu do posloupnosti tokenů, například rozdělení věty na slova. KnownTokenizerNames je výčet obsahující předdefinované názvy tokenizátorů.

tokenizerName: string

Hodnota vlastnosti

string