Sdílet prostřednictvím


LexicalTokenizerName type

Definuje hodnoty pro LexicalTokenizerName.
<xref:KnownLexicalTokenizerName> Lze použít zaměnitelně s LexicalTokenizerName, tento výčet obsahuje známé hodnoty, které služba podporuje.

Známé hodnoty podporované službou

classic: Tokenizátor založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.
edgeNGram: Tokenizuje vstup z okraje na n-gramy dané velikosti. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.
keyword_v2: Vygeneruje celý vstup jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.
letter: Rozdělí text na jiné než písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.
malá písmena: Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.
microsoft_language_tokenizer: Rozdělí text pomocí pravidel specifických pro konkrétní jazyk.
microsoft_language_stemming_tokenizer: Rozdělí text pomocí pravidel specifických pro konkrétní jazyk a zmenšuje slova na jejich základní tvary.
nGram: Tokenizuje vstup na n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.
path_hierarchy_v2: Tokenizer pro hierarchie podobné cestám. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.
pattern: Tokenizer, který používá porovnávání vzorů regex k vytvoření jedinečných tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.
standard_v2: Standardní analyzátor Lucene; Skládá se ze standardního tokenizátoru, filtru malých písmen a filtru zastavení. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.
uax_url_email: Tokenizuje adresy URL a e-maily jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.
prázdné znaky: Rozdělí text na prázdné znaky. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

type LexicalTokenizerName = string