Indexes - Analyze

Reference

Služba:: Search Service

Verze rozhraní API:: 2023-11-01

Ukazuje, jak analyzátor rozděluje text na tokeny.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

Parametry identifikátoru URI

Name	V	Vyžadováno	Typ	Description
endpoint	path	True	string	Adresa URL koncového bodu vyhledávací služby.
indexName	path	True	string	Název indexu, pro který chcete testovat analyzátor.
api-version	query	True	string	Verze rozhraní API klienta.

Hlavička požadavku

Name	Vyžadováno	Typ	Description
x-ms-client-request-id		string uuid	ID sledování odeslané spolu s požadavkem na pomoc s laděním.

Text požadavku

Name	Vyžadováno	Typ	Description
text	True	string	Text, který se má rozdělit na tokeny.
analyzer		LexicalAnalyzerName	Název analyzátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadán, musíte místo toho zadat tokenizátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.
charFilters		CharFilterName[]	Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizer.
tokenFilters		TokenFilterName[]	Volitelný seznam filtrů tokenů, které se mají použít při dělení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizer.
tokenizer		LexicalTokenizerName	Název tokenizátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadán, musíte místo toho zadat analyzátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.

Odpovědi

Name	Typ	Description
200 OK	AnalyzeResult
Other Status Codes	SearchError	Chybová odpověď.

Příklady

SearchServiceIndexAnalyze

Ukázkový požadavek

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Ukázková odpověď

Stavový kód:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definice

Name	Description
AnalyzedTokenInfo	Informace o tokenu vráceného analyzátorem
AnalyzeRequest	Určuje některé textové a analytické komponenty, které se používají k rozdělení textu na tokeny.
AnalyzeResult	Výsledek testování analyzátoru na textu.
CharFilterName	Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.
LexicalAnalyzerName	Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem.
LexicalTokenizerName	Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.
SearchError	Popisuje chybovou podmínku rozhraní API.
TokenFilterName	Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

AnalyzedTokenInfo

Informace o tokenu vráceného analyzátorem

Name	Typ	Description
endOffset	integer	Index posledního znaku tokenu ve vstupním textu.
position	integer	Pozice tokenu ve vstupním textu vzhledem k jiným tokenům. První token ve vstupním textu má pozici 0, další má pozici 1 atd. V závislosti na použitém analyzátoru můžou mít některé tokeny stejnou pozici, například pokud jsou vzájemně synonymy.
startOffset	integer	Index prvního znaku tokenu ve vstupním textu.
token	string	Token vrácený analyzátorem.

AnalyzeRequest

Určuje některé textové a analytické komponenty, které se používají k rozdělení textu na tokeny.

Name	Typ	Description
analyzer	LexicalAnalyzerName	Název analyzátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadán, musíte místo toho zadat tokenizátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.
charFilters	CharFilterName[]	Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizer.
text	string	Text, který se má rozdělit na tokeny.
tokenFilters	TokenFilterName[]	Volitelný seznam filtrů tokenů, které se mají použít při dělení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizer.
tokenizer	LexicalTokenizerName	Název tokenizátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadán, musíte místo toho zadat analyzátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.

AnalyzeResult

Výsledek testování analyzátoru na textu.

Name	Typ	Description
tokens	AnalyzedTokenInfo[]	Seznam tokenů vrácených analyzátorem zadaným v požadavku.

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

Name	Typ	Description
html_strip	string	Filtr znaků, který se pokouší vysunout konstrukce HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html.

LexicalAnalyzerName

Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem.

Name	Typ	Description
ar.lucene	string	Analyzátor Lucene pro arabštinu.
ar.microsoft	string	Microsoft analyzer pro arabštinu.
bg.lucene	string	Analyzátor Lucene pro bulharštinu.
bg.microsoft	string	Microsoft analyzer pro bulharštinu.
bn.microsoft	string	Microsoft analyzer for Bangla.
ca.lucene	string	Analyzátor Lucene pro katalánštinu.
ca.microsoft	string	Microsoft analyzer pro katalánštinu.
cs.lucene	string	Analyzátor Lucene pro češtinu.
cs.microsoft	string	Microsoft analyzer pro češtinu.
da.lucene	string	Analyzátor Lucene pro dánštinu.
da.microsoft	string	Microsoft analyzer pro dánštinu.
de.lucene	string	Analyzátor Lucene pro němčinu.
de.microsoft	string	Microsoft analyzer pro němčinu.
el.lucene	string	Analyzátor Lucene pro řečtinu.
el.microsoft	string	Microsoft analyzer pro řečtinu.
en.lucene	string	Analyzátor Lucene pro angličtinu.
en.microsoft	string	Microsoft analyzer pro angličtinu.
es.lucene	string	Analyzátor Lucene pro španělštinu.
es.microsoft	string	Microsoft analyzer pro španělštinu.
et.microsoft	string	Microsoft analyzer pro estonštinu.
eu.lucene	string	Analyzátor Lucene pro baskičtina.
fa.lucene	string	Analyzátor Lucene pro perštinu.
fi.lucene	string	Analyzátor Lucene pro finštinu.
fi.microsoft	string	Microsoft analyzer pro finštinu.
fr.lucene	string	Analyzátor Lucene pro francouzštinu.
fr.microsoft	string	Microsoft analyzer pro francouzštinu.
ga.lucene	string	Analyzátor Lucene pro irštinu.
gl.lucene	string	Analyzátor Lucene pro galicijštinu.
gu.microsoft	string	Microsoft analyzer for Gujarati.
he.microsoft	string	Microsoft Analyzer pro hebrejštinu.
hi.lucene	string	Analyzátor Lucene pro hindštinu.
hi.microsoft	string	Microsoft analyzer pro hindštinu.
hr.microsoft	string	Microsoft analyzer pro chorvatštinu.
hu.lucene	string	Analyzátor Lucene pro maďarštinu.
hu.microsoft	string	Microsoft analyzer pro maďarštinu.
hy.lucene	string	Analyzátor Lucene pro arménštinu.
id.lucene	string	Analyzátor Lucene pro indonéštinu.
id.microsoft	string	Microsoft analyzer pro indonéštinu (Bahasa).
is.microsoft	string	Microsoft analyzer pro islandštinu.
it.lucene	string	Analyzátor Lucene pro italštinu.
it.microsoft	string	Microsoft analyzer pro italštinu.
ja.lucene	string	Analyzátor Lucene pro japonštinu.
ja.microsoft	string	Microsoft Analyzer pro japonštinu.
keyword	string	Zachází s celým obsahem pole jako s jedním tokenem. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html.
kn.microsoft	string	Microsoft analyzer for Kannada.
ko.lucene	string	Analyzátor Lucene pro korejštinu.
ko.microsoft	string	Microsoft analyzer pro korejštinu.
lt.microsoft	string	Microsoft analyzer pro litevštinu.
lv.lucene	string	Analyzátor Lucene pro lotyštinu.
lv.microsoft	string	Microsoft analyzer pro lotyštinu.
ml.microsoft	string	Microsoft analyzer for Malayalam.
mr.microsoft	string	Microsoft analyzer for Marathi.
ms.microsoft	string	Microsoft analyzer for Malay (latinka).
nb.microsoft	string	Microsoft analyzer pro norštinu (Bokmål).
nl.lucene	string	Analyzátor Lucene pro nizozemštinu.
nl.microsoft	string	Microsoft analyzer pro holandštinu.
no.lucene	string	Analyzátor Lucene pro norštinu.
pa.microsoft	string	Microsoft analyzer for Padžábština.
pattern	string	Pružně rozděluje text na termíny pomocí vzoru regulárního výrazu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html.
pl.lucene	string	Analyzátor Lucene pro polštinu.
pl.microsoft	string	Microsoft analyzer pro polštinu.
pt-BR.lucene	string	Analyzátor Lucene pro portugalštinu (Brazílie).
pt-BR.microsoft	string	Microsoft analyzer pro portugalštinu (Brazílie).
pt-PT.lucene	string	Analyzátor Lucene pro portugalštinu (Portugalsko).
pt-PT.microsoft	string	Microsoft analyzer pro portugalštinu (Portugalsko).
ro.lucene	string	Analyzátor Lucene pro rumunštinu.
ro.microsoft	string	Microsoft analyzer pro rumunštinu.
ru.lucene	string	Analyzátor Lucene pro ruštinu.
ru.microsoft	string	Microsoft analyzer pro ruštinu.
simple	string	Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html.
sk.microsoft	string	Microsoft analyzer pro slovenštinu.
sl.microsoft	string	Microsoft analyzer pro slovinštinu.
sr-cyrillic.microsoft	string	Microsoft analyzer pro srbštinu (cyrilice).
sr-latin.microsoft	string	Microsoft analyzer pro srbštinu (latinka).
standard.lucene	string	Standardní analyzátor Lucene.
standardasciifolding.lucene	string	Standard ASCII Folding Lucene analyzer. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers.
stop	string	Rozdělí text na jiné než písmena; Použije filtry tokenů malých písmen a dorazových slov. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html.
sv.lucene	string	Analyzátor Lucene pro švédštinu.
sv.microsoft	string	Microsoft analyzer pro švédštinu.
ta.microsoft	string	Microsoft analyzer for Tamilština.
te.microsoft	string	Microsoft analyzer for Telugu.
th.lucene	string	Analyzátor Lucene pro thajštinu.
th.microsoft	string	Microsoft analyzer pro thajštinu.
tr.lucene	string	Analyzátor Lucene pro turečtinu.
tr.microsoft	string	Microsoft analyzer pro turečtinu.
uk.microsoft	string	Microsoft analyzer pro ukrajinštinu.
ur.microsoft	string	Microsoft analyzer for Urdu.
vi.microsoft	string	Microsoft analyzer pro vietnamštinu.
whitespace	string	Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html.
zh-Hans.lucene	string	Analyzátor Lucene pro čínštinu (zjednodušená).
zh-Hans.microsoft	string	Microsoft analyzer pro čínštinu (zjednodušená).
zh-Hant.lucene	string	Analyzátor Lucene pro čínštinu (tradiční).
zh-Hant.microsoft	string	Microsoft analyzer pro čínštinu (tradiční).

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

Name	Typ	Description
classic	string	Tokenizátor založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.
edgeNGram	string	Tokenizuje vstup z hrany na n-gramů dané velikosti. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.
keyword_v2	string	Vygeneruje celý vstup jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.
letter	string	Rozdělí text na jiné než písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.
lowercase	string	Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.
microsoft_language_stemming_tokenizer	string	Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní tvary.
microsoft_language_tokenizer	string	Rozdělí text pomocí pravidel specifických pro jazyk.
nGram	string	Tokenizuje vstup na n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.
path_hierarchy_v2	string	Tokenizátor pro hierarchie podobné cestám. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.
pattern	string	Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.
standard_v2	string	Standardní analyzátor Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.
uax_url_email	string	Tokenizuje adresy URL a e-maily jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.
whitespace	string	Rozdělí text na prázdné znaky. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

SearchError

Popisuje chybovou podmínku rozhraní API.

Name	Typ	Description
code	string	Jeden ze serverem definovaných chybových kódů.
details	SearchError[]	Pole podrobností o konkrétních chybách, které vedly k této nahlášené chybě.
message	string	Lidsky čitelná reprezentace chyby.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

Name	Typ	Description
apostrophe	string	Odstraní všechny znaky za apostrofem (včetně samotného apostrofu). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.
arabic_normalization	string	Filtr tokenů, který použije arabský normalizátor k normalizaci ortografie. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.
asciifolding	string	Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka"), na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.
cjk_bigram	string	Vytváří bigramy výrazů CJK, které jsou generovány ze standardního tokenizátoru. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.
cjk_width	string	Normalizuje rozdíly šířky CJK. Přeloží fullwidth varianty ASCII do ekvivalentní základní latinky a varianty Katakana s poloviční šířkou do ekvivalentní kany. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.
classic	string	Odebere anglické přivlastňovací texty a tečky ze zkratek. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.
common_grams	string	Sestavte bigramy pro často se vyskytující termíny při indexování. Jednotlivé termíny se stále indexují, překryvné bigramy. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.
edgeNGram_v2	string	Generuje n-gramů dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.
elision	string	Odebere elisions. Například "l'avion" (letadlo) se převede na "avion" (rovina). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.
german_normalization	string	Normalizuje německé znaky podle heuristiky algoritmu sněhové koule German2. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.
hindi_normalization	string	Normalizuje text v hindštině, aby se odstranily některé rozdíly ve variantách pravopisu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.
indic_normalization	string	Normalizuje reprezentaci textu v kódu Unicode v indických jazycích. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.
keyword_repeat	string	Vygeneruje každý příchozí token dvakrát, jednou jako klíčové slovo a jednou jako jiné. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.
kstem	string	Vysoce výkonný filtr kstem pro angličtinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.
length	string	Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.
limit	string	Omezuje počet tokenů při indexování. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.
lowercase	string	Normalizuje text tokenu na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm.
nGram_v2	string	Vygeneruje n-gramů dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.
persian_normalization	string	Použije normalizaci pro perštinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.
phonetic	string	Vytvoření tokenů pro fonetické shody Viz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.
porter_stem	string	Použije algoritmus stemming porteru k transformaci streamu tokenu. Viz http://tartarus.org/~martin/PorterStemmer.
reverse	string	Obrátí řetězec tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.
scandinavian_folding	string	Složí znak Skandinávie åÅäæÄÆ-a> a ööøØ-o>. Diskriminuje také použití dvojitých samohlásek aa, ae, ao, oe ao, oe a oo, přičemž ponechá jen první. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.
scandinavian_normalization	string	Normalizuje použití zaměnitelných znaků ve skandinávii. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.
shingle	string	Vytvoří kombinace tokenů jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.
snowball	string	Filtr, který vytváří slova pomocí stopky vygenerované snowballem. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.
sorani_normalization	string	Normalizuje reprezentaci textu Sorani v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.
stemmer	string	Filtr stemmingu pro konkrétní jazyk. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.
stopwords	string	Odebere slova stop z datového proudu tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.
trim	string	Oříznou počáteční a koncové prázdné znaky z tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.
truncate	string	Zkrátí termíny na určitou délku. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.
unique	string	Vyfiltruje tokeny se stejným textem jako předchozí token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.
uppercase	string	Normalizuje text tokenu na velká písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.
word_delimiter	string	Rozdělí slova na podsloví a provede volitelné transformace skupin podseloví.

Sdílet prostřednictvím