Indexes - Analyze

Reference

Služba:: Search Service

Verze rozhraní API:: 2024-07-01

Ukazuje, jak analyzátor rozdělí text na tokeny.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Parametry identifikátoru URI

Name	V	Vyžadováno	Typ	Description
endpoint	path	True	string	Adresa URL koncového bodu vyhledávací služby.
indexName	path	True	string	Název indexu, pro který se má testovat analyzátor.
api-version	query	True	string	Verze rozhraní API klienta.

Hlavička požadavku

Name	Vyžadováno	Typ	Description
x-ms-client-request-id		string uuid	ID sledování odeslané s požadavkem, které vám pomůže s laděním.

Text požadavku

Name	Vyžadováno	Typ	Description
text	True	string	Text, který se má rozdělit na tokeny.
analyzer		LexicalAnalyzerName	Název analyzátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadaný, musíte místo toho zadat tokenizátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.
charFilters		CharFilterName[]	Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizátoru.
tokenFilters		TokenFilterName[]	Volitelný seznam filtrů tokenů, které se mají použít při přerušení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizátoru.
tokenizer		LexicalTokenizerName	Název tokenizátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadaný, musíte místo toho zadat analyzátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.

Odpovědi

Name	Typ	Description
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	Chybová odpověď.

Příklady

SearchServiceIndexAnalyze

Ukázkový požadavek

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Ukázková odpověď

Stavový kód:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definice

Name	Description
AnalyzedTokenInfo	Informace o tokenu vráceného analyzátorem
AnalyzeRequest	Určuje některé součásti textu a analýzy, které slouží k rozdělení textu na tokeny.
AnalyzeResult	Výsledek testování analyzátoru na textu
CharFilterName	Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.
ErrorAdditionalInfo	Další informace o chybě správy prostředků
ErrorDetail	Podrobnosti o chybě.
ErrorResponse	Chybová odpověď
LexicalAnalyzerName	Definuje názvy všech textových analyzátorů podporovaných vyhledávacím webem.
LexicalTokenizerName	Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.
TokenFilterName	Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

AnalyzedTokenInfo

Informace o tokenu vráceného analyzátorem

Name	Typ	Description
endOffset	integer	Index posledního znaku tokenu ve vstupním textu.
position	integer	Pozice tokenu ve vstupním textu vzhledem k jiným tokenům. První token vstupního textu má pozici 0, další má pozici 1 atd. V závislosti na použitém analyzátoru můžou mít některé tokeny stejnou pozici, například pokud se jedná o synonyma sebe navzájem.
startOffset	integer	Index prvního znaku tokenu ve vstupním textu.
token	string	Token vrácený analyzátorem.

AnalyzeRequest

Určuje některé součásti textu a analýzy, které slouží k rozdělení textu na tokeny.

Name	Typ	Description
analyzer	LexicalAnalyzerName	Název analyzátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadaný, musíte místo toho zadat tokenizátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.
charFilters	CharFilterName[]	Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizátoru.
text	string	Text, který se má rozdělit na tokeny.
tokenFilters	TokenFilterName[]	Volitelný seznam filtrů tokenů, které se mají použít při přerušení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizátoru.
tokenizer	LexicalTokenizerName	Název tokenizátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadaný, musíte místo toho zadat analyzátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.

AnalyzeResult

Výsledek testování analyzátoru na textu

Name	Typ	Description
tokens	AnalyzedTokenInfo[]	Seznam tokenů vrácených analyzátorem zadaným v požadavku.

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

Name	Typ	Description
html_strip	string	Filtr znaků, který se pokusí odstranit konstruktory HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Další informace o chybě správy prostředků

Name	Typ	Description
info	object	Další informace.
type	string	Další typ informací.

ErrorDetail

Podrobnosti o chybě.

Name	Typ	Description
additionalInfo	ErrorAdditionalInfo[]	Další informace o chybě.
code	string	Kód chyby.
details	ErrorDetail[]	Podrobnosti o chybě.
message	string	Chybová zpráva.
target	string	Cíl chyby.

ErrorResponse

Chybová odpověď

Name	Typ	Description
error	ErrorDetail	Objekt chyby.

LexicalAnalyzerName

Definuje názvy všech textových analyzátorů podporovaných vyhledávacím webem.

Name	Typ	Description
ar.lucene	string	Analyzátor Lucene pro arabštinu.
ar.microsoft	string	Microsoft Analyzer pro arabštinu.
bg.lucene	string	Analyzátor Lucene pro bulharštinu.
bg.microsoft	string	Microsoft Analyzer pro bulharštinu.
bn.microsoft	string	Microsoft analyzer for Bangla.
ca.lucene	string	Analyzátor Lucene pro katalánštinu.
ca.microsoft	string	Microsoft Analyzer pro katalánštinu.
cs.lucene	string	Lucene analyzer pro češtinu.
cs.microsoft	string	Microsoft Analyzer pro češtinu.
da.lucene	string	Analyzátor Lucene pro dánštinu.
da.microsoft	string	Microsoft Analyzer pro dánštinu.
de.lucene	string	Lucene analyzer pro němčinu.
de.microsoft	string	Microsoft Analyzer pro němčinu.
el.lucene	string	Lucene analyzer pro řečtinu.
el.microsoft	string	Microsoft Analyzer pro řečtinu.
en.lucene	string	Lucene Analyzer pro angličtinu.
en.microsoft	string	Microsoft Analyzer pro angličtinu.
es.lucene	string	Lucene analyzer pro španělštinu.
es.microsoft	string	Microsoft Analyzer pro španělštinu.
et.microsoft	string	Microsoft analyzer for Estonian.
eu.lucene	string	Analyzátor Lucene pro baskičtina.
fa.lucene	string	Lucene analyzátor perský.
fi.lucene	string	Lucene Analyzer pro finštinu.
fi.microsoft	string	Microsoft Analyzer pro finštinu.
fr.lucene	string	Lucene analyzer pro francouzštinu.
fr.microsoft	string	Microsoft Analyzer pro francouzštinu.
ga.lucene	string	Lucene analyzer pro irštinu.
gl.lucene	string	Analyzátor Lucene pro Galicijštinu.
gu.microsoft	string	Microsoft analyzer for Gujarati.
he.microsoft	string	Microsoft Analyzer for Hebrejština.
hi.lucene	string	Lucene analyzer for Hindi.
hi.microsoft	string	Microsoft Analyzer pro hindštinu.
hr.microsoft	string	Microsoft Analyzer pro chorvatštinu.
hu.lucene	string	Analyzátor Lucene pro maďarštinu.
hu.microsoft	string	Microsoft Analyzer pro maďarštinu.
hy.lucene	string	Analyzátor Lucene pro Arménii.
id.lucene	string	Analyzátor Lucene pro indonéštinu.
id.microsoft	string	Microsoft analyzer for Indonéština (Bahasa).
is.microsoft	string	Microsoft Analyzer pro Islandštinu.
it.lucene	string	Analyzátor Lucene pro italštinu.
it.microsoft	string	Microsoft Analyzer pro italštinu.
ja.lucene	string	Lucene Analyzer pro japonštinu.
ja.microsoft	string	Microsoft Analyzer pro japonštinu.
keyword	string	Považuje celý obsah pole za jediný token. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	string	Microsoft analyzer for Kannada.
ko.lucene	string	Lucene Analyzer pro korejštinu.
ko.microsoft	string	Microsoft Analyzer pro korejštinu.
lt.microsoft	string	Microsoft Analyzer pro litevštinu.
lv.lucene	string	Analyzátor Lucene pro lotyštinu.
lv.microsoft	string	Microsoft Analyzer pro lotyštinu.
ml.microsoft	string	Microsoft Analyzer pro Malayalam.
mr.microsoft	string	Microsoft analyzer for Marathi.
ms.microsoft	string	Microsoft Analyzer for Malay (latinka).
nb.microsoft	string	Microsoft Analyzer pro norštinu (Bokmål).
nl.lucene	string	Analyzátor Lucene pro nizozemštinu.
nl.microsoft	string	Microsoft Analyzer pro nizozemštinu.
no.lucene	string	Analyzátor Lucene pro norštinu.
pa.microsoft	string	Microsoft analyzer for Punjabi.
pattern	string	Pružně odděluje text do termínů pomocí vzoru regulárního výrazu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	string	Analyzátor Lucene pro polštinu.
pl.microsoft	string	Microsoft Analyzer pro polštinu.
pt-BR.lucene	string	Analyzátor Lucene pro portugalštinu (Brazílie).
pt-BR.microsoft	string	Microsoft Analyzer pro portugalštinu (Brazílie).
pt-PT.lucene	string	Analyzátor Lucene pro portugalštinu (Portugalsko).
pt-PT.microsoft	string	Microsoft Analyzer pro portugalštinu (Portugalsko).
ro.lucene	string	Lucene analyzer pro rumunštinu.
ro.microsoft	string	Microsoft Analyzer pro rumunštinu.
ru.lucene	string	Lucene analyzer pro ruštinu.
ru.microsoft	string	Microsoft Analyzer pro ruštinu.
simple	string	Rozdělí text bez písmen a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	string	Microsoft Analyzer pro slovenštinu.
sl.microsoft	string	Microsoft Analyzer pro slovinštinu.
sr-cyrillic.microsoft	string	Microsoft Analyzer pro srbštinu (cyrilice).
sr-latin.microsoft	string	Microsoft Analyzer pro srbštinu (latinka).
standard.lucene	string	Standardní analyzátor Lucene.
standardasciifolding.lucene	string	Standardní analyzátor ASCII Folding Lucene. Viz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	string	Rozdělí text bez písmen; Použije filtry tokenů s malými písmeny a stopword. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	string	Lucene analyzer pro švédštinu.
sv.microsoft	string	Microsoft Analyzer pro švédštinu.
ta.microsoft	string	Microsoft Analyzer pro tamilštinu.
te.microsoft	string	Microsoft Analyzer pro Telugu.
th.lucene	string	Analyzátor Lucene pro thajštinu.
th.microsoft	string	Microsoft Analyzer pro thajštinu.
tr.lucene	string	Analyzátor Lucene pro turečtinu.
tr.microsoft	string	Microsoft Analyzer pro turečtinu.
uk.microsoft	string	Microsoft Analyzer pro ukrajinštinu.
ur.microsoft	string	Microsoft analyzer for Urdu.
vi.microsoft	string	Microsoft Analyzer pro vietnamštinu.
whitespace	string	Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	string	Analyzátor Lucene pro čínštinu (zjednodušená).
zh-Hans.microsoft	string	Microsoft Analyzer pro čínštinu (zjednodušená).
zh-Hant.lucene	string	Analyzátor Lucene pro čínštinu (tradiční).
zh-Hant.microsoft	string	Microsoft Analyzer pro čínštinu (tradiční).

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

Name	Typ	Description
classic	string	Tokenizátor založený na gramatikě, který je vhodný pro zpracování většiny dokumentů evropského jazyka. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	string	Tokenizuje vstup z okraje na n-gramy dané velikosti. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	string	Vygeneruje celý vstup jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	string	Rozdělí text bez písmen. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	string	Rozdělí text bez písmen a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	string	Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní formuláře.
microsoft_language_tokenizer	string	Rozdělí text pomocí pravidel specifických pro jazyk.
nGram	string	Tokenizuje vstup na n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	string	Tokenizátor pro hierarchie podobné cestě. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	string	Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	string	Standardní analyzátor Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	string	Tokenizuje adresy URL a e-maily jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	string	Rozdělí text na prázdné znaky. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

Name	Typ	Description
apostrophe	string	Odstraní všechny znaky za apostrofem (včetně samotného apostrofu). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	string	Filtr tokenů, který použije arabský normalizátor k normalizaci orthografie. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	string	Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znaky ASCII (blok "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	string	Tvoří bigramy výrazů CJK, které se generují ze standardního tokenizátoru. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	string	Normalizuje rozdíly šířky CJK. Přeloží varianty ASCII na ekvivalentní základní latinku a varianty Katakana s poloviční šířkou do ekvivalentní Kana. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	string	Odebere anglické přivlastnické a tečky ze zkratek. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	string	Při indexování vytvořte bigramy pro často se vyskytující termíny. Jednotlivé termíny jsou stále indexované, s překryvnými bigramy. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	string	Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	string	Odebere elisions. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	string	Normalizuje německé znaky podle heuristiky německého snowball algoritmu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	string	Normalizuje text v hindštině a odebere některé rozdíly v pravopisných variantách. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	string	Normalizuje reprezentaci textu v indickém jazyce unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	string	Vygeneruje každý příchozí token dvakrát, jednou jako klíčové slovo a jednou jako jiné než klíčové slovo. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	string	Vysoce výkonný filtr kstem pro angličtinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	string	Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	string	Omezuje počet tokenů při indexování. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	string	Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	string	Vygeneruje n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	string	Použije normalizaci pro Perštinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	string	Vytváření tokenů pro fonetické shody Viz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	string	Používá algoritmus vytváření tokenů porteru k transformaci datového proudu tokenu. Viz http://tartarus.org/~martin/PorterStemmer
reverse	string	Vrátí řetězec tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	string	Složené severské znaky åÅäæÄÆ->a a öÖøØ->o. Také diskriminuje použití dvojitých samohlásek aa, ae, ao, oe a oo, ponechání jen první. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	string	Normalizuje použití zaměnitelných severských znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	string	Vytvoří kombinace tokenů jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	string	Filtr, který vychází ze slov pomocí vygenerovaného smyšlí snowballu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	string	Normalizuje reprezentaci textu Sorani v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	string	Filtr pro konkrétní jazyk. Viz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	string	Odebere slova ze streamu tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	string	Oříznou počáteční a koncové prázdné znaky z tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	string	Zkracuje termíny na určitou délku. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	string	Vyfiltruje tokeny se stejným textem jako předchozí token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	string	Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	string	Rozdělí slova do dílčích slov a provede volitelné transformace skupin podwordů.

Sdílet prostřednictvím