Sdílet prostřednictvím


Indexes - Analyze

Ukazuje, jak analyzátor rozděluje text na tokeny.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

Parametry identifikátoru URI

Name V Vyžadováno Typ Description
endpoint
path True

string

Adresa URL koncového bodu vyhledávací služby.

indexName
path True

string

Název indexu, pro který chcete testovat analyzátor.

api-version
query True

string

Verze rozhraní API klienta.

Hlavička požadavku

Name Vyžadováno Typ Description
x-ms-client-request-id

string

uuid

ID sledování odeslané spolu s požadavkem na pomoc s laděním.

Text požadavku

Name Vyžadováno Typ Description
text True

string

Text, který se má rozdělit na tokeny.

analyzer

LexicalAnalyzerName

Název analyzátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadán, musíte místo toho zadat tokenizátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.

charFilters

CharFilterName[]

Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizer.

tokenFilters

TokenFilterName[]

Volitelný seznam filtrů tokenů, které se mají použít při dělení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizer.

tokenizer

LexicalTokenizerName

Název tokenizátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadán, musíte místo toho zadat analyzátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.

Odpovědi

Name Typ Description
200 OK

AnalyzeResult

Other Status Codes

SearchError

Chybová odpověď.

Příklady

SearchServiceIndexAnalyze

Ukázkový požadavek

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Ukázková odpověď

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definice

Name Description
AnalyzedTokenInfo

Informace o tokenu vráceného analyzátorem

AnalyzeRequest

Určuje některé textové a analytické komponenty, které se používají k rozdělení textu na tokeny.

AnalyzeResult

Výsledek testování analyzátoru na textu.

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

LexicalAnalyzerName

Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem.

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

SearchError

Popisuje chybovou podmínku rozhraní API.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

AnalyzedTokenInfo

Informace o tokenu vráceného analyzátorem

Name Typ Description
endOffset

integer

Index posledního znaku tokenu ve vstupním textu.

position

integer

Pozice tokenu ve vstupním textu vzhledem k jiným tokenům. První token ve vstupním textu má pozici 0, další má pozici 1 atd. V závislosti na použitém analyzátoru můžou mít některé tokeny stejnou pozici, například pokud jsou vzájemně synonymy.

startOffset

integer

Index prvního znaku tokenu ve vstupním textu.

token

string

Token vrácený analyzátorem.

AnalyzeRequest

Určuje některé textové a analytické komponenty, které se používají k rozdělení textu na tokeny.

Name Typ Description
analyzer

LexicalAnalyzerName

Název analyzátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadán, musíte místo toho zadat tokenizátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.

charFilters

CharFilterName[]

Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizer.

text

string

Text, který se má rozdělit na tokeny.

tokenFilters

TokenFilterName[]

Volitelný seznam filtrů tokenů, které se mají použít při dělení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizer.

tokenizer

LexicalTokenizerName

Název tokenizátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadán, musíte místo toho zadat analyzátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.

AnalyzeResult

Výsledek testování analyzátoru na textu.

Name Typ Description
tokens

AnalyzedTokenInfo[]

Seznam tokenů vrácených analyzátorem zadaným v požadavku.

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

Name Typ Description
html_strip

string

Filtr znaků, který se pokouší vysunout konstrukce HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html.

LexicalAnalyzerName

Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem.

Name Typ Description
ar.lucene

string

Analyzátor Lucene pro arabštinu.

ar.microsoft

string

Microsoft analyzer pro arabštinu.

bg.lucene

string

Analyzátor Lucene pro bulharštinu.

bg.microsoft

string

Microsoft analyzer pro bulharštinu.

bn.microsoft

string

Microsoft analyzer for Bangla.

ca.lucene

string

Analyzátor Lucene pro katalánštinu.

ca.microsoft

string

Microsoft analyzer pro katalánštinu.

cs.lucene

string

Analyzátor Lucene pro češtinu.

cs.microsoft

string

Microsoft analyzer pro češtinu.

da.lucene

string

Analyzátor Lucene pro dánštinu.

da.microsoft

string

Microsoft analyzer pro dánštinu.

de.lucene

string

Analyzátor Lucene pro němčinu.

de.microsoft

string

Microsoft analyzer pro němčinu.

el.lucene

string

Analyzátor Lucene pro řečtinu.

el.microsoft

string

Microsoft analyzer pro řečtinu.

en.lucene

string

Analyzátor Lucene pro angličtinu.

en.microsoft

string

Microsoft analyzer pro angličtinu.

es.lucene

string

Analyzátor Lucene pro španělštinu.

es.microsoft

string

Microsoft analyzer pro španělštinu.

et.microsoft

string

Microsoft analyzer pro estonštinu.

eu.lucene

string

Analyzátor Lucene pro baskičtina.

fa.lucene

string

Analyzátor Lucene pro perštinu.

fi.lucene

string

Analyzátor Lucene pro finštinu.

fi.microsoft

string

Microsoft analyzer pro finštinu.

fr.lucene

string

Analyzátor Lucene pro francouzštinu.

fr.microsoft

string

Microsoft analyzer pro francouzštinu.

ga.lucene

string

Analyzátor Lucene pro irštinu.

gl.lucene

string

Analyzátor Lucene pro galicijštinu.

gu.microsoft

string

Microsoft analyzer for Gujarati.

he.microsoft

string

Microsoft Analyzer pro hebrejštinu.

hi.lucene

string

Analyzátor Lucene pro hindštinu.

hi.microsoft

string

Microsoft analyzer pro hindštinu.

hr.microsoft

string

Microsoft analyzer pro chorvatštinu.

hu.lucene

string

Analyzátor Lucene pro maďarštinu.

hu.microsoft

string

Microsoft analyzer pro maďarštinu.

hy.lucene

string

Analyzátor Lucene pro arménštinu.

id.lucene

string

Analyzátor Lucene pro indonéštinu.

id.microsoft

string

Microsoft analyzer pro indonéštinu (Bahasa).

is.microsoft

string

Microsoft analyzer pro islandštinu.

it.lucene

string

Analyzátor Lucene pro italštinu.

it.microsoft

string

Microsoft analyzer pro italštinu.

ja.lucene

string

Analyzátor Lucene pro japonštinu.

ja.microsoft

string

Microsoft Analyzer pro japonštinu.

keyword

string

Zachází s celým obsahem pole jako s jedním tokenem. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html.

kn.microsoft

string

Microsoft analyzer for Kannada.

ko.lucene

string

Analyzátor Lucene pro korejštinu.

ko.microsoft

string

Microsoft analyzer pro korejštinu.

lt.microsoft

string

Microsoft analyzer pro litevštinu.

lv.lucene

string

Analyzátor Lucene pro lotyštinu.

lv.microsoft

string

Microsoft analyzer pro lotyštinu.

ml.microsoft

string

Microsoft analyzer for Malayalam.

mr.microsoft

string

Microsoft analyzer for Marathi.

ms.microsoft

string

Microsoft analyzer for Malay (latinka).

nb.microsoft

string

Microsoft analyzer pro norštinu (Bokmål).

nl.lucene

string

Analyzátor Lucene pro nizozemštinu.

nl.microsoft

string

Microsoft analyzer pro holandštinu.

no.lucene

string

Analyzátor Lucene pro norštinu.

pa.microsoft

string

Microsoft analyzer for Padžábština.

pattern

string

Pružně rozděluje text na termíny pomocí vzoru regulárního výrazu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html.

pl.lucene

string

Analyzátor Lucene pro polštinu.

pl.microsoft

string

Microsoft analyzer pro polštinu.

pt-BR.lucene

string

Analyzátor Lucene pro portugalštinu (Brazílie).

pt-BR.microsoft

string

Microsoft analyzer pro portugalštinu (Brazílie).

pt-PT.lucene

string

Analyzátor Lucene pro portugalštinu (Portugalsko).

pt-PT.microsoft

string

Microsoft analyzer pro portugalštinu (Portugalsko).

ro.lucene

string

Analyzátor Lucene pro rumunštinu.

ro.microsoft

string

Microsoft analyzer pro rumunštinu.

ru.lucene

string

Analyzátor Lucene pro ruštinu.

ru.microsoft

string

Microsoft analyzer pro ruštinu.

simple

string

Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html.

sk.microsoft

string

Microsoft analyzer pro slovenštinu.

sl.microsoft

string

Microsoft analyzer pro slovinštinu.

sr-cyrillic.microsoft

string

Microsoft analyzer pro srbštinu (cyrilice).

sr-latin.microsoft

string

Microsoft analyzer pro srbštinu (latinka).

standard.lucene

string

Standardní analyzátor Lucene.

standardasciifolding.lucene

string

Standard ASCII Folding Lucene analyzer. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers.

stop

string

Rozdělí text na jiné než písmena; Použije filtry tokenů malých písmen a dorazových slov. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html.

sv.lucene

string

Analyzátor Lucene pro švédštinu.

sv.microsoft

string

Microsoft analyzer pro švédštinu.

ta.microsoft

string

Microsoft analyzer for Tamilština.

te.microsoft

string

Microsoft analyzer for Telugu.

th.lucene

string

Analyzátor Lucene pro thajštinu.

th.microsoft

string

Microsoft analyzer pro thajštinu.

tr.lucene

string

Analyzátor Lucene pro turečtinu.

tr.microsoft

string

Microsoft analyzer pro turečtinu.

uk.microsoft

string

Microsoft analyzer pro ukrajinštinu.

ur.microsoft

string

Microsoft analyzer for Urdu.

vi.microsoft

string

Microsoft analyzer pro vietnamštinu.

whitespace

string

Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html.

zh-Hans.lucene

string

Analyzátor Lucene pro čínštinu (zjednodušená).

zh-Hans.microsoft

string

Microsoft analyzer pro čínštinu (zjednodušená).

zh-Hant.lucene

string

Analyzátor Lucene pro čínštinu (tradiční).

zh-Hant.microsoft

string

Microsoft analyzer pro čínštinu (tradiční).

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

Name Typ Description
classic

string

Tokenizátor založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.

edgeNGram

string

Tokenizuje vstup z hrany na n-gramů dané velikosti. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.

keyword_v2

string

Vygeneruje celý vstup jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.

letter

string

Rozdělí text na jiné než písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.

lowercase

string

Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.

microsoft_language_stemming_tokenizer

string

Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní tvary.

microsoft_language_tokenizer

string

Rozdělí text pomocí pravidel specifických pro jazyk.

nGram

string

Tokenizuje vstup na n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.

path_hierarchy_v2

string

Tokenizátor pro hierarchie podobné cestám. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.

pattern

string

Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.

standard_v2

string

Standardní analyzátor Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.

uax_url_email

string

Tokenizuje adresy URL a e-maily jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.

whitespace

string

Rozdělí text na prázdné znaky. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

SearchError

Popisuje chybovou podmínku rozhraní API.

Name Typ Description
code

string

Jeden ze serverem definovaných chybových kódů.

details

SearchError[]

Pole podrobností o konkrétních chybách, které vedly k této nahlášené chybě.

message

string

Lidsky čitelná reprezentace chyby.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

Name Typ Description
apostrophe

string

Odstraní všechny znaky za apostrofem (včetně samotného apostrofu). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.

arabic_normalization

string

Filtr tokenů, který použije arabský normalizátor k normalizaci ortografie. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.

asciifolding

string

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka"), na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

cjk_bigram

string

Vytváří bigramy výrazů CJK, které jsou generovány ze standardního tokenizátoru. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.

cjk_width

string

Normalizuje rozdíly šířky CJK. Přeloží fullwidth varianty ASCII do ekvivalentní základní latinky a varianty Katakana s poloviční šířkou do ekvivalentní kany. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.

classic

string

Odebere anglické přivlastňovací texty a tečky ze zkratek. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.

common_grams

string

Sestavte bigramy pro často se vyskytující termíny při indexování. Jednotlivé termíny se stále indexují, překryvné bigramy. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.

edgeNGram_v2

string

Generuje n-gramů dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.

elision

string

Odebere elisions. Například "l'avion" (letadlo) se převede na "avion" (rovina). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

german_normalization

string

Normalizuje německé znaky podle heuristiky algoritmu sněhové koule German2. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.

hindi_normalization

string

Normalizuje text v hindštině, aby se odstranily některé rozdíly ve variantách pravopisu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.

indic_normalization

string

Normalizuje reprezentaci textu v kódu Unicode v indických jazycích. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.

keyword_repeat

string

Vygeneruje každý příchozí token dvakrát, jednou jako klíčové slovo a jednou jako jiné. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.

kstem

string

Vysoce výkonný filtr kstem pro angličtinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.

length

string

Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.

limit

string

Omezuje počet tokenů při indexování. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.

lowercase

string

Normalizuje text tokenu na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm.

nGram_v2

string

Vygeneruje n-gramů dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.

persian_normalization

string

Použije normalizaci pro perštinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.

phonetic

string

Vytvoření tokenů pro fonetické shody Viz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.

porter_stem

string

Použije algoritmus stemming porteru k transformaci streamu tokenu. Viz http://tartarus.org/~martin/PorterStemmer.

reverse

string

Obrátí řetězec tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

scandinavian_folding

string

Složí znak Skandinávie åÅäæÄÆ-a> a ööøØ-o>. Diskriminuje také použití dvojitých samohlásek aa, ae, ao, oe ao, oe a oo, přičemž ponechá jen první. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.

scandinavian_normalization

string

Normalizuje použití zaměnitelných znaků ve skandinávii. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.

shingle

string

Vytvoří kombinace tokenů jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.

snowball

string

Filtr, který vytváří slova pomocí stopky vygenerované snowballem. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.

sorani_normalization

string

Normalizuje reprezentaci textu Sorani v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.

stemmer

string

Filtr stemmingu pro konkrétní jazyk. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.

stopwords

string

Odebere slova stop z datového proudu tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.

trim

string

Oříznou počáteční a koncové prázdné znaky z tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.

truncate

string

Zkrátí termíny na určitou délku. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.

unique

string

Vyfiltruje tokeny se stejným textem jako předchozí token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.

uppercase

string

Normalizuje text tokenu na velká písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

word_delimiter

string

Rozdělí slova na podsloví a provede volitelné transformace skupin podseloví.