Sdílet prostřednictvím


Indexes - Analyze

Ukazuje, jak analyzátor rozdělí text na tokeny.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Parametry identifikátoru URI

Name V Vyžadováno Typ Description
endpoint
path True

string

Adresa URL koncového bodu vyhledávací služby.

indexName
path True

string

Název indexu, pro který se má testovat analyzátor.

api-version
query True

string

Verze rozhraní API klienta.

Hlavička požadavku

Name Vyžadováno Typ Description
x-ms-client-request-id

string

uuid

ID sledování odeslané s požadavkem, které vám pomůže s laděním.

Text požadavku

Name Vyžadováno Typ Description
text True

string

Text, který se má rozdělit na tokeny.

analyzer

LexicalAnalyzerName

Název analyzátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadaný, musíte místo toho zadat tokenizátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.

charFilters

CharFilterName[]

Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizátoru.

tokenFilters

TokenFilterName[]

Volitelný seznam filtrů tokenů, které se mají použít při přerušení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizátoru.

tokenizer

LexicalTokenizerName

Název tokenizátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadaný, musíte místo toho zadat analyzátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.

Odpovědi

Name Typ Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Chybová odpověď.

Příklady

SearchServiceIndexAnalyze

Ukázkový požadavek

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Ukázková odpověď

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definice

Name Description
AnalyzedTokenInfo

Informace o tokenu vráceného analyzátorem

AnalyzeRequest

Určuje některé součásti textu a analýzy, které slouží k rozdělení textu na tokeny.

AnalyzeResult

Výsledek testování analyzátoru na textu

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

ErrorAdditionalInfo

Další informace o chybě správy prostředků

ErrorDetail

Podrobnosti o chybě.

ErrorResponse

Chybová odpověď

LexicalAnalyzerName

Definuje názvy všech textových analyzátorů podporovaných vyhledávacím webem.

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

AnalyzedTokenInfo

Informace o tokenu vráceného analyzátorem

Name Typ Description
endOffset

integer

Index posledního znaku tokenu ve vstupním textu.

position

integer

Pozice tokenu ve vstupním textu vzhledem k jiným tokenům. První token vstupního textu má pozici 0, další má pozici 1 atd. V závislosti na použitém analyzátoru můžou mít některé tokeny stejnou pozici, například pokud se jedná o synonyma sebe navzájem.

startOffset

integer

Index prvního znaku tokenu ve vstupním textu.

token

string

Token vrácený analyzátorem.

AnalyzeRequest

Určuje některé součásti textu a analýzy, které slouží k rozdělení textu na tokeny.

Name Typ Description
analyzer

LexicalAnalyzerName

Název analyzátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadaný, musíte místo toho zadat tokenizátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.

charFilters

CharFilterName[]

Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizátoru.

text

string

Text, který se má rozdělit na tokeny.

tokenFilters

TokenFilterName[]

Volitelný seznam filtrů tokenů, které se mají použít při přerušení daného textu. Tento parametr lze nastavit pouze při použití parametru tokenizátoru.

tokenizer

LexicalTokenizerName

Název tokenizátoru, který se má použít k přerušení daného textu. Pokud tento parametr není zadaný, musíte místo toho zadat analyzátor. Parametry tokenizátoru a analyzátoru se vzájemně vylučují.

AnalyzeResult

Výsledek testování analyzátoru na textu

Name Typ Description
tokens

AnalyzedTokenInfo[]

Seznam tokenů vrácených analyzátorem zadaným v požadavku.

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

Name Typ Description
html_strip

string

Filtr znaků, který se pokusí odstranit konstruktory HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Další informace o chybě správy prostředků

Name Typ Description
info

object

Další informace.

type

string

Další typ informací.

ErrorDetail

Podrobnosti o chybě.

Name Typ Description
additionalInfo

ErrorAdditionalInfo[]

Další informace o chybě.

code

string

Kód chyby.

details

ErrorDetail[]

Podrobnosti o chybě.

message

string

Chybová zpráva.

target

string

Cíl chyby.

ErrorResponse

Chybová odpověď

Name Typ Description
error

ErrorDetail

Objekt chyby.

LexicalAnalyzerName

Definuje názvy všech textových analyzátorů podporovaných vyhledávacím webem.

Name Typ Description
ar.lucene

string

Analyzátor Lucene pro arabštinu.

ar.microsoft

string

Microsoft Analyzer pro arabštinu.

bg.lucene

string

Analyzátor Lucene pro bulharštinu.

bg.microsoft

string

Microsoft Analyzer pro bulharštinu.

bn.microsoft

string

Microsoft analyzer for Bangla.

ca.lucene

string

Analyzátor Lucene pro katalánštinu.

ca.microsoft

string

Microsoft Analyzer pro katalánštinu.

cs.lucene

string

Lucene analyzer pro češtinu.

cs.microsoft

string

Microsoft Analyzer pro češtinu.

da.lucene

string

Analyzátor Lucene pro dánštinu.

da.microsoft

string

Microsoft Analyzer pro dánštinu.

de.lucene

string

Lucene analyzer pro němčinu.

de.microsoft

string

Microsoft Analyzer pro němčinu.

el.lucene

string

Lucene analyzer pro řečtinu.

el.microsoft

string

Microsoft Analyzer pro řečtinu.

en.lucene

string

Lucene Analyzer pro angličtinu.

en.microsoft

string

Microsoft Analyzer pro angličtinu.

es.lucene

string

Lucene analyzer pro španělštinu.

es.microsoft

string

Microsoft Analyzer pro španělštinu.

et.microsoft

string

Microsoft analyzer for Estonian.

eu.lucene

string

Analyzátor Lucene pro baskičtina.

fa.lucene

string

Lucene analyzátor perský.

fi.lucene

string

Lucene Analyzer pro finštinu.

fi.microsoft

string

Microsoft Analyzer pro finštinu.

fr.lucene

string

Lucene analyzer pro francouzštinu.

fr.microsoft

string

Microsoft Analyzer pro francouzštinu.

ga.lucene

string

Lucene analyzer pro irštinu.

gl.lucene

string

Analyzátor Lucene pro Galicijštinu.

gu.microsoft

string

Microsoft analyzer for Gujarati.

he.microsoft

string

Microsoft Analyzer for Hebrejština.

hi.lucene

string

Lucene analyzer for Hindi.

hi.microsoft

string

Microsoft Analyzer pro hindštinu.

hr.microsoft

string

Microsoft Analyzer pro chorvatštinu.

hu.lucene

string

Analyzátor Lucene pro maďarštinu.

hu.microsoft

string

Microsoft Analyzer pro maďarštinu.

hy.lucene

string

Analyzátor Lucene pro Arménii.

id.lucene

string

Analyzátor Lucene pro indonéštinu.

id.microsoft

string

Microsoft analyzer for Indonéština (Bahasa).

is.microsoft

string

Microsoft Analyzer pro Islandštinu.

it.lucene

string

Analyzátor Lucene pro italštinu.

it.microsoft

string

Microsoft Analyzer pro italštinu.

ja.lucene

string

Lucene Analyzer pro japonštinu.

ja.microsoft

string

Microsoft Analyzer pro japonštinu.

keyword

string

Považuje celý obsah pole za jediný token. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Microsoft analyzer for Kannada.

ko.lucene

string

Lucene Analyzer pro korejštinu.

ko.microsoft

string

Microsoft Analyzer pro korejštinu.

lt.microsoft

string

Microsoft Analyzer pro litevštinu.

lv.lucene

string

Analyzátor Lucene pro lotyštinu.

lv.microsoft

string

Microsoft Analyzer pro lotyštinu.

ml.microsoft

string

Microsoft Analyzer pro Malayalam.

mr.microsoft

string

Microsoft analyzer for Marathi.

ms.microsoft

string

Microsoft Analyzer for Malay (latinka).

nb.microsoft

string

Microsoft Analyzer pro norštinu (Bokmål).

nl.lucene

string

Analyzátor Lucene pro nizozemštinu.

nl.microsoft

string

Microsoft Analyzer pro nizozemštinu.

no.lucene

string

Analyzátor Lucene pro norštinu.

pa.microsoft

string

Microsoft analyzer for Punjabi.

pattern

string

Pružně odděluje text do termínů pomocí vzoru regulárního výrazu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analyzátor Lucene pro polštinu.

pl.microsoft

string

Microsoft Analyzer pro polštinu.

pt-BR.lucene

string

Analyzátor Lucene pro portugalštinu (Brazílie).

pt-BR.microsoft

string

Microsoft Analyzer pro portugalštinu (Brazílie).

pt-PT.lucene

string

Analyzátor Lucene pro portugalštinu (Portugalsko).

pt-PT.microsoft

string

Microsoft Analyzer pro portugalštinu (Portugalsko).

ro.lucene

string

Lucene analyzer pro rumunštinu.

ro.microsoft

string

Microsoft Analyzer pro rumunštinu.

ru.lucene

string

Lucene analyzer pro ruštinu.

ru.microsoft

string

Microsoft Analyzer pro ruštinu.

simple

string

Rozdělí text bez písmen a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Microsoft Analyzer pro slovenštinu.

sl.microsoft

string

Microsoft Analyzer pro slovinštinu.

sr-cyrillic.microsoft

string

Microsoft Analyzer pro srbštinu (cyrilice).

sr-latin.microsoft

string

Microsoft Analyzer pro srbštinu (latinka).

standard.lucene

string

Standardní analyzátor Lucene.

standardasciifolding.lucene

string

Standardní analyzátor ASCII Folding Lucene. Viz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Rozdělí text bez písmen; Použije filtry tokenů s malými písmeny a stopword. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Lucene analyzer pro švédštinu.

sv.microsoft

string

Microsoft Analyzer pro švédštinu.

ta.microsoft

string

Microsoft Analyzer pro tamilštinu.

te.microsoft

string

Microsoft Analyzer pro Telugu.

th.lucene

string

Analyzátor Lucene pro thajštinu.

th.microsoft

string

Microsoft Analyzer pro thajštinu.

tr.lucene

string

Analyzátor Lucene pro turečtinu.

tr.microsoft

string

Microsoft Analyzer pro turečtinu.

uk.microsoft

string

Microsoft Analyzer pro ukrajinštinu.

ur.microsoft

string

Microsoft analyzer for Urdu.

vi.microsoft

string

Microsoft Analyzer pro vietnamštinu.

whitespace

string

Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analyzátor Lucene pro čínštinu (zjednodušená).

zh-Hans.microsoft

string

Microsoft Analyzer pro čínštinu (zjednodušená).

zh-Hant.lucene

string

Analyzátor Lucene pro čínštinu (tradiční).

zh-Hant.microsoft

string

Microsoft Analyzer pro čínštinu (tradiční).

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

Name Typ Description
classic

string

Tokenizátor založený na gramatikě, který je vhodný pro zpracování většiny dokumentů evropského jazyka. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokenizuje vstup z okraje na n-gramy dané velikosti. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Vygeneruje celý vstup jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Rozdělí text bez písmen. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Rozdělí text bez písmen a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní formuláře.

microsoft_language_tokenizer

string

Rozdělí text pomocí pravidel specifických pro jazyk.

nGram

string

Tokenizuje vstup na n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizátor pro hierarchie podobné cestě. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Standardní analyzátor Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokenizuje adresy URL a e-maily jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Rozdělí text na prázdné znaky. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

Name Typ Description
apostrophe

string

Odstraní všechny znaky za apostrofem (včetně samotného apostrofu). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Filtr tokenů, který použije arabský normalizátor k normalizaci orthografie. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znaky ASCII (blok "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Tvoří bigramy výrazů CJK, které se generují ze standardního tokenizátoru. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normalizuje rozdíly šířky CJK. Přeloží varianty ASCII na ekvivalentní základní latinku a varianty Katakana s poloviční šířkou do ekvivalentní Kana. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Odebere anglické přivlastnické a tečky ze zkratek. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Při indexování vytvořte bigramy pro často se vyskytující termíny. Jednotlivé termíny jsou stále indexované, s překryvnými bigramy. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Odebere elisions. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normalizuje německé znaky podle heuristiky německého snowball algoritmu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normalizuje text v hindštině a odebere některé rozdíly v pravopisných variantách. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normalizuje reprezentaci textu v indickém jazyce unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Vygeneruje každý příchozí token dvakrát, jednou jako klíčové slovo a jednou jako jiné než klíčové slovo. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Vysoce výkonný filtr kstem pro angličtinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Omezuje počet tokenů při indexování. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Vygeneruje n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Použije normalizaci pro Perštinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Vytváření tokenů pro fonetické shody Viz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Používá algoritmus vytváření tokenů porteru k transformaci datového proudu tokenu. Viz http://tartarus.org/~martin/PorterStemmer

reverse

string

Vrátí řetězec tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Složené severské znaky åÅäæÄÆ->a a öÖøØ->o. Také diskriminuje použití dvojitých samohlásek aa, ae, ao, oe a oo, ponechání jen první. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normalizuje použití zaměnitelných severských znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Vytvoří kombinace tokenů jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Filtr, který vychází ze slov pomocí vygenerovaného smyšlí snowballu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normalizuje reprezentaci textu Sorani v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtr pro konkrétní jazyk. Viz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Odebere slova ze streamu tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Oříznou počáteční a koncové prázdné znaky z tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Zkracuje termíny na určitou délku. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Vyfiltruje tokeny se stejným textem jako předchozí token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Rozdělí slova do dílčích slov a provede volitelné transformace skupin podwordů.