Sdílet prostřednictvím


Indexes - Analyze

Ukazuje, jak analyzátor rozdělí text na tokeny.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-05-01-preview

Parametry identifikátoru URI

Name V Vyžadováno Typ Description
endpoint
path True

string

Adresa URL koncového bodu vyhledávací služby.

indexName
path True

string

Název indexu, pro který se má testovat analyzátor.

api-version
query True

string

Verze rozhraní API klienta.

Hlavička požadavku

Name Vyžadováno Typ Description
x-ms-client-request-id

string (uuid)

ID sledování odeslané s požadavkem, které vám pomůže s laděním.

Text požadavku

Name Vyžadováno Typ Description
text True

string

Text, který se má rozdělit na tokeny.

analyzer

LexicalAnalyzerName

Název analyzátoru, který se má použít k přerušení daného textu.

charFilters

CharFilterName[]

Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu.

normalizer

LexicalNormalizerName

Název normalizátoru, který se má použít k normalizaci daného textu.

tokenFilters

TokenFilterName[]

Volitelný seznam filtrů tokenů, které se mají použít při přerušení daného textu.

tokenizer

LexicalTokenizerName

Název tokenizátoru, který se má použít k přerušení daného textu.

Odpovědi

Name Typ Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Chybová odpověď.

Příklady

SearchServiceIndexAnalyze

Ukázkový požadavek

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-05-01-preview

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Ukázková odpověď

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definice

Name Description
AnalyzedTokenInfo

Informace o tokenu vráceného analyzátorem

AnalyzeRequest

Určuje některé součásti textu a analýzy, které slouží k rozdělení textu na tokeny.

AnalyzeResult

Výsledek testování analyzátoru na textu

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

ErrorAdditionalInfo

Další informace o chybě správy prostředků

ErrorDetail

Podrobnosti o chybě.

ErrorResponse

Chybová odpověď

LexicalAnalyzerName

Definuje názvy všech textových analyzátorů podporovaných vyhledávacím webem.

LexicalNormalizerName

Definuje názvy všech normalizátorů textu podporovaných vyhledávacím webem.

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

AnalyzedTokenInfo

Informace o tokenu vráceného analyzátorem

Name Typ Description
endOffset

integer (int32)

Index posledního znaku tokenu ve vstupním textu.

position

integer (int32)

Pozice tokenu ve vstupním textu vzhledem k jiným tokenům. První token vstupního textu má pozici 0, další má pozici 1 atd. V závislosti na použitém analyzátoru můžou mít některé tokeny stejnou pozici, například pokud se jedná o synonyma sebe navzájem.

startOffset

integer (int32)

Index prvního znaku tokenu ve vstupním textu.

token

string

Token vrácený analyzátorem.

AnalyzeRequest

Určuje některé součásti textu a analýzy, které slouží k rozdělení textu na tokeny.

Name Typ Description
analyzer

LexicalAnalyzerName

Název analyzátoru, který se má použít k přerušení daného textu.

charFilters

CharFilterName[]

Volitelný seznam filtrů znaků, které se mají použít při přerušení daného textu.

normalizer

LexicalNormalizerName

Název normalizátoru, který se má použít k normalizaci daného textu.

text

string

Text, který se má rozdělit na tokeny.

tokenFilters

TokenFilterName[]

Volitelný seznam filtrů tokenů, které se mají použít při přerušení daného textu.

tokenizer

LexicalTokenizerName

Název tokenizátoru, který se má použít k přerušení daného textu.

AnalyzeResult

Výsledek testování analyzátoru na textu

Name Typ Description
tokens

AnalyzedTokenInfo[]

Seznam tokenů vrácených analyzátorem zadaným v požadavku.

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

Hodnota Description
html_strip

Filtr znaků, který se pokusí odstranit konstruktory HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Další informace o chybě správy prostředků

Name Typ Description
info

object

Další informace.

type

string

Další typ informací.

ErrorDetail

Podrobnosti o chybě.

Name Typ Description
additionalInfo

ErrorAdditionalInfo[]

Další informace o chybě.

code

string

Kód chyby.

details

ErrorDetail[]

Podrobnosti o chybě.

message

string

Chybová zpráva.

target

string

Cíl chyby.

ErrorResponse

Chybová odpověď

Name Typ Description
error

ErrorDetail

Objekt chyby.

LexicalAnalyzerName

Definuje názvy všech textových analyzátorů podporovaných vyhledávacím webem.

Hodnota Description
ar.lucene

Analyzátor Lucene pro arabštinu.

ar.microsoft

Microsoft Analyzer pro arabštinu.

bg.lucene

Analyzátor Lucene pro bulharštinu.

bg.microsoft

Microsoft Analyzer pro bulharštinu.

bn.microsoft

Microsoft analyzer for Bangla.

ca.lucene

Analyzátor Lucene pro katalánštinu.

ca.microsoft

Microsoft Analyzer pro katalánštinu.

cs.lucene

Lucene analyzer pro češtinu.

cs.microsoft

Microsoft Analyzer pro češtinu.

da.lucene

Analyzátor Lucene pro dánštinu.

da.microsoft

Microsoft Analyzer pro dánštinu.

de.lucene

Lucene analyzer pro němčinu.

de.microsoft

Microsoft Analyzer pro němčinu.

el.lucene

Lucene analyzer pro řečtinu.

el.microsoft

Microsoft Analyzer pro řečtinu.

en.lucene

Lucene Analyzer pro angličtinu.

en.microsoft

Microsoft Analyzer pro angličtinu.

es.lucene

Lucene analyzer pro španělštinu.

es.microsoft

Microsoft Analyzer pro španělštinu.

et.microsoft

Microsoft analyzer for Estonian.

eu.lucene

Analyzátor Lucene pro baskičtina.

fa.lucene

Lucene analyzátor perský.

fi.lucene

Lucene Analyzer pro finštinu.

fi.microsoft

Microsoft Analyzer pro finštinu.

fr.lucene

Lucene analyzer pro francouzštinu.

fr.microsoft

Microsoft Analyzer pro francouzštinu.

ga.lucene

Lucene analyzer pro irštinu.

gl.lucene

Analyzátor Lucene pro Galicijštinu.

gu.microsoft

Microsoft analyzer for Gujarati.

he.microsoft

Microsoft Analyzer for Hebrejština.

hi.lucene

Lucene analyzer for Hindi.

hi.microsoft

Microsoft Analyzer pro hindštinu.

hr.microsoft

Microsoft Analyzer pro chorvatštinu.

hu.lucene

Analyzátor Lucene pro maďarštinu.

hu.microsoft

Microsoft Analyzer pro maďarštinu.

hy.lucene

Analyzátor Lucene pro Arménii.

id.lucene

Analyzátor Lucene pro indonéštinu.

id.microsoft

Microsoft analyzer for Indonéština (Bahasa).

is.microsoft

Microsoft Analyzer pro Islandštinu.

it.lucene

Analyzátor Lucene pro italštinu.

it.microsoft

Microsoft Analyzer pro italštinu.

ja.lucene

Lucene Analyzer pro japonštinu.

ja.microsoft

Microsoft Analyzer pro japonštinu.

keyword

Považuje celý obsah pole za jediný token. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

Microsoft analyzer for Kannada.

ko.lucene

Lucene Analyzer pro korejštinu.

ko.microsoft

Microsoft Analyzer pro korejštinu.

lt.microsoft

Microsoft Analyzer pro litevštinu.

lv.lucene

Analyzátor Lucene pro lotyštinu.

lv.microsoft

Microsoft Analyzer pro lotyštinu.

ml.microsoft

Microsoft Analyzer pro Malayalam.

mr.microsoft

Microsoft analyzer for Marathi.

ms.microsoft

Microsoft Analyzer for Malay (latinka).

nb.microsoft

Microsoft Analyzer pro norštinu (Bokmål).

nl.lucene

Analyzátor Lucene pro nizozemštinu.

nl.microsoft

Microsoft Analyzer pro nizozemštinu.

no.lucene

Analyzátor Lucene pro norštinu.

pa.microsoft

Microsoft analyzer for Punjabi.

pattern

Pružně odděluje text do termínů pomocí vzoru regulárního výrazu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

Analyzátor Lucene pro polštinu.

pl.microsoft

Microsoft Analyzer pro polštinu.

pt-BR.lucene

Analyzátor Lucene pro portugalštinu (Brazílie).

pt-BR.microsoft

Microsoft Analyzer pro portugalštinu (Brazílie).

pt-PT.lucene

Analyzátor Lucene pro portugalštinu (Portugalsko).

pt-PT.microsoft

Microsoft Analyzer pro portugalštinu (Portugalsko).

ro.lucene

Lucene analyzer pro rumunštinu.

ro.microsoft

Microsoft Analyzer pro rumunštinu.

ru.lucene

Lucene analyzer pro ruštinu.

ru.microsoft

Microsoft Analyzer pro ruštinu.

simple

Rozdělí text bez písmen a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

Microsoft Analyzer pro slovenštinu.

sl.microsoft

Microsoft Analyzer pro slovinštinu.

sr-cyrillic.microsoft

Microsoft Analyzer pro srbštinu (cyrilice).

sr-latin.microsoft

Microsoft Analyzer pro srbštinu (latinka).

standard.lucene

Standardní analyzátor Lucene.

standardasciifolding.lucene

Standardní analyzátor ASCII Folding Lucene. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

Rozdělí text bez písmen; Použije filtry tokenů s malými písmeny a stopword. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

Lucene analyzer pro švédštinu.

sv.microsoft

Microsoft Analyzer pro švédštinu.

ta.microsoft

Microsoft Analyzer pro tamilštinu.

te.microsoft

Microsoft Analyzer pro Telugu.

th.lucene

Analyzátor Lucene pro thajštinu.

th.microsoft

Microsoft Analyzer pro thajštinu.

tr.lucene

Analyzátor Lucene pro turečtinu.

tr.microsoft

Microsoft Analyzer pro turečtinu.

uk.microsoft

Microsoft Analyzer pro ukrajinštinu.

ur.microsoft

Microsoft analyzer for Urdu.

vi.microsoft

Microsoft Analyzer pro vietnamštinu.

whitespace

Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

Analyzátor Lucene pro čínštinu (zjednodušená).

zh-Hans.microsoft

Microsoft Analyzer pro čínštinu (zjednodušená).

zh-Hant.lucene

Analyzátor Lucene pro čínštinu (tradiční).

zh-Hant.microsoft

Microsoft Analyzer pro čínštinu (tradiční).

LexicalNormalizerName

Definuje názvy všech normalizátorů textu podporovaných vyhledávacím webem.

Hodnota Description
asciifolding

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znaky ASCII (blok "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Odebere elisions. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Standardní normalizátor, který se skládá z malých a asciifoldingu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

Hodnota Description
classic

Tokenizátor založený na gramatikě, který je vhodný pro zpracování většiny dokumentů evropského jazyka. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokenizuje vstup z okraje na n-gramy dané velikosti. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Vygeneruje celý vstup jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Rozdělí text bez písmen. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Rozdělí text bez písmen a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní formuláře.

microsoft_language_tokenizer

Rozdělí text pomocí pravidel specifických pro jazyk.

nGram

Tokenizuje vstup na n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizátor pro hierarchie podobné cestě. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Standardní analyzátor Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokenizuje adresy URL a e-maily jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Rozdělí text na prázdné znaky. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

Hodnota Description
apostrophe

Odstraní všechny znaky za apostrofem (včetně samotného apostrofu). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

Filtr tokenů, který použije arabský normalizátor k normalizaci orthografie. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znaky ASCII (blok "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Tvoří bigramy výrazů CJK, které se generují ze standardního tokenizátoru. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normalizuje rozdíly šířky CJK. Přeloží varianty ASCII na ekvivalentní základní latinku a varianty Katakana s poloviční šířkou do ekvivalentní Kana. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Odebere anglické přivlastnické a tečky ze zkratek. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Při indexování vytvořte bigramy pro často se vyskytující termíny. Jednotlivé termíny jsou stále indexované, s překryvnými bigramy. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Odebere elisions. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normalizuje německé znaky podle heuristiky německého snowball algoritmu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normalizuje text v hindštině a odebere některé rozdíly v pravopisných variantách. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normalizuje reprezentaci textu v indickém jazyce unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Vygeneruje každý příchozí token dvakrát, jednou jako klíčové slovo a jednou jako jiné než klíčové slovo. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Vysoce výkonný filtr kstem pro angličtinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Omezuje počet tokenů při indexování. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Vygeneruje n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Použije normalizaci pro Perštinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Vytváření tokenů pro fonetické shody Viz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Používá algoritmus vytváření tokenů porteru k transformaci datového proudu tokenu. Viz http://tartarus.org/~martin/PorterStemmer

reverse

Vrátí řetězec tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

Složené severské znaky åÅäæÄÆ->a a öÖøØ->o. Také diskriminuje použití dvojitých samohlásek aa, ae, ao, oe a oo, ponechání jen první. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

Normalizuje použití zaměnitelných severských znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

Vytvoří kombinace tokenů jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Filtr, který vychází ze slov pomocí vygenerovaného smyšlí snowballu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normalizuje reprezentaci textu Sorani v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Filtr pro konkrétní jazyk. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Odebere slova ze streamu tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Oříznou počáteční a koncové prázdné znaky z tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Zkracuje termíny na určitou délku. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Vyfiltruje tokeny se stejným textem jako předchozí token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Rozdělí slova do dílčích slov a provede volitelné transformace skupin podwordů.