Dela via


Indexes - Analyze

Visar hur ett analysverktyg delar upp text i token.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

URI-parametrar

Name I Obligatorisk Typ Description
endpoint
path True

string

Slutpunkts-URL:en för söktjänsten.

indexName
path True

string

Namnet på indexet som du vill testa ett analysverktyg för.

api-version
query True

string

Klient-API-version.

Begärandehuvud

Name Obligatorisk Typ Description
x-ms-client-request-id

string

uuid

Spårnings-ID:t som skickas med begäran för att hjälpa till med felsökning.

Begärandetext

Name Obligatorisk Typ Description
text True

string

Texten som ska delas in i token.

analyzer

LexicalAnalyzerName

Namnet på analysatorn som ska användas för att bryta den angivna texten. Om den här parametern inte anges måste du ange en tokenizer i stället. Parametrarna tokenizer och analyzer utesluter varandra.

charFilters

CharFilterName[]

En valfri lista över teckenfilter som ska användas när den angivna texten bryts. Den här parametern kan bara anges när du använder parametern tokenizer.

tokenFilters

TokenFilterName[]

En valfri lista över tokenfilter som ska användas när den angivna texten bryts. Den här parametern kan bara anges när du använder parametern tokenizer.

tokenizer

LexicalTokenizerName

Namnet på tokenizern som ska användas för att bryta den angivna texten. Om den här parametern inte anges måste du ange ett analysverktyg i stället. Parametrarna tokenizer och analyzer utesluter varandra.

Svar

Name Typ Description
200 OK

AnalyzeResult

Other Status Codes

SearchError

Felsvar.

Exempel

SearchServiceIndexAnalyze

Sample Request

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Sample Response

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definitioner

Name Description
AnalyzedTokenInfo

Information om en token som returneras av en analysator.

AnalyzeRequest

Anger vissa text- och analyskomponenter som används för att dela upp texten i token.

AnalyzeResult

Resultatet av att testa ett analysverktyg för text.

CharFilterName

Definierar namnen på alla teckenfilter som stöds av sökmotorn.

LexicalAnalyzerName

Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.

LexicalTokenizerName

Definierar namnen på alla tokenizers som stöds av sökmotorn.

SearchError

Beskriver ett feltillstånd för API:et.

TokenFilterName

Definierar namnen på alla tokenfilter som stöds av sökmotorn.

AnalyzedTokenInfo

Information om en token som returneras av en analysator.

Name Typ Description
endOffset

integer

Indexet för tokens sista tecken i indatatexten.

position

integer

Tokens position i indatatexten i förhållande till andra token. Den första token i indatatexten har position 0, nästa har position 1 och så vidare. Beroende på vilket analysverktyg som används kan vissa token ha samma position, till exempel om de är synonymer till varandra.

startOffset

integer

Indexet för tokens första tecken i indatatexten.

token

string

Token som returneras av analysatorn.

AnalyzeRequest

Anger vissa text- och analyskomponenter som används för att dela upp texten i token.

Name Typ Description
analyzer

LexicalAnalyzerName

Namnet på analysatorn som ska användas för att bryta den angivna texten. Om den här parametern inte har angetts måste du ange en tokenizer i stället. Parametrarna tokenizer och analyzer är ömsesidigt uteslutande.

charFilters

CharFilterName[]

En valfri lista över teckenfilter som ska användas när den angivna texten bryts. Den här parametern kan bara anges när du använder tokenizer-parametern.

text

string

Texten som ska delas in i token.

tokenFilters

TokenFilterName[]

En valfri lista över tokenfilter som ska användas när den angivna texten bryts. Den här parametern kan bara anges när du använder tokenizer-parametern.

tokenizer

LexicalTokenizerName

Namnet på tokeniseraren som ska användas för att bryta den angivna texten. Om den här parametern inte har angetts måste du ange ett analysverktyg i stället. Parametrarna tokenizer och analyzer är ömsesidigt uteslutande.

AnalyzeResult

Resultatet av att testa ett analysverktyg för text.

Name Typ Description
tokens

AnalyzedTokenInfo[]

Listan över token som returneras av analysatorn som anges i begäran.

CharFilterName

Definierar namnen på alla teckenfilter som stöds av sökmotorn.

Name Typ Description
html_strip

string

Ett teckenfilter som försöker ta bort HTML-konstruktioner. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

LexicalAnalyzerName

Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.

Name Typ Description
ar.lucene

string

Lucene analyzer för arabiska.

ar.microsoft

string

Microsoft Analyzer för arabiska.

bg.lucene

string

Lucene analyzer för bulgariska.

bg.microsoft

string

Microsoft Analyzer för bulgariska.

bn.microsoft

string

Microsoft Analyzer för Bangla.

ca.lucene

string

Lucene analyzer för katalanska.

ca.microsoft

string

Microsoft Analyzer för Katalanska.

cs.lucene

string

Lucene analyzer för tjeckiska.

cs.microsoft

string

Microsoft Analyzer för tjeckiska.

da.lucene

string

Lucene analyzer för danska.

da.microsoft

string

Microsoft analyzer för danska.

de.lucene

string

Lucene analyzer för tyska.

de.microsoft

string

Microsoft Analyzer för tyska.

el.lucene

string

Lucene analyzer för grekiska.

el.microsoft

string

Microsoft Analyzer för grekiska.

en.lucene

string

Lucene analyzer för engelska.

en.microsoft

string

Microsoft Analyzer för engelska.

es.lucene

string

Lucene analyzer för spanska.

es.microsoft

string

Microsoft Analyzer för spanska.

et.microsoft

string

Microsoft Analyzer för estniska.

eu.lucene

string

Lucene analyzer för baskiska.

fa.lucene

string

Lucene analyzer för persiska.

fi.lucene

string

Lucene analyzer för finska.

fi.microsoft

string

Microsoft Analyzer för finska.

fr.lucene

string

Lucene analyzer för franska.

fr.microsoft

string

Microsoft Analyzer för franska.

ga.lucene

string

Lucene analyzer för iriska.

gl.lucene

string

Lucene analyzer för Galician.

gu.microsoft

string

Microsoft Analyzer för Gujarati.

he.microsoft

string

Microsoft Analyzer för hebreiska.

hi.lucene

string

Lucene analyzer för Hindi.

hi.microsoft

string

Microsoft Analyzer för Hindi.

hr.microsoft

string

Microsoft Analyzer för kroatiska.

hu.lucene

string

Lucene analyzer för ungerska.

hu.microsoft

string

Microsoft Analyzer för ungerska.

hy.lucene

string

Lucene analyzer för armeniska.

id.lucene

string

Lucene analyzer för indonesiska.

id.microsoft

string

Microsoft Analyzer för indonesiska (Bahasa).

is.microsoft

string

Microsoft Analyzer för Isländska.

it.lucene

string

Lucene analyzer för italienska.

it.microsoft

string

Microsoft Analyzer för italienska.

ja.lucene

string

Lucene analyzer för japanska.

ja.microsoft

string

Microsoft Analyzer för japanska.

keyword

string

Behandlar hela innehållet i ett fält som en enda token. Detta är användbart för data som postnummer, ID:t och vissa produktnamn. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Microsoft Analyzer för Kannada.

ko.lucene

string

Lucene analyzer för koreanska.

ko.microsoft

string

Microsoft Analyzer för koreanska.

lt.microsoft

string

Microsoft Analyzer för litauiska.

lv.lucene

string

Lucene analyzer för lettiska.

lv.microsoft

string

Microsoft Analyzer för lettiska.

ml.microsoft

string

Microsoft Analyzer för Malayalam.

mr.microsoft

string

Microsoft Analyzer för Marathi.

ms.microsoft

string

Microsoft analyzer for Malay (Latin).

nb.microsoft

string

Microsoft analyzer för norska (Bokmål).

nl.lucene

string

Lucene analyzer för nederländska.

nl.microsoft

string

Microsoft Analyzer för Nederländska.

no.lucene

string

Lucene analyzer för norska.

pa.microsoft

string

Microsoft Analyzer för Punjabi.

pattern

string

Separerar text flexibelt i termer via ett mönster för reguljära uttryck. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Lucene analyzer för polska.

pl.microsoft

string

Microsoft Analyzer för polska.

pt-BR.lucene

string

Lucene analyzer för portugisiska (Brasilien).

pt-BR.microsoft

string

Microsoft Analyzer för portugisiska (Brasilien).

pt-PT.lucene

string

Lucene analyzer för portugisiska (Portugal).

pt-PT.microsoft

string

Microsoft Analyzer för portugisiska (Portugal).

ro.lucene

string

Lucene analyzer för rumänska.

ro.microsoft

string

Microsoft Analyzer för rumänska.

ru.lucene

string

Lucene analyzer för ryska.

ru.microsoft

string

Microsoft Analyzer för ryska.

simple

string

Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Microsoft Analyzer för slovakiska.

sl.microsoft

string

Microsoft Analyzer för slovenska.

sr-cyrillic.microsoft

string

Microsoft analyzer för serbiska (kyrillisk).

sr-latin.microsoft

string

Microsoft analyzer för serbiska (latinsk).

standard.lucene

string

Standard Lucene Analyzer.

standardasciifolding.lucene

string

Standard ASCII Folding Lucene analyzer. Se https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Delar upp text med icke-bokstäver; Använder tokenfiltren med gemener och stoppord. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Lucene analyzer för svenska.

sv.microsoft

string

Microsoft Analyzer för svenska.

ta.microsoft

string

Microsoft Analyzer för Tamil.

te.microsoft

string

Microsoft Analyzer för Telugu.

th.lucene

string

Lucene analyzer för Thai.

th.microsoft

string

Microsoft Analyzer för Thai.

tr.lucene

string

Lucene analyzer för turkiska.

tr.microsoft

string

Microsoft Analyzer för turkiska.

uk.microsoft

string

Microsoft Analyzer för ukrainska.

ur.microsoft

string

Microsoft Analyzer för Urdu.

vi.microsoft

string

Microsoft Analyzer för vietnamesiska.

whitespace

string

En analysator som använder blankstegstokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Lucene analyzer för kinesiska (förenklad).

zh-Hans.microsoft

string

Microsoft Analyzer för kinesiska (förenklad).

zh-Hant.lucene

string

Lucene analyzer för kinesiska (traditionell).

zh-Hant.microsoft

string

Microsoft Analyzer för kinesiska (traditionell).

LexicalTokenizerName

Definierar namnen på alla tokenizers som stöds av sökmotorn.

Name Typ Description
classic

string

Grammatikbaserad tokeniserare som lämpar sig för bearbetning av de flesta europeiska dokument. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokeniserar indata från en kant till n-gram av de angivna storlekarna. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Genererar hela indata som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Delar upp text med icke-bokstäver. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Delar upp text med hjälp av språkspecifika regler och minskar ord till sina basformulär.

microsoft_language_tokenizer

string

Delar upp text med språkspecifika regler.

nGram

string

Tokeniserar indata till n-gram av de angivna storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer för sökvägsliknande hierarkier. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer som använder regexmönstermatchning för att konstruera distinkta token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Standard Lucene analyzer; Består av standardtokeniseraren, gemener och stoppfilter. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokeniserar URL:ar och e-postmeddelanden som en token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Delar upp text i tomt utrymme. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

SearchError

Beskriver ett feltillstånd för API:et.

Name Typ Description
code

string

En av en serverdefinierad uppsättning felkoder.

details

SearchError[]

En matris med information om specifika fel som ledde till det rapporterade felet.

message

string

En läsbar återgivning av felet.

TokenFilterName

Definierar namnen på alla tokenfilter som stöds av sökmotorn.

Name Typ Description
apostrophe

string

Tar bort alla tecken efter en apostrofer (inklusive själva apostrofen). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Ett tokenfilter som tillämpar den arabiska normaliseraren för att normalisera ortografin. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns i de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin" ) till deras ASCII-motsvarigheter, om sådana motsvarigheter finns. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Bildar bigrams av CJK-termer som genereras från standardtokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normaliserar skillnader i CJK-bredd. Viker ascii-varianterna för fullwidth till motsvarande grundläggande latinska och katakanavarianter med halv bredd i motsvarande Kana. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Tar bort engelska possessives och punkter från förkortningar. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Skapa bigrams för ofta förekommande termer vid indexering. Enkla termer indexeras fortfarande också, med bigrams överlagrade. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Genererar n-gram av de angivna storlekarna med början framifrån eller baksidan av en indatatoken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Tar bort elisions. Till exempel konverteras "l'avion" (planet) till "avion" (plan). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normaliserar tyska tecken enligt heuristiken i german2 snowball-algoritmen. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normaliserar text på hindi för att ta bort vissa skillnader i stavningsvariationer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normaliserar Unicode-representationen av text på indiska språk. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Genererar varje inkommande token två gånger, en gång som nyckelord och en gång som icke-nyckelord. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Ett högpresterande kstem-filter för engelska. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Tar bort ord som är för långa eller för korta. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Begränsar antalet token vid indexering. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normaliserar tokentext till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm

nGram_v2

string

Genererar n-gram av de angivna storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Tillämpar normalisering för persiska. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Skapa token för fonetiska matchningar. Se https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Använder Porter-algoritmen för att transformera tokenströmmen. Se http://tartarus.org/~martin/PorterStemmer

reverse

string

Vänder tokensträngen. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Viker skandinaviska karaktärer åÅäæÄÆ-a> och öÖøØ-o>. Det diskriminerar också användningen av dubbla vokaler aa, ae, ao, oe och oo, vilket bara lämnar den första. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normaliserar användningen av de utbytbara skandinaviska tecknen. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Skapar kombinationer av token som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Ett filter som stjälkar ord med hjälp av en Snowball-genererad stemmer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normaliserar Unicode-representationen av Sorani-text. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Språkspecifikt härdningsfilter. Se https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Tar bort stoppord från en tokenström. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Trimmar inledande och avslutande blanksteg från token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Trunkerar termerna till en viss längd. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtrerar bort token med samma text som föregående token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normaliserar tokentext till versaler. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Delar upp ord i underord och utför valfria transformeringar i underordsgrupper.