Indexes - Analyze

Referens

Service:: Search Service

API Version:: 2023-11-01

Visar hur ett analysverktyg delar upp text i token.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

URI-parametrar

Name	I	Obligatorisk	Typ	Description
endpoint	path	True	string	Slutpunkts-URL:en för söktjänsten.
indexName	path	True	string	Namnet på indexet som du vill testa ett analysverktyg för.
api-version	query	True	string	Klient-API-version.

Begärandehuvud

Name	Obligatorisk	Typ	Description
x-ms-client-request-id		string uuid	Spårnings-ID:t som skickas med begäran för att hjälpa till med felsökning.

Begärandetext

Name	Obligatorisk	Typ	Description
text	True	string	Texten som ska delas in i token.
analyzer		LexicalAnalyzerName	Namnet på analysatorn som ska användas för att bryta den angivna texten. Om den här parametern inte anges måste du ange en tokenizer i stället. Parametrarna tokenizer och analyzer utesluter varandra.
charFilters		CharFilterName[]	En valfri lista över teckenfilter som ska användas när den angivna texten bryts. Den här parametern kan bara anges när du använder parametern tokenizer.
tokenFilters		TokenFilterName[]	En valfri lista över tokenfilter som ska användas när den angivna texten bryts. Den här parametern kan bara anges när du använder parametern tokenizer.
tokenizer		LexicalTokenizerName	Namnet på tokenizern som ska användas för att bryta den angivna texten. Om den här parametern inte anges måste du ange ett analysverktyg i stället. Parametrarna tokenizer och analyzer utesluter varandra.

Svar

Name	Typ	Description
200 OK	AnalyzeResult
Other Status Codes	SearchError	Felsvar.

Exempel

SearchServiceIndexAnalyze

Sample Request

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Sample Response

Status code:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definitioner

Name	Description
AnalyzedTokenInfo	Information om en token som returneras av en analysator.
AnalyzeRequest	Anger vissa text- och analyskomponenter som används för att dela upp texten i token.
AnalyzeResult	Resultatet av att testa ett analysverktyg för text.
CharFilterName	Definierar namnen på alla teckenfilter som stöds av sökmotorn.
LexicalAnalyzerName	Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.
LexicalTokenizerName	Definierar namnen på alla tokenizers som stöds av sökmotorn.
SearchError	Beskriver ett feltillstånd för API:et.
TokenFilterName	Definierar namnen på alla tokenfilter som stöds av sökmotorn.

AnalyzedTokenInfo

Information om en token som returneras av en analysator.

Name	Typ	Description
endOffset	integer	Indexet för tokens sista tecken i indatatexten.
position	integer	Tokens position i indatatexten i förhållande till andra token. Den första token i indatatexten har position 0, nästa har position 1 och så vidare. Beroende på vilket analysverktyg som används kan vissa token ha samma position, till exempel om de är synonymer till varandra.
startOffset	integer	Indexet för tokens första tecken i indatatexten.
token	string	Token som returneras av analysatorn.

AnalyzeRequest

Anger vissa text- och analyskomponenter som används för att dela upp texten i token.

Name	Typ	Description
analyzer	LexicalAnalyzerName	Namnet på analysatorn som ska användas för att bryta den angivna texten. Om den här parametern inte har angetts måste du ange en tokenizer i stället. Parametrarna tokenizer och analyzer är ömsesidigt uteslutande.
charFilters	CharFilterName[]	En valfri lista över teckenfilter som ska användas när den angivna texten bryts. Den här parametern kan bara anges när du använder tokenizer-parametern.
text	string	Texten som ska delas in i token.
tokenFilters	TokenFilterName[]	En valfri lista över tokenfilter som ska användas när den angivna texten bryts. Den här parametern kan bara anges när du använder tokenizer-parametern.
tokenizer	LexicalTokenizerName	Namnet på tokeniseraren som ska användas för att bryta den angivna texten. Om den här parametern inte har angetts måste du ange ett analysverktyg i stället. Parametrarna tokenizer och analyzer är ömsesidigt uteslutande.

AnalyzeResult

Resultatet av att testa ett analysverktyg för text.

Name	Typ	Description
tokens	AnalyzedTokenInfo[]	Listan över token som returneras av analysatorn som anges i begäran.

CharFilterName

Definierar namnen på alla teckenfilter som stöds av sökmotorn.

Name	Typ	Description
html_strip	string	Ett teckenfilter som försöker ta bort HTML-konstruktioner. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

LexicalAnalyzerName

Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.

Name	Typ	Description
ar.lucene	string	Lucene analyzer för arabiska.
ar.microsoft	string	Microsoft Analyzer för arabiska.
bg.lucene	string	Lucene analyzer för bulgariska.
bg.microsoft	string	Microsoft Analyzer för bulgariska.
bn.microsoft	string	Microsoft Analyzer för Bangla.
ca.lucene	string	Lucene analyzer för katalanska.
ca.microsoft	string	Microsoft Analyzer för Katalanska.
cs.lucene	string	Lucene analyzer för tjeckiska.
cs.microsoft	string	Microsoft Analyzer för tjeckiska.
da.lucene	string	Lucene analyzer för danska.
da.microsoft	string	Microsoft analyzer för danska.
de.lucene	string	Lucene analyzer för tyska.
de.microsoft	string	Microsoft Analyzer för tyska.
el.lucene	string	Lucene analyzer för grekiska.
el.microsoft	string	Microsoft Analyzer för grekiska.
en.lucene	string	Lucene analyzer för engelska.
en.microsoft	string	Microsoft Analyzer för engelska.
es.lucene	string	Lucene analyzer för spanska.
es.microsoft	string	Microsoft Analyzer för spanska.
et.microsoft	string	Microsoft Analyzer för estniska.
eu.lucene	string	Lucene analyzer för baskiska.
fa.lucene	string	Lucene analyzer för persiska.
fi.lucene	string	Lucene analyzer för finska.
fi.microsoft	string	Microsoft Analyzer för finska.
fr.lucene	string	Lucene analyzer för franska.
fr.microsoft	string	Microsoft Analyzer för franska.
ga.lucene	string	Lucene analyzer för iriska.
gl.lucene	string	Lucene analyzer för Galician.
gu.microsoft	string	Microsoft Analyzer för Gujarati.
he.microsoft	string	Microsoft Analyzer för hebreiska.
hi.lucene	string	Lucene analyzer för Hindi.
hi.microsoft	string	Microsoft Analyzer för Hindi.
hr.microsoft	string	Microsoft Analyzer för kroatiska.
hu.lucene	string	Lucene analyzer för ungerska.
hu.microsoft	string	Microsoft Analyzer för ungerska.
hy.lucene	string	Lucene analyzer för armeniska.
id.lucene	string	Lucene analyzer för indonesiska.
id.microsoft	string	Microsoft Analyzer för indonesiska (Bahasa).
is.microsoft	string	Microsoft Analyzer för Isländska.
it.lucene	string	Lucene analyzer för italienska.
it.microsoft	string	Microsoft Analyzer för italienska.
ja.lucene	string	Lucene analyzer för japanska.
ja.microsoft	string	Microsoft Analyzer för japanska.
keyword	string	Behandlar hela innehållet i ett fält som en enda token. Detta är användbart för data som postnummer, ID:t och vissa produktnamn. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	string	Microsoft Analyzer för Kannada.
ko.lucene	string	Lucene analyzer för koreanska.
ko.microsoft	string	Microsoft Analyzer för koreanska.
lt.microsoft	string	Microsoft Analyzer för litauiska.
lv.lucene	string	Lucene analyzer för lettiska.
lv.microsoft	string	Microsoft Analyzer för lettiska.
ml.microsoft	string	Microsoft Analyzer för Malayalam.
mr.microsoft	string	Microsoft Analyzer för Marathi.
ms.microsoft	string	Microsoft analyzer for Malay (Latin).
nb.microsoft	string	Microsoft analyzer för norska (Bokmål).
nl.lucene	string	Lucene analyzer för nederländska.
nl.microsoft	string	Microsoft Analyzer för Nederländska.
no.lucene	string	Lucene analyzer för norska.
pa.microsoft	string	Microsoft Analyzer för Punjabi.
pattern	string	Separerar text flexibelt i termer via ett mönster för reguljära uttryck. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	string	Lucene analyzer för polska.
pl.microsoft	string	Microsoft Analyzer för polska.
pt-BR.lucene	string	Lucene analyzer för portugisiska (Brasilien).
pt-BR.microsoft	string	Microsoft Analyzer för portugisiska (Brasilien).
pt-PT.lucene	string	Lucene analyzer för portugisiska (Portugal).
pt-PT.microsoft	string	Microsoft Analyzer för portugisiska (Portugal).
ro.lucene	string	Lucene analyzer för rumänska.
ro.microsoft	string	Microsoft Analyzer för rumänska.
ru.lucene	string	Lucene analyzer för ryska.
ru.microsoft	string	Microsoft Analyzer för ryska.
simple	string	Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	string	Microsoft Analyzer för slovakiska.
sl.microsoft	string	Microsoft Analyzer för slovenska.
sr-cyrillic.microsoft	string	Microsoft analyzer för serbiska (kyrillisk).
sr-latin.microsoft	string	Microsoft analyzer för serbiska (latinsk).
standard.lucene	string	Standard Lucene Analyzer.
standardasciifolding.lucene	string	Standard ASCII Folding Lucene analyzer. Se https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	string	Delar upp text med icke-bokstäver; Använder tokenfiltren med gemener och stoppord. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	string	Lucene analyzer för svenska.
sv.microsoft	string	Microsoft Analyzer för svenska.
ta.microsoft	string	Microsoft Analyzer för Tamil.
te.microsoft	string	Microsoft Analyzer för Telugu.
th.lucene	string	Lucene analyzer för Thai.
th.microsoft	string	Microsoft Analyzer för Thai.
tr.lucene	string	Lucene analyzer för turkiska.
tr.microsoft	string	Microsoft Analyzer för turkiska.
uk.microsoft	string	Microsoft Analyzer för ukrainska.
ur.microsoft	string	Microsoft Analyzer för Urdu.
vi.microsoft	string	Microsoft Analyzer för vietnamesiska.
whitespace	string	En analysator som använder blankstegstokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	string	Lucene analyzer för kinesiska (förenklad).
zh-Hans.microsoft	string	Microsoft Analyzer för kinesiska (förenklad).
zh-Hant.lucene	string	Lucene analyzer för kinesiska (traditionell).
zh-Hant.microsoft	string	Microsoft Analyzer för kinesiska (traditionell).

LexicalTokenizerName

Definierar namnen på alla tokenizers som stöds av sökmotorn.

Name	Typ	Description
classic	string	Grammatikbaserad tokeniserare som lämpar sig för bearbetning av de flesta europeiska dokument. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	string	Tokeniserar indata från en kant till n-gram av de angivna storlekarna. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	string	Genererar hela indata som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	string	Delar upp text med icke-bokstäver. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	string	Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	string	Delar upp text med hjälp av språkspecifika regler och minskar ord till sina basformulär.
microsoft_language_tokenizer	string	Delar upp text med språkspecifika regler.
nGram	string	Tokeniserar indata till n-gram av de angivna storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	string	Tokenizer för sökvägsliknande hierarkier. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	string	Tokenizer som använder regexmönstermatchning för att konstruera distinkta token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	string	Standard Lucene analyzer; Består av standardtokeniseraren, gemener och stoppfilter. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	string	Tokeniserar URL:ar och e-postmeddelanden som en token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	string	Delar upp text i tomt utrymme. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

SearchError

Beskriver ett feltillstånd för API:et.

Name	Typ	Description
code	string	En av en serverdefinierad uppsättning felkoder.
details	SearchError[]	En matris med information om specifika fel som ledde till det rapporterade felet.
message	string	En läsbar återgivning av felet.

TokenFilterName

Definierar namnen på alla tokenfilter som stöds av sökmotorn.

Name	Typ	Description
apostrophe	string	Tar bort alla tecken efter en apostrofer (inklusive själva apostrofen). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	string	Ett tokenfilter som tillämpar den arabiska normaliseraren för att normalisera ortografin. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	string	Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns i de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin" ) till deras ASCII-motsvarigheter, om sådana motsvarigheter finns. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	string	Bildar bigrams av CJK-termer som genereras från standardtokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	string	Normaliserar skillnader i CJK-bredd. Viker ascii-varianterna för fullwidth till motsvarande grundläggande latinska och katakanavarianter med halv bredd i motsvarande Kana. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	string	Tar bort engelska possessives och punkter från förkortningar. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	string	Skapa bigrams för ofta förekommande termer vid indexering. Enkla termer indexeras fortfarande också, med bigrams överlagrade. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	string	Genererar n-gram av de angivna storlekarna med början framifrån eller baksidan av en indatatoken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	string	Tar bort elisions. Till exempel konverteras "l'avion" (planet) till "avion" (plan). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	string	Normaliserar tyska tecken enligt heuristiken i german2 snowball-algoritmen. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	string	Normaliserar text på hindi för att ta bort vissa skillnader i stavningsvariationer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	string	Normaliserar Unicode-representationen av text på indiska språk. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	string	Genererar varje inkommande token två gånger, en gång som nyckelord och en gång som icke-nyckelord. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	string	Ett högpresterande kstem-filter för engelska. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	string	Tar bort ord som är för långa eller för korta. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	string	Begränsar antalet token vid indexering. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	string	Normaliserar tokentext till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm
nGram_v2	string	Genererar n-gram av de angivna storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	string	Tillämpar normalisering för persiska. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	string	Skapa token för fonetiska matchningar. Se https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	string	Använder Porter-algoritmen för att transformera tokenströmmen. Se http://tartarus.org/~martin/PorterStemmer
reverse	string	Vänder tokensträngen. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	string	Viker skandinaviska karaktärer åÅäæÄÆ-a> och öÖøØ-o>. Det diskriminerar också användningen av dubbla vokaler aa, ae, ao, oe och oo, vilket bara lämnar den första. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	string	Normaliserar användningen av de utbytbara skandinaviska tecknen. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	string	Skapar kombinationer av token som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	string	Ett filter som stjälkar ord med hjälp av en Snowball-genererad stemmer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	string	Normaliserar Unicode-representationen av Sorani-text. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	string	Språkspecifikt härdningsfilter. Se https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	string	Tar bort stoppord från en tokenström. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	string	Trimmar inledande och avslutande blanksteg från token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	string	Trunkerar termerna till en viss längd. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	string	Filtrerar bort token med samma text som föregående token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	string	Normaliserar tokentext till versaler. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	string	Delar upp ord i underord och utför valfria transformeringar i underordsgrupper.

Dela via