Indexes - Analyze

Referens

Tjänst:: Search Service

API-version:: 2024-05-01-preview

Visar hur ett analysverktyg delar upp text i token.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-05-01-preview

URI-parametrar

Name	I	Obligatorisk	Typ	Description
endpoint	path	True	string	Slutpunkts-URL:en för söktjänsten.
indexName	path	True	string	Namnet på indexet som du vill testa ett analysverktyg för.
api-version	query	True	string	Klient-API-version.

Begärandehuvud

Name	Obligatorisk	Typ	Description
x-ms-client-request-id		string uuid	Spårnings-ID:t som skickas med begäran för att hjälpa till med felsökning.

Begärandetext

Name	Obligatorisk	Typ	Description
text	True	string	Texten som ska delas in i token.
analyzer		LexicalAnalyzerName	Namnet på analysatorn som ska användas för att bryta den angivna texten.
charFilters		CharFilterName[]	En valfri lista över teckenfilter som ska användas när den angivna texten bryts.
normalizer		LexicalNormalizerName	Namnet på normaliseraren som ska användas för att normalisera den angivna texten.
tokenFilters		TokenFilterName[]	En valfri lista över tokenfilter som ska användas när den angivna texten bryts.
tokenizer		LexicalTokenizerName	Namnet på tokeniseraren som ska användas för att bryta den angivna texten.

Svar

Name	Typ	Description
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	Felsvar.

Exempel

SearchServiceIndexAnalyze

Exempelbegäran

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-05-01-preview

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Exempelsvar

Statuskod:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definitioner

Name	Description
AnalyzedTokenInfo	Information om en token som returneras av en analysator.
AnalyzeRequest	Anger vissa text- och analyskomponenter som används för att dela upp texten i token.
AnalyzeResult	Resultatet av att testa ett analysverktyg för text.
CharFilterName	Definierar namnen på alla teckenfilter som stöds av sökmotorn.
ErrorAdditionalInfo	Ytterligare information om resurshanteringsfelet.
ErrorDetail	Felinformationen.
ErrorResponse	Felsvar
LexicalAnalyzerName	Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.
LexicalNormalizerName	Definierar namnen på alla textnormaliserare som stöds av sökmotorn.
LexicalTokenizerName	Definierar namnen på alla tokenizers som stöds av sökmotorn.
TokenFilterName	Definierar namnen på alla tokenfilter som stöds av sökmotorn.

AnalyzedTokenInfo

Information om en token som returneras av en analysator.

Name	Typ	Description
endOffset	integer	Indexet för tokens sista tecken i indatatexten.
position	integer	Tokens position i indatatexten i förhållande till andra token. Den första token i indatatexten har position 0, nästa har position 1 och så vidare. Beroende på vilket analysverktyg som används kan vissa token ha samma position, till exempel om de är synonymer till varandra.
startOffset	integer	Indexet för tokens första tecken i indatatexten.
token	string	Den token som returneras av analysatorn.

AnalyzeRequest

Anger vissa text- och analyskomponenter som används för att dela upp texten i token.

Name	Typ	Description
analyzer	LexicalAnalyzerName	Namnet på analysatorn som ska användas för att bryta den angivna texten.
charFilters	CharFilterName[]	En valfri lista över teckenfilter som ska användas när den angivna texten bryts.
normalizer	LexicalNormalizerName	Namnet på normaliseraren som ska användas för att normalisera den angivna texten.
text	string	Texten som ska delas in i token.
tokenFilters	TokenFilterName[]	En valfri lista över tokenfilter som ska användas när den angivna texten bryts.
tokenizer	LexicalTokenizerName	Namnet på tokenizern som ska användas för att bryta den angivna texten.

AnalyzeResult

Resultatet av att testa ett analysverktyg för text.

Name	Typ	Description
tokens	AnalyzedTokenInfo[]	Listan över token som returneras av analysatorn som anges i begäran.

CharFilterName

Definierar namnen på alla teckenfilter som stöds av sökmotorn.

Name	Typ	Description
html_strip	string	Ett teckenfilter som försöker ta bort HTML-konstruktioner. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Ytterligare information om resurshanteringsfelet.

Name	Typ	Description
info	object	Ytterligare information.
type	string	Den ytterligare informationstypen.

ErrorDetail

Felinformationen.

Name	Typ	Description
additionalInfo	ErrorAdditionalInfo[]	Ytterligare information om felet.
code	string	Felkoden.
details	ErrorDetail[]	Felinformationen.
message	string	Felmeddelandet.
target	string	Felmålet.

ErrorResponse

Felsvar

Name	Typ	Description
error	ErrorDetail	Felobjektet.

LexicalAnalyzerName

Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.

Name	Typ	Description
ar.lucene	string	Lucene analyzer för arabiska.
ar.microsoft	string	Microsoft Analyzer för arabiska.
bg.lucene	string	Lucene analyzer för bulgariska.
bg.microsoft	string	Microsoft Analyzer för Bulgariska.
bn.microsoft	string	Microsoft Analyzer för Bangla.
ca.lucene	string	Lucene analyzer för katalanska.
ca.microsoft	string	Microsoft analyzer for Catalan.
cs.lucene	string	Lucene analyzer för tjeckiska.
cs.microsoft	string	Microsoft Analyzer för Tjeckiska.
da.lucene	string	Lucene analyzer för danska.
da.microsoft	string	Microsoft analyzer for Danish.
de.lucene	string	Lucene analyzer för tyska.
de.microsoft	string	Microsoft analyzer for German.
el.lucene	string	Lucene analyzer för grekiska.
el.microsoft	string	Microsoft analyzer för grekiska.
en.lucene	string	Lucene analyzer för engelska.
en.microsoft	string	Microsoft Analyzer för engelska.
es.lucene	string	Lucene analyzer för spanska.
es.microsoft	string	Microsoft analyzer för spanska.
et.microsoft	string	Microsoft analyzer för estniska.
eu.lucene	string	Lucene analyzer för baskiska.
fa.lucene	string	Lucene analyzer för persiska.
fi.lucene	string	Lucene analyzer för finska.
fi.microsoft	string	Microsoft analyzer för finska.
fr.lucene	string	Lucene analyzer för franska.
fr.microsoft	string	Microsoft analyzer för franska.
ga.lucene	string	Lucene analyzer för iriska.
gl.lucene	string	Lucene analyzer för Galician.
gu.microsoft	string	Microsoft analyzer för Gujarati.
he.microsoft	string	Microsoft analyzer för hebreiska.
hi.lucene	string	Lucene analyzer för Hindi.
hi.microsoft	string	Microsoft analyzer for Hindi.
hr.microsoft	string	Microsoft analyzer för kroatiska.
hu.lucene	string	Lucene analyzer för ungerska.
hu.microsoft	string	Microsoft Analyzer för ungerska.
hy.lucene	string	Lucene analyzer för armeniska.
id.lucene	string	Lucene analyzer för indonesiska.
id.microsoft	string	Microsoft analyzer for Indonesian (Bahasa).
is.microsoft	string	Microsoft analyzer for Icelandic.
it.lucene	string	Lucene analyzer för italienska.
it.microsoft	string	Microsoft Analyzer för italienska.
ja.lucene	string	Lucene analyzer för japanska.
ja.microsoft	string	Microsoft Analyzer för japanska.
keyword	string	Behandlar hela innehållet i ett fält som en enda token. Detta är användbart för data som postnummer, ID:er och vissa produktnamn. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	string	Microsoft Analyzer för Kannada.
ko.lucene	string	Lucene analyzer för koreanska.
ko.microsoft	string	Microsoft analyzer för koreanska.
lt.microsoft	string	Microsoft Analyzer för litauiska.
lv.lucene	string	Lucene analyzer för lettiska.
lv.microsoft	string	Microsoft analyzer för lettiska.
ml.microsoft	string	Microsoft analyzer för Malayalam.
mr.microsoft	string	Microsoft analyzer för Marathi.
ms.microsoft	string	Microsoft analyzer for Malay (Latin).
nb.microsoft	string	Microsoft analyzer for Norwegian (Bokmål).
nl.lucene	string	Lucene analyzer för nederländska.
nl.microsoft	string	Microsoft Analyzer för nederländska.
no.lucene	string	Lucene analyzer för norska.
pa.microsoft	string	Microsoft analyzer för Punjabi.
pattern	string	Separerar text flexibelt i termer via ett reguljärt uttrycksmönster. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	string	Lucene analyzer för polska.
pl.microsoft	string	Microsoft analyzer for Polish.
pt-BR.lucene	string	Lucene analyzer för portugisiska (Brasilien).
pt-BR.microsoft	string	Microsoft analyzer för portugisiska (Brasilien).
pt-PT.lucene	string	Lucene analyzer för portugisiska (Portugal).
pt-PT.microsoft	string	Microsoft analyzer för portugisiska (Portugal).
ro.lucene	string	Lucene analyzer för rumänska.
ro.microsoft	string	Microsoft Analyzer för Rumänska.
ru.lucene	string	Lucene analyzer för ryska.
ru.microsoft	string	Microsoft analyzer för ryska.
simple	string	Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	string	Microsoft Analyzer för slovakiska.
sl.microsoft	string	Microsoft Analyzer för slovenska.
sr-cyrillic.microsoft	string	Microsoft analyzer för serbiska (kyrillisk).
sr-latin.microsoft	string	Microsoft analyzer för serbiska (latinsk).
standard.lucene	string	Standard Lucene analyzer.
standardasciifolding.lucene	string	Standard ASCII Folding Lucene analyzer. Se https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	string	Delar upp text med icke-bokstäver. Tillämpar filter för gemener och stoppordstoken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	string	Lucene analyzer för svenska.
sv.microsoft	string	Microsoft analyzer for Swedish.
ta.microsoft	string	Microsoft analyzer for Tamil.
te.microsoft	string	Microsoft Analyzer för Telugu.
th.lucene	string	Lucene analyzer för thailändska.
th.microsoft	string	Microsoft analyzer for Thai.
tr.lucene	string	Lucene analyzer för turkiska.
tr.microsoft	string	Microsoft analyzer för turkiska.
uk.microsoft	string	Microsoft Analyzer för Ukrainska.
ur.microsoft	string	Microsoft analyzer för Urdu.
vi.microsoft	string	Microsoft Analyzer för vietnamesiska.
whitespace	string	En analys som använder blankstegstokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	string	Lucene analyzer för kinesiska (förenklad).
zh-Hans.microsoft	string	Microsoft Analyzer för kinesiska (förenklad).
zh-Hant.lucene	string	Lucene analyzer för kinesiska (traditionell).
zh-Hant.microsoft	string	Microsoft Analyzer för kinesiska (traditionell).

LexicalNormalizerName

Definierar namnen på alla textnormaliserare som stöds av sökmotorn.

Name	Typ	Description
asciifolding	string	Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns i de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin" ) till deras ASCII-motsvarigheter, om sådana motsvarigheter finns. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
elision	string	Tar bort elisions. Till exempel konverteras "l'avion" (planet) till "avion" (plan). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
lowercase	string	Normaliserar tokentext till gemener. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
standard	string	Standardnormaliserare, som består av gemener och asciifolding. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
uppercase	string	Normaliserar tokentext till versaler. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Definierar namnen på alla tokenizers som stöds av sökmotorn.

Name	Typ	Description
classic	string	Grammatikbaserad tokeniserare som är lämplig för bearbetning av de flesta europeiska dokument. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	string	Tokeniserar indata från en kant till n-gram av de angivna storlekarna. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	string	Genererar hela indata som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	string	Delar upp text med icke-bokstäver. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	string	Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	string	Delar upp text med hjälp av språkspecifika regler och reducerar ord till deras basformulär.
microsoft_language_tokenizer	string	Delar upp text med hjälp av språkspecifika regler.
nGram	string	Tokeniserar indata i n-gram av de angivna storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	string	Tokeniserare för sökvägsliknande hierarkier. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	string	Tokeniserare som använder regex-mönstermatchning för att skapa distinkta token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	string	Standard Lucene analyzer; Består av standardtokeniseraren, gemener och stoppfilter. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	string	Tokeniserar URL:ar och e-postmeddelanden som en token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	string	Delar upp text i tomt utrymme. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definierar namnen på alla tokenfilter som stöds av sökmotorn.

Name	Typ	Description
apostrophe	string	Tar bort alla tecken efter en apostrof (inklusive själva apostrofen). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	string	Ett tokenfilter som tillämpar den arabiska normaliseraren för att normalisera ortografin. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	string	Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns i de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin" till deras ASCII-motsvarigheter, om sådana motsvarigheter finns. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	string	Forms bigrams av CJK-termer som genereras från standardtokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	string	Normaliserar skillnader i CJK-bredd. Viker ascii-varianterna för fullbredd till motsvarande grundläggande latinska och katakanavarianter med halv bredd i motsvarande Kana. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	string	Tar bort engelska possessives och punkter från förkortningar. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	string	Skapa bigrams för ofta förekommande termer vid indexering. Enkla termer indexeras fortfarande också, med bigrams överlagrade. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	string	Genererar n-gram av den eller de angivna storlekarna med början framifrån eller baksidan av en indatatoken. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	string	Tar bort elisions. Till exempel konverteras "l'avion" (planet) till "avion" (plan). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	string	Normaliserar tyska tecken enligt heuristiken i den tyska algoritmen för snöboll. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	string	Normaliserar text på hindi för att ta bort vissa skillnader i stavningsvariationer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	string	Normaliserar Unicode-representationen av text på indiska språk. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	string	Genererar varje inkommande token två gånger, en gång som nyckelord och en gång som icke-nyckelord. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	string	Ett högpresterande kstem-filter för engelska. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	string	Tar bort ord som är för långa eller för korta. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	string	Begränsar antalet token vid indexering. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	string	Normaliserar tokentext till gemener. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	string	Genererar n-gram av den eller de angivna storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	string	Tillämpar normalisering för persiska. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	string	Skapa token för fonetiska matchningar. Se https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	string	Använder porteringsstamsalgoritmen för att transformera tokenströmmen. Se http://tartarus.org/~martin/PorterStemmer
reverse	string	Kastar om tokensträngen. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	string	Viker skandinaviska karaktärer åÅäæÄÆ-a> och öÖøØ-o>. Det diskriminerar också användningen av dubbla vokaler aa, ae, ao, oe och oo, vilket bara lämnar den första. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	string	Normaliserar användningen av de utbytbara skandinaviska tecknen. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	string	Skapar kombinationer av token som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	string	Ett filter som stjälkar ord med hjälp av en Snowball-genererad stemmer. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	string	Normaliserar Unicode-representationen av Sorani-text. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	string	Språkspecifikt ordstamsfilter. Se https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	string	Tar bort stoppord från en tokenström. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	string	Rensar inledande och avslutande blanksteg från token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	string	Trunkerar termerna till en viss längd. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	string	Filtrerar bort token med samma text som föregående token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	string	Normaliserar tokentext till versaler. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	string	Delar upp ord i underord och utför valfria transformeringar på underordsgrupper.

Dela via