Indexes - Analyze

Mostra come un analizzatore suddivide il testo nei token.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

Parametri dell'URI

Nome In Necessario Tipo Descrizione
endpoint
path True

string

URL dell'endpoint del servizio di ricerca.

indexName
path True

string

Nome dell'indice per cui testare un analizzatore.

api-version
query True

string

Versione dell'API client.

Intestazione della richiesta

Nome Necessario Tipo Descrizione
x-ms-client-request-id

string

uuid

ID di rilevamento inviato con la richiesta di assistenza per il debug.

Corpo della richiesta

Nome Necessario Tipo Descrizione
text True

string

Testo da suddividere in token.

analyzer

LexicalAnalyzerName

Nome dell'analizzatore da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un tokenizer. I parametri del tokenizzatore e dell'analizzatore si escludono a vicenda.

charFilters

CharFilterName[]

Elenco facoltativo di filtri di caratteri da usare durante l'interruzione del testo specificato. Questo parametro può essere impostato solo quando si usa il parametro del tokenizer.

tokenFilters

TokenFilterName[]

Elenco facoltativo dei filtri token da usare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro del tokenizer.

tokenizer

LexicalTokenizerName

Nome del tokenizer da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un analizzatore. I parametri del tokenizzatore e dell'analizzatore si escludono a vicenda.

Risposte

Nome Tipo Descrizione
200 OK

AnalyzeResult

Other Status Codes

SearchError

Risposta di errore.

Esempio

SearchServiceIndexAnalyze

Sample Request

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Sample Response

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definizioni

Nome Descrizione
AnalyzedTokenInfo

Informazioni su un token restituito da un analizzatore.

AnalyzeRequest

Specifica alcuni componenti di testo e analisi usati per suddividere il testo in token.

AnalyzeResult

Risultato del test di un analizzatore sul testo.

CharFilterName

Definisce i nomi di tutti i filtri di caratteri supportati dal motore di ricerca.

LexicalAnalyzerName

Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca.

LexicalTokenizerName

Definisce i nomi di tutti i tokenizzatori supportati dal motore di ricerca.

SearchError

Descrive una condizione di errore per l'API.

TokenFilterName

Definisce i nomi di tutti i filtri token supportati dal motore di ricerca.

AnalyzedTokenInfo

Informazioni su un token restituito da un analizzatore.

Nome Tipo Descrizione
endOffset

integer

Indice dell'ultimo carattere del token nel testo di input.

position

integer

Posizione del token nel testo di input rispetto ad altri token. Il primo token nel testo di input ha la posizione 0, il successivo ha la posizione 1 e così via. A seconda dell'analizzatore usato, alcuni token potrebbero avere la stessa posizione, ad esempio se sono sinonimi tra loro.

startOffset

integer

Indice del primo carattere del token nel testo di input.

token

string

Token restituito dall'analizzatore.

AnalyzeRequest

Specifica alcuni componenti di testo e analisi usati per suddividere il testo in token.

Nome Tipo Descrizione
analyzer

LexicalAnalyzerName

Nome dell'analizzatore da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un tokenizer. I parametri del tokenizzatore e dell'analizzatore si escludono a vicenda.

charFilters

CharFilterName[]

Elenco facoltativo di filtri di caratteri da usare durante l'interruzione del testo specificato. Questo parametro può essere impostato solo quando si usa il parametro del tokenizer.

text

string

Testo da suddividere in token.

tokenFilters

TokenFilterName[]

Elenco facoltativo dei filtri token da usare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro del tokenizer.

tokenizer

LexicalTokenizerName

Nome del tokenizer da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un analizzatore. I parametri del tokenizzatore e dell'analizzatore si escludono a vicenda.

AnalyzeResult

Risultato del test di un analizzatore sul testo.

Nome Tipo Descrizione
tokens

AnalyzedTokenInfo[]

Elenco di token restituiti dall'analizzatore specificato nella richiesta.

CharFilterName

Definisce i nomi di tutti i filtri di caratteri supportati dal motore di ricerca.

Nome Tipo Descrizione
html_strip

string

Filtro di caratteri che tenta di rimuovere costrutti HTML. Vedere https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

LexicalAnalyzerName

Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca.

Nome Tipo Descrizione
ar.lucene

string

Analizzatore Lucene per arabo.

ar.microsoft

string

Analizzatore Microsoft per arabo.

bg.lucene

string

Analizzatore Lucene per bulgaro.

bg.microsoft

string

Analizzatore Microsoft per bulgaro.

bn.microsoft

string

Analizzatore Microsoft per Bangla.

ca.lucene

string

Analizzatore Lucene per Catalano.

ca.microsoft

string

Analizzatore Microsoft per catalano.

cs.lucene

string

Analizzatore Lucene per il Ceco.

cs.microsoft

string

Analizzatore Microsoft per ceco.

da.lucene

string

Analizzatore Lucene per danese.

da.microsoft

string

Analizzatore Microsoft per danese.

de.lucene

string

Analizzatore Lucene per tedesco.

de.microsoft

string

Analizzatore Microsoft per tedesco.

el.lucene

string

Analizzatore Lucene per greco.

el.microsoft

string

Analizzatore Microsoft per greco.

en.lucene

string

Analizzatore Lucene per l'inglese.

en.microsoft

string

Analizzatore Microsoft per l'inglese.

es.lucene

string

Analizzatore Lucene per spagnolo.

es.microsoft

string

Analizzatore Microsoft per spagnolo.

et.microsoft

string

Analizzatore Microsoft per Estonian.

eu.lucene

string

Analizzatore Lucene per basco.

fa.lucene

string

Analizzatore Lucene per Persiano.

fi.lucene

string

Analizzatore Lucene per finlandese.

fi.microsoft

string

Analizzatore Microsoft per finlandese.

fr.lucene

string

Analizzatore Lucene per francese.

fr.microsoft

string

Analizzatore Microsoft per francese.

ga.lucene

string

Analizzatore Lucene per irlandese.

gl.lucene

string

Analizzatore Lucene per La Galizia.

gu.microsoft

string

Analizzatore Microsoft per Gujarati.

he.microsoft

string

Analizzatore Microsoft per ebraico.

hi.lucene

string

Analizzatore Lucene per Hindi.

hi.microsoft

string

Analizzatore Microsoft per Hindi.

hr.microsoft

string

Analizzatore Microsoft per la Croazia.

hu.lucene

string

Analizzatore Lucene per ungherese.

hu.microsoft

string

Analizzatore Microsoft per ungherese.

hy.lucene

string

Analizzatore Lucene per Armena.

id.lucene

string

Analizzatore Lucene per indonesiano.

id.microsoft

string

Analizzatore Microsoft per Indonesiano (Bahasa).

is.microsoft

string

Analizzatore Microsoft per Islanda.

it.lucene

string

Analizzatore Lucene per italiano.

it.microsoft

string

Analizzatore Microsoft per italiano.

ja.lucene

string

Analizzatore Lucene per il giapponese.

ja.microsoft

string

Analizzatore Microsoft per il giapponese.

keyword

string

Considera l'intero contenuto di un campo come token singolo. Ciò è utile per i dati come i codici postali, ID e alcuni nomi di prodotto. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Analizzatore Microsoft per Kannada.

ko.lucene

string

Analizzatore Lucene per coreano.

ko.microsoft

string

Analizzatore Microsoft per coreano.

lt.microsoft

string

Analizzatore Microsoft per la Lituania.

lv.lucene

string

Analizzatore Lucene per lettone.

lv.microsoft

string

Analizzatore Microsoft per lettone.

ml.microsoft

string

Analizzatore Microsoft per Malayalam.

mr.microsoft

string

Analizzatore Microsoft per Marathi.

ms.microsoft

string

Analizzatore Microsoft per Malay (latino).

nb.microsoft

string

Analizzatore Microsoft per Norvegese (Bokmål).

nl.lucene

string

Analizzatore Lucene per olandese.

nl.microsoft

string

Analizzatore Microsoft per olandese.

no.lucene

string

Analizzatore Lucene per Norvegese.

pa.microsoft

string

Analizzatore Microsoft per Punjabi.

pattern

string

Separa in modo flessibile il testo in termini tramite un modello di espressione regolare. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analizzatore Lucene per polacco.

pl.microsoft

string

Analizzatore Microsoft per polacco.

pt-BR.lucene

string

Analizzatore Lucene per portoghese (Brasile).

pt-BR.microsoft

string

Analizzatore Microsoft per portoghese (Brasile).

pt-PT.lucene

string

Analizzatore Lucene per portoghese (Portogallo).

pt-PT.microsoft

string

Analizzatore Microsoft per portoghese (Portogallo).

ro.lucene

string

Analizzatore Lucene per romeno.

ro.microsoft

string

Analizzatore Microsoft per romania.

ru.lucene

string

Analizzatore Lucene per russo.

ru.microsoft

string

Analizzatore Microsoft per russo.

simple

string

Divide il testo in corrispondenza di elementi diversi da lettere e li converte in lettere minuscole. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analizzatore Microsoft per slovacco.

sl.microsoft

string

Analizzatore Microsoft per sloveno.

sr-cyrillic.microsoft

string

Analizzatore Microsoft per serbo (cirillico).

sr-latin.microsoft

string

Analizzatore Microsoft per serbo (latino).

standard.lucene

string

Analizzatore Lucene standard.

standardasciifolding.lucene

string

Analizzatore lucene di riduzione ASCII standard. Vedere https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Divide il testo in lettere non lettere; Applica i filtri token minuscoli e stopword. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Analizzatore Lucene per svedese.

sv.microsoft

string

Analizzatore Microsoft per svedese.

ta.microsoft

string

Analizzatore Microsoft per Tamil.

te.microsoft

string

Analizzatore Microsoft per Telugu.

th.lucene

string

Analizzatore Lucene per Thai.

th.microsoft

string

Analizzatore Microsoft per Thai.

tr.lucene

string

Analizzatore Lucene per turco.

tr.microsoft

string

Analizzatore Microsoft per turco.

uk.microsoft

string

Analizzatore Microsoft per ucraino.

ur.microsoft

string

Analizzatore Microsoft per Urdu.

vi.microsoft

string

Analizzatore Microsoft per i vietnamiti.

whitespace

string

Analizzatore che usa il tokenizer whitespace. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analizzatore Lucene per cinese (semplificato).

zh-Hans.microsoft

string

Analizzatore Microsoft per cinese (semplificato).

zh-Hant.lucene

string

Analizzatore Lucene per cinese (tradizionale).

zh-Hant.microsoft

string

Analizzatore Microsoft per cinese (tradizionale).

LexicalTokenizerName

Definisce i nomi di tutti i tokenizzatori supportati dal motore di ricerca.

Nome Tipo Descrizione
classic

string

Tokenizzatore basato su grammatica adatto per l'elaborazione della maggior parte dei documenti in lingua europea. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokenzza l'input da un bordo in n-grammi delle dimensioni specificate. Vedere https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Genera l'intero input come token singolo. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Divide il testo in corrispondenza di elementi diversi da lettere. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Divide il testo in corrispondenza di elementi diversi da lettere e li converte in lettere minuscole. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Divide il testo usando regole specifiche della lingua e riduce le parole alle relative forme di base.

microsoft_language_tokenizer

string

Divide il testo usando le regole specifiche della lingua.

nGram

string

Suddivide in token l'input in n-grammi di determinate dimensioni. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer per le gerarchie di tipo percorso. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer che usa il modello regex corrispondente per costruire token distinti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Analizzatore Lucene standard; Composto dal tokenizer standard, dal filtro minuscolo e dal filtro di arresto. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Suddivide in token gli URL e gli indirizzi di posta elettronica come un unico token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Divide il testo in corrispondenza degli spazi vuoti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

SearchError

Descrive una condizione di errore per l'API.

Nome Tipo Descrizione
code

string

Uno di un set definito dal server di codici di errore.

details

SearchError[]

Matrice di dettagli sugli errori specifici che hanno causato l'errore segnalato.

message

string

Rappresentazione leggibile dell'errore.

TokenFilterName

Definisce i nomi di tutti i filtri token supportati dal motore di ricerca.

Nome Tipo Descrizione
apostrophe

string

Rimuove tutti i caratteri dopo un apostrofo (incluso l'apostrofo stesso). Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Filtro di token che applica il normalizzatore per la lingua araba per normalizzare l'ortografia. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Converte caratteri Unicode alfabetici, numerici e simbolici che non sono nei primi 127 caratteri ASCII (il blocco Unicode "Basic Latin" ) nei relativi equivalenti ASCII, se tali equivalenti esistono. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forma bigrams di termini CJK generati dal tokenizer standard. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normalizza le differenze di larghezza per le lingue CJK. Piega le varianti fullwidth ASCII nell'equivalente latino di base e le varianti Katakana a metà larghezza nell'equivalente Kana. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Rimuove i possessivi inglesi e i puntini dagli acronimi. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Costruisce digrammi per i termini frequenti durante l'indicizzazione. Anche i termini singoli continuano a essere indicizzati, con i digrammi sovrapposti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o dal retro di un token di input. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Rimuove le elisioni. Ad esempio, "l'avion" (il piano) verrà convertito in "avion" (piano). Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normalizzare i caratteri tedeschi in base all'euristica dell'algoritmo snowball tedesco2. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normalizza il testo in hindi per rimuovere alcune differenze nelle varianti di ortografia. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normalizza la rappresentazione Unicode del testo nelle lingue indiane. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Genera ogni token in ingresso due volte, una volta come parola chiave e una volta come parola chiave non. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Filtro kstem con prestazioni elevate per l'inglese. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Rimuove le parole troppo lunghe o troppo corte. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Limita il numero di token durante l'indicizzazione. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normalizza il testo del token applicando il minuscolo. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm

nGram_v2

string

Genera n-grammi delle dimensioni specificate. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Applica la normalizzazione per il persiano. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Crea i token per le corrispondenze fonetiche. Vedere https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Usa l'algoritmo porter stemming per trasformare il flusso di token. Vedere http://tartarus.org/~martin/PorterStemmer

reverse

string

Inverte la stringa del token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Piega i caratteri scandinavi åÅäæÄÆ-a> e öÖøØ-o>. Discrimina anche l'uso delle vocali doppie aa, ae, ao, oe e oo, lasciando solo la prima. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normalizza l'uso dei caratteri scandinavi intercambiabili. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Crea combinazioni di token come token singolo. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Filtro che deriva le parole usando uno stemmer generato da Snowball. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normalizza la rappresentazione Unicode del testo in sorani. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtro di stemming specifico della lingua. Vedere https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Rimuove le parole non significative da un flusso di token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Elimina lo spazio vuoto iniziale e finale dai token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Tronca i termini a una lunghezza specifica. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtra i token con lo stesso testo del token precedente. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normalizza il testo del token applicando il maiuscolo. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Suddivide le parole in sottoparole ed esegue trasformazioni facoltative sui gruppi di sottoparole.