Indexes - Analyze

Riferimento

Servizio:: Search Service

Versione API:: 2024-07-01

Illustra come un analizzatore suddivide il testo in token.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Parametri dell'URI

Nome	In	Necessario	Tipo	Descrizione
endpoint	path	True	string	URL dell'endpoint del servizio di ricerca.
indexName	path	True	string	Nome dell'indice per il quale testare un analizzatore.
api-version	query	True	string	Versione dell'API client.

Intestazione della richiesta

Nome	Necessario	Tipo	Descrizione
x-ms-client-request-id		string uuid	ID di rilevamento inviato con la richiesta per facilitare il debug.

Corpo della richiesta

Nome	Necessario	Tipo	Descrizione
text	True	string	Testo da suddividere in token.
analyzer		LexicalAnalyzerName	Nome dell'analizzatore da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un tokenizer. I parametri del tokenizer e dell'analizzatore si escludono a vicenda.
charFilters		CharFilterName[]	Elenco facoltativo di filtri di caratteri da utilizzare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer.
tokenFilters		TokenFilterName[]	Elenco facoltativo di filtri di token da usare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer.
tokenizer		LexicalTokenizerName	Nome del tokenizer da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un analizzatore. I parametri del tokenizer e dell'analizzatore si escludono a vicenda.

Risposte

Nome	Tipo	Descrizione
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	Risposta di errore.

Esempio

SearchServiceIndexAnalyze

Esempio di richiesta

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Risposta di esempio

Codice di stato:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definizioni

Nome	Descrizione
AnalyzedTokenInfo	Informazioni su un token restituito da un analizzatore.
AnalyzeRequest	Specifica alcuni componenti di testo e analisi usati per suddividere il testo in token.
AnalyzeResult	Risultato del test di un analizzatore sul testo.
CharFilterName	Definisce i nomi di tutti i filtri di caratteri supportati dal motore di ricerca.
ErrorAdditionalInfo	Informazioni aggiuntive sull'errore di gestione delle risorse.
ErrorDetail	Dettagli dell'errore.
ErrorResponse	Risposta di errore
LexicalAnalyzerName	Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca.
LexicalTokenizerName	Definisce i nomi di tutti i tokenizer supportati dal motore di ricerca.
TokenFilterName	Definisce i nomi di tutti i filtri di token supportati dal motore di ricerca.

AnalyzedTokenInfo

Informazioni su un token restituito da un analizzatore.

Nome	Tipo	Descrizione
endOffset	integer	Indice dell'ultimo carattere del token nel testo di input.
position	integer	Posizione del token nel testo di input rispetto ad altri token. Il primo token nel testo di input ha la posizione 0, il successivo ha la posizione 1 e così via. A seconda dell'analizzatore usato, alcuni token potrebbero avere la stessa posizione, ad esempio se sono sinonimi l'uno dell'altro.
startOffset	integer	Indice del primo carattere del token nel testo di input.
token	string	Token restituito dall'analizzatore.

AnalyzeRequest

Specifica alcuni componenti di testo e analisi usati per suddividere il testo in token.

Nome	Tipo	Descrizione
analyzer	LexicalAnalyzerName	Nome dell'analizzatore da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un tokenizer. I parametri del tokenizer e dell'analizzatore si escludono a vicenda.
charFilters	CharFilterName[]	Elenco facoltativo di filtri di caratteri da utilizzare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer.
text	string	Testo da suddividere in token.
tokenFilters	TokenFilterName[]	Elenco facoltativo di filtri di token da usare quando si interrompe il testo specificato. Questo parametro può essere impostato solo quando si usa il parametro tokenizer.
tokenizer	LexicalTokenizerName	Nome del tokenizer da usare per interrompere il testo specificato. Se questo parametro non è specificato, è necessario specificare invece un analizzatore. I parametri del tokenizer e dell'analizzatore si escludono a vicenda.

AnalyzeResult

Risultato del test di un analizzatore sul testo.

Nome	Tipo	Descrizione
tokens	AnalyzedTokenInfo[]	Elenco di token restituiti dall'analizzatore specificato nella richiesta.

CharFilterName

Definisce i nomi di tutti i filtri di caratteri supportati dal motore di ricerca.

Nome	Tipo	Descrizione
html_strip	string	Filtro di caratteri che tenta di rimuovere i costrutti HTML. Vedere https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Informazioni aggiuntive sull'errore di gestione delle risorse.

Nome	Tipo	Descrizione
info	object	Informazioni aggiuntive.
type	string	Tipo di informazioni aggiuntive.

ErrorDetail

Dettagli dell'errore.

Nome	Tipo	Descrizione
additionalInfo	ErrorAdditionalInfo[]	Informazioni aggiuntive sull'errore.
code	string	Codice di errore.
details	ErrorDetail[]	Dettagli dell'errore.
message	string	Messaggio di errore.
target	string	Destinazione dell'errore.

ErrorResponse

Risposta di errore

Nome	Tipo	Descrizione
error	ErrorDetail	Oggetto error.

LexicalAnalyzerName

Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca.

Nome	Tipo	Descrizione
ar.lucene	string	Analizzatore Lucene per l'arabo.
ar.microsoft	string	Analizzatore Microsoft per l'arabo.
bg.lucene	string	Analizzatore Lucene per bulgaro.
bg.microsoft	string	Analizzatore Microsoft per bulgaro.
bn.microsoft	string	Analizzatore Microsoft per Bangla.
ca.lucene	string	Analizzatore Lucene per catalano.
ca.microsoft	string	Analizzatore Microsoft per catalano.
cs.lucene	string	Analizzatore Lucene per ceco.
cs.microsoft	string	Analizzatore Microsoft per ceco.
da.lucene	string	Analizzatore Lucene per danese.
da.microsoft	string	Analizzatore Microsoft per danese.
de.lucene	string	Analizzatore Lucene per tedesco.
de.microsoft	string	Analizzatore Microsoft per tedesco.
el.lucene	string	Analizzatore Lucene per greco.
el.microsoft	string	Analizzatore Microsoft per greco.
en.lucene	string	Analizzatore Lucene per l'inglese.
en.microsoft	string	Analizzatore Microsoft per la lingua inglese.
es.lucene	string	Analizzatore Lucene per spagnolo.
es.microsoft	string	Analizzatore Microsoft per spagnolo.
et.microsoft	string	Analizzatore Microsoft per Estonian.
eu.lucene	string	Analizzatore Lucene per basco.
fa.lucene	string	Analizzatore Lucene per persiano.
fi.lucene	string	Analizzatore Lucene per finlandese.
fi.microsoft	string	Analizzatore Microsoft per il finlandese.
fr.lucene	string	Analizzatore Lucene per francese.
fr.microsoft	string	Analizzatore Microsoft per francese.
ga.lucene	string	Analizzatore Lucene per irlandese.
gl.lucene	string	Analizzatore Lucene per La Galizia.
gu.microsoft	string	Analizzatore Microsoft per Gujarati.
he.microsoft	string	Analizzatore Microsoft per l'ebraico.
hi.lucene	string	Analizzatore Lucene per Hindi.
hi.microsoft	string	Analizzatore Microsoft per Hindi.
hr.microsoft	string	Analizzatore Microsoft per croato.
hu.lucene	string	Analizzatore Lucene per ungherese.
hu.microsoft	string	Analizzatore Microsoft per ungherese.
hy.lucene	string	Analizzatore Lucene per armeno.
id.lucene	string	Analizzatore Lucene per indonesiano.
id.microsoft	string	Analizzatore Microsoft per Indonesiano (Bahasa).
is.microsoft	string	Analizzatore Microsoft per islandese.
it.lucene	string	Analizzatore Lucene per italiano.
it.microsoft	string	Analizzatore Microsoft per italiano.
ja.lucene	string	Analizzatore Lucene per il giapponese.
ja.microsoft	string	Analizzatore Microsoft per il giapponese.
keyword	string	Considera l'intero contenuto di un campo come un singolo token. Ciò è utile per i dati, ad esempio i codici postali, gli ID e alcuni nomi di prodotto. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	string	Analizzatore Microsoft per Kannada.
ko.lucene	string	Analizzatore Lucene per coreano.
ko.microsoft	string	Analizzatore Microsoft per coreano.
lt.microsoft	string	Analizzatore Microsoft per lituano.
lv.lucene	string	Analizzatore Lucene per lettone.
lv.microsoft	string	Analizzatore Microsoft per lettone.
ml.microsoft	string	Analizzatore Microsoft per Malayalam.
mr.microsoft	string	Analizzatore Microsoft per Marathi.
ms.microsoft	string	Analizzatore Microsoft per il malese (alfabeto latino).
nb.microsoft	string	Analizzatore Microsoft per Norvegese (Bokmål).
nl.lucene	string	Analizzatore Lucene per olandese.
nl.microsoft	string	Analizzatore Microsoft per olandese.
no.lucene	string	Analizzatore Lucene per Norvegese.
pa.microsoft	string	Analizzatore Microsoft per Punjabi.
pattern	string	Separa in modo flessibile il testo in termini tramite un criterio di espressione regolare. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	string	Analizzatore Lucene per polacco.
pl.microsoft	string	Analizzatore Microsoft per polacco.
pt-BR.lucene	string	Analizzatore Lucene per portoghese (Brasile).
pt-BR.microsoft	string	Analizzatore Microsoft per portoghese (Brasile).
pt-PT.lucene	string	Analizzatore Lucene per portoghese (Portogallo).
pt-PT.microsoft	string	Analizzatore Microsoft per portoghese (Portogallo).
ro.lucene	string	Analizzatore Lucene per romeno.
ro.microsoft	string	Analizzatore Microsoft per romeno.
ru.lucene	string	Analizzatore Lucene per russo.
ru.microsoft	string	Analizzatore Microsoft per russo.
simple	string	Divide il testo in lettere non e li converte in lettere minuscole. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	string	Analizzatore Microsoft per slovacco.
sl.microsoft	string	Analizzatore Microsoft per sloveno.
sr-cyrillic.microsoft	string	Analizzatore Microsoft per serbo (cirillico).
sr-latin.microsoft	string	Analizzatore Microsoft per serbo (alfabeto latino).
standard.lucene	string	Analizzatore Lucene standard.
standardasciifolding.lucene	string	Analizzatore Lucene di riduzione ASCII standard. Vedere https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	string	Divide il testo in corrispondenza di lettere non; Applica i filtri di token minuscoli e non significative. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	string	Analizzatore Lucene per svedese.
sv.microsoft	string	Analizzatore Microsoft per svedese.
ta.microsoft	string	Analizzatore Microsoft per Tamil.
te.microsoft	string	Analizzatore Microsoft per Telugu.
th.lucene	string	Analizzatore Lucene per Thai.
th.microsoft	string	Analizzatore Microsoft per thai.
tr.lucene	string	Analizzatore Lucene per turco.
tr.microsoft	string	Analizzatore Microsoft per turco.
uk.microsoft	string	Analizzatore Microsoft per ucraino.
ur.microsoft	string	Analizzatore Microsoft per Urdu.
vi.microsoft	string	Analizzatore Microsoft per vietnamiti.
whitespace	string	Analizzatore che usa il tokenizer di spazi vuoti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	string	Analizzatore Lucene per il cinese (semplificato).
zh-Hans.microsoft	string	Analizzatore Microsoft per il cinese (semplificato).
zh-Hant.lucene	string	Analizzatore Lucene per il cinese (tradizionale).
zh-Hant.microsoft	string	Analizzatore Microsoft per il cinese (tradizionale).

LexicalTokenizerName

Definisce i nomi di tutti i tokenizer supportati dal motore di ricerca.

Nome	Tipo	Descrizione
classic	string	Tokenizzatore basato su grammatica adatto per l'elaborazione della maggior parte dei documenti in lingua europea. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	string	Tokenzza l'input da un bordo in n-grammi delle dimensioni specificate. Vedere https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	string	Genera l'intero input come singolo token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	string	Divide il testo in corrispondenza di lettere non. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	string	Divide il testo in lettere non e li converte in lettere minuscole. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	string	Divide il testo usando regole specifiche della lingua e riduce le parole alle relative forme di base.
microsoft_language_tokenizer	string	Divide il testo usando regole specifiche della lingua.
nGram	string	Tokenzza l'input in n-grammi delle dimensioni specificate. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	string	Tokenizer per gerarchie simili al percorso. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	string	Tokenizer che usa criteri regex corrispondenti per costruire token distinti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	string	Analizzatore Lucene standard; Composto dal tokenizer standard, dal filtro minuscolo e dal filtro di arresto. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	string	Tokenzza url e messaggi di posta elettronica come un token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	string	Divide il testo in corrispondenza degli spazi vuoti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definisce i nomi di tutti i filtri di token supportati dal motore di ricerca.

Nome	Tipo	Descrizione
apostrophe	string	Rimuove tutti i caratteri dopo un apostrofo (incluso l'apostrofo stesso). Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	string	Filtro token che applica il normalizzatore arabo per normalizzare l'ortografia. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	string	Converte caratteri Unicode alfabetici, numerici e simbolici che non si trovano nei primi 127 caratteri ASCII (blocco Unicode "Latino di base") nei rispettivi equivalenti ASCII, se tali equivalenti esistono. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	string	Forma bigrams dei termini CJK generati dal tokenizer standard. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	string	Normalizza le differenze di larghezza CJK. Piega le varianti fullwidth ASCII nell'equivalente alfabeto latino di base e le varianti Katakana a metà larghezza nell'equivalente Kana. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	string	Rimuove i possessivi inglesi e i punti dagli acronimi. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	string	Costruisci bigram per i termini che si verificano di frequente durante l'indicizzazione. Anche i termini singoli sono indicizzati, con bigrams sovrapposti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	string	Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	string	Rimuove le elisioni. Ad esempio, "l'avion" (il piano) verrà convertito in "avion" (piano). Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	string	Normalizza i caratteri tedeschi in base all'euristica dell'algoritmo snowball German2. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	string	Normalizza il testo in hindi per rimuovere alcune differenze nelle varianti ortografiche. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	string	Normalizza la rappresentazione Unicode del testo nelle lingue indiane. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	string	Genera ogni token in ingresso due volte, una volta come parola chiave e una volta come parola chiave non. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	string	Filtro kstem ad alte prestazioni per l'inglese. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	string	Rimuove parole troppo lunghe o troppo brevi. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	string	Limita il numero di token durante l'indicizzazione. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	string	Normalizza il testo del token in lettere minuscole. Vedere https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	string	Genera n-grammi delle dimensioni specificate. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	string	Applica la normalizzazione per il persiano. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	string	Creare token per corrispondenze fonetiche. Vedere https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	string	Usa l'algoritmo stemming Porter per trasformare il flusso di token. Vedere http://tartarus.org/~martin/PorterStemmer
reverse	string	Inverte la stringa del token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	string	Piega i caratteri scandinavi åÅäæÄÆ->a e öÖøØ->o. Inoltre discrimina l'uso di vocali doppie aa, ae, ao, oe e oo, lasciando solo il primo. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	string	Normalizza l'uso dei caratteri scandinavi intercambiabili. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	string	Crea combinazioni di token come singolo token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	string	Filtro che deriva le parole usando uno stemmer generato da Snowball. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	string	Normalizza la rappresentazione Unicode del testo Sorani. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	string	Filtro di stemming specifico della lingua. Vedere https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	string	Rimuove le parole non significative da un flusso di token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	string	Taglia gli spazi vuoti iniziali e finali dai token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	string	Tronca i termini a una lunghezza specifica. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	string	Filtra i token con lo stesso testo del token precedente. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	string	Normalizza il testo del token in lettere maiuscole. Vedere https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	string	Suddivide le parole in parole secondarie ed esegue trasformazioni facoltative nei gruppi di sottoword.

Condividi tramite