Indexes - Analyze

Serviço:: Search Service

Versão API:: 2025-09-01

Mostra como um analisador divide o texto em tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01

Parâmetros URI

Nome	Em	Necessário	Tipo	Descrição
endpoint	path	True	string	A URL do ponto de extremidade do serviço de pesquisa.
indexName	path	True	string	O nome do índice para o qual testar um analisador.
api-version	query	True	string	Versão da API do cliente.

Cabeçalho de Pedido

Nome	Necessário	Tipo	Descrição
x-ms-client-request-id		string (uuid)	O ID de rastreamento enviado com a solicitação para ajudar com a depuração.

Órgão do Pedido

Nome	Necessário	Tipo	Descrição
text	True	string	O texto para dividir em tokens.
analyzer		LexicalAnalyzerName	O nome do analisador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um tokenizador. Os parâmetros do tokenizador e do analisador são mutuamente exclusivos.
charFilters		CharFilterName[]	Uma lista opcional de filtros de caracteres para usar ao quebrar o texto determinado. Este parâmetro só pode ser definido ao usar o parâmetro tokenizer.
normalizer		LexicalNormalizerName	O nome do normalizador a ser usado para normalizar o texto fornecido.
tokenFilters		TokenFilterName[]	Uma lista opcional de filtros de token para usar ao quebrar o texto fornecido. Este parâmetro só pode ser definido ao usar o parâmetro tokenizer.
tokenizer		LexicalTokenizerName	O nome do tokenizador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um analisador. Os parâmetros do tokenizador e do analisador são mutuamente exclusivos.

Respostas

Nome	Tipo	Descrição
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	Resposta de erro.

Exemplos

SearchServiceIndexAnalyze

Pedido de exemplo

HTTP

POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

Resposta de exemplo

Código de estado:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definições

Nome	Descrição
AnalyzedTokenInfo	Informações sobre um token retornado por um analisador.
AnalyzeRequest	Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.
AnalyzeResult	O resultado do teste de um analisador em texto.
CharFilterName	Define os nomes de todos os filtros de caracteres suportados pelo mecanismo de pesquisa.
ErrorAdditionalInfo	O erro de gerenciamento de recursos informações adicionais.
ErrorDetail	O detalhe do erro.
ErrorResponse	Resposta de erro
LexicalAnalyzerName	Define os nomes de todos os analisadores de texto suportados pelo mecanismo de pesquisa.
LexicalNormalizerName	Define os nomes de todos os normalizadores de texto suportados pelo mecanismo de pesquisa.
LexicalTokenizerName	Define os nomes de todos os tokenizadores suportados pelo mecanismo de pesquisa.
TokenFilterName	Define os nomes de todos os filtros de token suportados pelo mecanismo de pesquisa.

AnalyzedTokenInfo

Objetivo

Informações sobre um token retornado por um analisador.

Nome	Tipo	Descrição
endOffset	integer (int32)	O índice do último caractere do token no texto de entrada.
position	integer (int32)	A posição do token no texto de entrada em relação a outros tokens. O primeiro token no texto de entrada tem a posição 0, o próximo tem a posição 1 e assim por diante. Dependendo do analisador usado, alguns tokens podem ter a mesma posição, por exemplo, se forem sinônimos uns dos outros.
startOffset	integer (int32)	O índice do primeiro caractere do token no texto de entrada.
token	string	O token retornado pelo analisador.

AnalyzeRequest

Objetivo

Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.

Nome	Tipo	Descrição
analyzer	LexicalAnalyzerName	O nome do analisador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um tokenizador. Os parâmetros do tokenizador e do analisador são mutuamente exclusivos.
charFilters	CharFilterName[]	Uma lista opcional de filtros de caracteres para usar ao quebrar o texto determinado. Este parâmetro só pode ser definido ao usar o parâmetro tokenizer.
normalizer	LexicalNormalizerName	O nome do normalizador a ser usado para normalizar o texto fornecido.
text	string	O texto para dividir em tokens.
tokenFilters	TokenFilterName[]	Uma lista opcional de filtros de token para usar ao quebrar o texto fornecido. Este parâmetro só pode ser definido ao usar o parâmetro tokenizer.
tokenizer	LexicalTokenizerName	O nome do tokenizador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um analisador. Os parâmetros do tokenizador e do analisador são mutuamente exclusivos.

AnalyzeResult

Objetivo

O resultado do teste de um analisador em texto.

Nome	Tipo	Descrição
tokens	AnalyzedTokenInfo[]	A lista de tokens retornados pelo analisador especificado na solicitação.

CharFilterName

Enumeração

Define os nomes de todos os filtros de caracteres suportados pelo mecanismo de pesquisa.

Valor	Descrição
html_strip	Um filtro de caracteres que tenta remover construções HTML. Ver https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Objetivo

O erro de gerenciamento de recursos informações adicionais.

Nome	Tipo	Descrição
info	object	As informações adicionais.
type	string	O tipo de informação adicional.

ErrorDetail

Objetivo

O detalhe do erro.

Nome	Tipo	Descrição
additionalInfo	ErrorAdditionalInfo[]	O erro informações adicionais.
code	string	O código de erro.
details	ErrorDetail[]	Os detalhes do erro.
message	string	A mensagem de erro.
target	string	O destino do erro.

ErrorResponse

Objetivo

Resposta de erro

Nome	Tipo	Descrição
error	ErrorDetail	O objeto de erro.

LexicalAnalyzerName

Enumeração

Define os nomes de todos os analisadores de texto suportados pelo mecanismo de pesquisa.

Valor	Descrição
ar.microsoft	Microsoft analyzer para árabe.
ar.lucene	Analisador de Lucene para árabe.
hy.lucene	Analisador de Lucene para arménio.
bn.microsoft	Microsoft analyzer para Bangla.
eu.lucene	Analisador Lucene para basco.
bg.microsoft	Microsoft analyzer para búlgaro.
bg.lucene	Lucene analisador para búlgaro.
ca.microsoft	Microsoft analyzer para catalão.
ca.lucene	Lucene analisador para catalão.
zh-Hans.microsoft	Microsoft analyzer para chinês (simplificado).
zh-Hans.lucene	Analisador Lucene para chinês (simplificado).
zh-Hant.microsoft	Microsoft analyzer para chinês (tradicional).
zh-Hant.lucene	Analisador de Lucene para chinês (tradicional).
hr.microsoft	Microsoft analyzer para croata.
cs.microsoft	Microsoft analyzer para checo.
cs.lucene	Lucene analisador para checo.
da.microsoft	Microsoft analyzer para dinamarquês.
da.lucene	Lucene analisador para dinamarquês.
nl.microsoft	Microsoft analyzer para holandês.
nl.lucene	Analisador Lucene para holandês.
en.microsoft	Microsoft analyzer para inglês.
en.lucene	Analisador Lucene para Inglês.
et.microsoft	Microsoft analyzer para estónio.
fi.microsoft	Microsoft analyzer para finlandês.
fi.lucene	Analisador de Lucene para finlandês.
fr.microsoft	Microsoft analyzer para francês.
fr.lucene	Analisador Lucene para francês.
gl.lucene	Lucene analisador para galego.
de.microsoft	Microsoft analyzer para alemão.
de.lucene	Lucene analisador para alemão.
el.microsoft	Microsoft analyzer para grego.
el.lucene	Analisador de Lucene para grego.
gu.microsoft	Microsoft analyzer para Gujarati.
he.microsoft	Microsoft analyzer para hebraico.
hi.microsoft	Microsoft analyzer para Hindi.
hi.lucene	Analisador de Lucene para Hindi.
hu.microsoft	Microsoft analyzer para húngaro.
hu.lucene	Lucene analisador para húngaro.
is.microsoft	Microsoft analyzer para islandês.
id.microsoft	Microsoft analyzer para indonésio (Bahasa).
id.lucene	Analisador de Lucene para indonésio.
ga.lucene	Lucene analisador para irlandês.
it.microsoft	Microsoft analyzer para italiano.
it.lucene	Analisador Lucene para italiano.
ja.microsoft	Microsoft analyzer para japonês.
ja.lucene	Analisador Lucene para japonês.
kn.microsoft	Microsoft analyzer para Kannada.
ko.microsoft	Microsoft analyzer para coreano.
ko.lucene	Analisador Lucene para coreano.
lv.microsoft	Microsoft analyzer para letão.
lv.lucene	Analisador Lucene para letão.
lt.microsoft	Microsoft analyzer para lituano.
ml.microsoft	Microsoft analyzer para Malayalam.
ms.microsoft	Microsoft analyzer para malaio (latim).
mr.microsoft	Analisador Microsoft para Marathi.
nb.microsoft	Analisador Microsoft para norueguês (Bokmål).
no.lucene	Analisador Lucene para norueguês.
fa.lucene	Analisador de Lucene para persa.
pl.microsoft	Microsoft analyzer para polonês.
pl.lucene	Analisador de Lucene para polaco.
pt-BR.microsoft	Microsoft analyzer para Português (Brasil).
pt-BR.lucene	Analisador Lucene para Português (Brasil).
pt-PT.microsoft	Microsoft analyzer para Português (Portugal).
pt-PT.lucene	Analisador de Lucene para Português (Portugal).
pa.microsoft	Microsoft analyzer para Punjabi.
ro.microsoft	Microsoft analyzer para romeno.
ro.lucene	Lucene analisador para romeno.
ru.microsoft	Microsoft analyzer para russo.
ru.lucene	Lucene analisador para russo.
sr-cyrillic.microsoft	Microsoft analyzer para sérvio (cirílico).
sr-latin.microsoft	Microsoft analyzer para sérvio (latim).
sk.microsoft	Microsoft analyzer para eslovaco.
sl.microsoft	Microsoft analyzer para esloveno.
es.microsoft	Microsoft analyzer para espanhol.
es.lucene	Analisador Lucene para espanhol.
sv.microsoft	Microsoft analyzer para sueco.
sv.lucene	Lucene analisador para sueco.
ta.microsoft	Microsoft analyzer para Tamil.
te.microsoft	Microsoft analyzer para Telugu.
th.microsoft	Microsoft analyzer para tailandês.
th.lucene	Lucene analisador para tailandês.
tr.microsoft	Microsoft analyzer para turco.
tr.lucene	Lucene analisador para turco.
uk.microsoft	Microsoft analyzer para ucraniano.
ur.microsoft	Microsoft analyzer para Urdu.
vi.microsoft	Microsoft analyzer para vietnamita.
standard.lucene	Analisador Lucene padrão.
standardasciifolding.lucene	Analisador padrão ASCII Folding Lucene. Ver https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
keyword	Trata todo o conteúdo de um campo como um único token. Isso é útil para dados como códigos postais, ids e alguns nomes de produtos. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
pattern	Separa o texto de forma flexível em termos através de um padrão de expressão regular. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
simple	Divide o texto em letras não escritas e converte-as em minúsculas. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
stop	Divide o texto em não-letras; Aplica os filtros de token minúsculo e stopword. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
whitespace	Um analisador que usa o tokenizador de espaço em branco. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Enumeração

Define os nomes de todos os normalizadores de texto suportados pelo mecanismo de pesquisa.

Valor	Descrição
asciifolding	Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Basic Latin") em seus equivalentes ASCII, se tais equivalentes existirem. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
elision	Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (avião). Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
lowercase	Normaliza o texto do token para minúsculas. Ver https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
standard	Normalizador padrão, que consiste em minúsculas e asciifolding. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
uppercase	Normaliza o texto do token para maiúsculas. Ver https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Enumeração

Define os nomes de todos os tokenizadores suportados pelo mecanismo de pesquisa.

Valor	Descrição
classic	Tokenizador baseado em gramática que é adequado para processar a maioria dos documentos em língua europeia. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	Tokeniza a entrada de uma borda em n-gramas do(s) tamanho(s) determinado(s). Ver https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	Emite toda a entrada como um único token. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	Divide o texto em letras não-letras. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	Divide o texto em letras não escritas e converte-as em minúsculas. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_tokenizer	Divide o texto usando regras específicas do idioma.
microsoft_language_stemming_tokenizer	Divide o texto usando regras específicas do idioma e reduz as palavras às suas formas base.
nGram	Tokeniza a entrada em n-gramas do(s) tamanho(s) fornecido(s). Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	Tokenizador para hierarquias semelhantes a caminhos. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	Tokenizador que usa a correspondência de padrões regex para construir tokens distintos. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	Analisador padrão de Lucene; Composto pelo tokenizador padrão, filtro minúsculo e filtro stop. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	Tokeniza urls e e-mails como um token. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	Divide o texto no espaço em branco. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Enumeração

Define os nomes de todos os filtros de token suportados pelo mecanismo de pesquisa.

Valor	Descrição
arabic_normalization	Um filtro simbólico que aplica o normalizador árabe para normalizar a ortografia. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
apostrophe	Tira todos os caracteres após um apóstrofo (incluindo o próprio apóstrofo). Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
asciifolding	Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Basic Latin") em seus equivalentes ASCII, se tais equivalentes existirem. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	Forma bigramas de termos CJK que são gerados a partir do tokenizador padrão. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	Normaliza as diferenças de largura do CJK. Dobra variantes ASCII de largura total no latim básico equivalente e variantes Katakana de meia largura no Kana equivalente. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	Remove possessivos em inglês e pontos de siglas. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	Construa bigramas para termos frequentes durante a indexação. Os termos isolados também continuam indexados, com bigramas sobrepostos. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	Gera n-gramas do(s) tamanho(s) determinado(s) a partir da frente ou do verso de um token de entrada. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (avião). Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	Normaliza caracteres alemães de acordo com a heurística do algoritmo de bola de neve German2. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	Normaliza a representação Unicode de texto em idiomas indianos. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	Emite cada token recebido duas vezes, uma como palavra-chave e outra como não-palavra-chave. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	Um filtro kstem de alto desempenho para inglês. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	Remove palavras muito longas ou curtas. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	Limita o número de tokens durante a indexação. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	Normaliza o texto do token para minúsculas. Ver https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	Gera n-gramas do(s) tamanho(s) fornecido(s). Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	Aplica normalização para persa. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	Crie tokens para correspondências fonéticas. Ver https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	Usa o algoritmo de derivação de Porter para transformar o fluxo de token. Ver http://tartarus.org/~martin/PorterStemmer
reverse	Inverte a cadeia de caracteres do token. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_normalization	Normaliza o uso dos caracteres escandinavos intercambiáveis. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
scandinavian_folding	Dobra caracteres escandinavos åÅäæÄÆ-a> e öÖøØ-o>. Também discrimina o uso de vogais duplas aa, ae, ao, oe e oo, deixando apenas a primeira. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
shingle	Cria combinações de tokens como um único token. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	Um filtro que deriva palavras usando um lematizador gerado por Bola-de-Neve. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	Normaliza a representação Unicode do texto de Sorani. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	Filtro de derivação específico da linguagem. Ver https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	Remove palavras de parada de um fluxo de token. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	Corta o espaço em branco à esquerda e à direita dos tokens. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	Trunca os termos até um comprimento específico. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	Filtra tokens com o mesmo texto do token anterior. Ver http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	Normaliza o texto do token para maiúsculas. Ver https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	Divide palavras em subpalavras e executa transformações opcionais em grupos de subpalavras.