Indexes - Analyze

Referência

Serviço:: Search Service

Versão da API:: 2024-05-01-preview

Mostra como um analisador divide o texto em tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-05-01-preview

Parâmetros de URI

Nome	Em	Obrigatório	Tipo	Description
endpoint	path	True	string	A URL do ponto de extremidade do serviço de pesquisa.
indexName	path	True	string	O nome do índice para o qual testar um analisador.
api-version	query	True	string	Versão da API do cliente.

Cabeçalho da solicitação

Nome	Obrigatório	Tipo	Description
x-ms-client-request-id		string (uuid)	A ID de acompanhamento enviada com a solicitação para ajudar na depuração.

Corpo da solicitação

Nome	Obrigatório	Tipo	Description
text	True	string	O texto a ser dividido em tokens.
analyzer		LexicalAnalyzerName	O nome do analisador a ser usado para quebrar o texto fornecido.
charFilters		CharFilterName[]	Uma lista opcional de filtros de caracteres a serem usados ao quebrar o texto especificado.
normalizer		LexicalNormalizerName	O nome do normalizador a ser usado para normalizar o texto fornecido.
tokenFilters		TokenFilterName[]	Uma lista opcional de filtros de token a serem usados ao quebrar o texto fornecido.
tokenizer		LexicalTokenizerName	O nome do tokenizador a ser usado para quebrar o texto fornecido.

Respostas

Nome	Tipo	Description
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	Resposta de erro.

Exemplos

SearchServiceIndexAnalyze

Solicitação de exemplo

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-05-01-preview

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Resposta de exemplo

Código de status:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definições

Nome	Description
AnalyzedTokenInfo	Informações sobre um token retornado por um analisador.
AnalyzeRequest	Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.
AnalyzeResult	O resultado do teste de um analisador no texto.
CharFilterName	Define os nomes de todos os filtros de caracteres compatíveis com o mecanismo de pesquisa.
ErrorAdditionalInfo	As informações adicionais do erro de gerenciamento de recursos.
ErrorDetail	O detalhe do erro.
ErrorResponse	Resposta de erro
LexicalAnalyzerName	Define os nomes de todos os analisadores de texto compatíveis com o mecanismo de pesquisa.
LexicalNormalizerName	Define os nomes de todos os normalizadores de texto compatíveis com o mecanismo de pesquisa.
LexicalTokenizerName	Define os nomes de todos os tokenizers compatíveis com o mecanismo de pesquisa.
TokenFilterName	Define os nomes de todos os filtros de token compatíveis com o mecanismo de pesquisa.

AnalyzedTokenInfo

Objeto

Informações sobre um token retornado por um analisador.

Nome	Tipo	Description
endOffset	integer (int32)	O índice do último caractere do token no texto de entrada.
position	integer (int32)	A posição do token no texto de entrada em relação a outros tokens. O primeiro token no texto de entrada tem a posição 0, o próximo tem a posição 1 e assim por diante. Dependendo do analisador usado, alguns tokens poderão ter a mesma posição, por exemplo, se forem sinônimos uns dos outros.
startOffset	integer (int32)	O índice do primeiro caractere do token no texto de entrada.
token	string	O token retornado pelo analisador.

AnalyzeRequest

Objeto

Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.

Nome	Tipo	Description
analyzer	LexicalAnalyzerName	O nome do analisador a ser usado para quebrar o texto fornecido.
charFilters	CharFilterName[]	Uma lista opcional de filtros de caracteres a serem usados ao quebrar o texto especificado.
normalizer	LexicalNormalizerName	O nome do normalizador a ser usado para normalizar o texto fornecido.
text	string	O texto a ser dividido em tokens.
tokenFilters	TokenFilterName[]	Uma lista opcional de filtros de token a serem usados ao quebrar o texto fornecido.
tokenizer	LexicalTokenizerName	O nome do tokenizador a ser usado para quebrar o texto fornecido.

AnalyzeResult

Objeto

O resultado do teste de um analisador no texto.

Nome	Tipo	Description
tokens	AnalyzedTokenInfo[]	A lista de tokens retornados pelo analisador especificado na solicitação.

CharFilterName

Enumeração

Define os nomes de todos os filtros de caracteres compatíveis com o mecanismo de pesquisa.

Valor	Description
html_strip	Um filtro de caractere que tenta remover constructos HTML. Consulte https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Objeto

As informações adicionais do erro de gerenciamento de recursos.

Nome	Tipo	Description
info	object	As informações adicionais.
type	string	O tipo de informação adicional.

ErrorDetail

Objeto

O detalhe do erro.

Nome	Tipo	Description
additionalInfo	ErrorAdditionalInfo[]	As informações adicionais do erro.
code	string	O código de erro.
details	ErrorDetail[]	Os detalhes do erro.
message	string	A mensagem de erro.
target	string	O destino do erro.

ErrorResponse

Objeto

Resposta de erro

Nome	Tipo	Description
error	ErrorDetail	O objeto de erro.

LexicalAnalyzerName

Enumeração

Define os nomes de todos os analisadores de texto compatíveis com o mecanismo de pesquisa.

Valor	Description
ar.lucene	Analisador Lucene para árabe.
ar.microsoft	Analisador da Microsoft para árabe.
bg.lucene	Analisador Lucene para búlgaro.
bg.microsoft	Analisador da Microsoft para búlgaro.
bn.microsoft	Analisador da Microsoft para Bangla.
ca.lucene	Analisador lucene para catalão.
ca.microsoft	Analisador da Microsoft para Catalão.
cs.lucene	Analisador lucene para tcheco.
cs.microsoft	Analisador da Microsoft para tcheco.
da.lucene	Analisador Lucene para dinamarquês.
da.microsoft	Analisador da Microsoft para dinamarquês.
de.lucene	Analisador Lucene para alemão.
de.microsoft	Analisador da Microsoft para alemão.
el.lucene	Analisador Lucene para grego.
el.microsoft	Analisador da Microsoft para grego.
en.lucene	Analisador Lucene para inglês.
en.microsoft	Analisador da Microsoft para inglês.
es.lucene	Analisador Lucene para espanhol.
es.microsoft	Analisador da Microsoft para espanhol.
et.microsoft	Analisador da Microsoft para estoniano.
eu.lucene	Analisador Lucene para Basco.
fa.lucene	Analisador Lucene para persa.
fi.lucene	Analisador Lucene para finlandês.
fi.microsoft	Analisador da Microsoft para finlandês.
fr.lucene	Analisador Lucene para francês.
fr.microsoft	Analisador da Microsoft para francês.
ga.lucene	Analisador Lucene para irlandês.
gl.lucene	Analisador Lucene para galego.
gu.microsoft	Analisador da Microsoft para Gujarati.
he.microsoft	Analisador da Microsoft para Hebraico.
hi.lucene	Analisador lucene para hindi.
hi.microsoft	Analisador da Microsoft para hindi.
hr.microsoft	Analisador da Microsoft para croata.
hu.lucene	Analisador Lucene para húngaro.
hu.microsoft	Analisador da Microsoft para húngaro.
hy.lucene	Analisador Lucene para armênio.
id.lucene	Analisador lucene para indonésio.
id.microsoft	Analisador da Microsoft para Indonésia (Bahasa).
is.microsoft	Analisador da Microsoft para islandês.
it.lucene	Analisador Lucene para italiano.
it.microsoft	Analisador da Microsoft para italiano.
ja.lucene	Analisador Lucene para japonês.
ja.microsoft	Analisador da Microsoft para japonês.
keyword	Trata todo o conteúdo de um campo como um único token. Isso é útil para dados como cep, IDs e alguns nomes de produto. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	Analisador da Microsoft para Kannada.
ko.lucene	Analisador Lucene para coreano.
ko.microsoft	Analisador da Microsoft para coreano.
lt.microsoft	Analisador da Microsoft para lituano.
lv.lucene	Analisador Lucene para letão.
lv.microsoft	Analisador da Microsoft para letão.
ml.microsoft	Analisador da Microsoft para Malayalam.
mr.microsoft	Analisador da Microsoft para Marathi.
ms.microsoft	Analisador da Microsoft para malaio (latino).
nb.microsoft	Analisador da Microsoft para norueguês (Bokmål).
nl.lucene	Analisador Lucene para holandês.
nl.microsoft	Analisador da Microsoft para holandês.
no.lucene	Analisador Lucene para norueguês.
pa.microsoft	Analisador da Microsoft para Punjabi.
pattern	Separa o texto com flexibilidade em termos por meio de um padrão de expressão regular. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	Analisador Lucene para polonês.
pl.microsoft	Analisador da Microsoft para polonês.
pt-BR.lucene	Analisador lucene para português (Brasil).
pt-BR.microsoft	Analisador da Microsoft para português (Brasil).
pt-PT.lucene	Analisador lucene para português (Portugal).
pt-PT.microsoft	Analisador da Microsoft para português (Portugal).
ro.lucene	Analisador lucene para romeno.
ro.microsoft	Analisador da Microsoft para romeno.
ru.lucene	Analisador Lucene para russo.
ru.microsoft	Analisador da Microsoft para russo.
simple	Divide o texto em letras não letras e converte-os em letras minúsculas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	Analisador da Microsoft para Eslovaco.
sl.microsoft	Analisador da Microsoft para esloveno.
sr-cyrillic.microsoft	Analisador da Microsoft para sérvio (cirílico).
sr-latin.microsoft	Analisador da Microsoft para sérvio (latino).
standard.lucene	Analisador lucene padrão.
standardasciifolding.lucene	Analisador Lucene doBrável ASCII Padrão. Consulte https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	Divide o texto em letras não letras; Aplica os filtros de token de letras minúsculas e palavras irrelevantes. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	Analisador Lucene para sueco.
sv.microsoft	Analisador da Microsoft para sueco.
ta.microsoft	Analisador da Microsoft para Tamil.
te.microsoft	Analisador da Microsoft para Telugu.
th.lucene	Analisador Lucene para tailandês.
th.microsoft	Analisador da Microsoft para tailandês.
tr.lucene	Analisador Lucene para turco.
tr.microsoft	Analisador da Microsoft para turco.
uk.microsoft	Analisador da Microsoft para ucraniano.
ur.microsoft	Analisador da Microsoft para Urdu.
vi.microsoft	Analisador da Microsoft para vietnamita.
whitespace	Um analisador que usa o tokenizador de espaço em branco. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	Analisador lucene para chinês (simplificado).
zh-Hans.microsoft	Analisador da Microsoft para chinês (simplificado).
zh-Hant.lucene	Analisador lucene para chinês (tradicional).
zh-Hant.microsoft	Analisador da Microsoft para chinês (tradicional).

LexicalNormalizerName

Enumeração

Define os nomes de todos os normalizadores de texto compatíveis com o mecanismo de pesquisa.

Valor	Description
asciifolding	Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico") em seus equivalentes ASCII, se esses equivalentes existirem. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
elision	Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
lowercase	Normaliza o texto do token em letras minúsculas. Consulte https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
standard	Normalizador padrão, que consiste em minúsculas e asciifolding. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
uppercase	Normaliza o texto do token em letras maiúsculas. Consulte https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Enumeração

Define os nomes de todos os tokenizers compatíveis com o mecanismo de pesquisa.

Valor	Description
classic	Tokenizador baseado em gramática adequado para processar a maioria dos documentos em idioma europeu. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	Tokeniza a entrada de uma borda em n-gramas dos tamanhos fornecidos. Consulte https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	Emite toda a entrada como um único token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	Divide o texto em letras não letras. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	Divide o texto em letras não letras e converte-os em letras minúsculas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	Divide o texto usando regras específicas do idioma e reduz as palavras aos formulários base.
microsoft_language_tokenizer	Divide o texto usando regras específicas do idioma.
nGram	Tokeniza a entrada em n-gramas dos tamanhos fornecidos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	Tokenizer para hierarquias semelhantes a caminho. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	Tokenizer que usa a correspondência de padrões regex para construir tokens distintos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	Analisador Lucene Padrão; Composto pelo tokenizador padrão, filtro em letras minúsculas e filtro de parada. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	Tokeniza urls e emails como um token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	Divide o texto no espaço em branco. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Enumeração

Define os nomes de todos os filtros de token compatíveis com o mecanismo de pesquisa.

Valor	Description
apostrophe	Tira todos os caracteres após um apóstrofo (incluindo o apóstrofo em si). Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	Um filtro de token que aplica o normalizador árabe para normalizar a orthografia. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico") em seus equivalentes ASCII, se esses equivalentes existirem. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	Forma bigrams de termos CJK gerados a partir do tokenizador padrão. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	Normaliza as diferenças de largura do CJK. Dobra as variantes ASCII de largura total nas variantes equivalentes de latim básico e katakana de meia largura no Kana equivalente. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	Remove possessivos em inglês e de acrônimos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	Construa bigrams para termos frequentes durante a indexação. Termos únicos ainda são indexados também, com bigrams sobrepostos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	Gera n-gramas dos tamanhos fornecidos a partir da frente ou da parte traseira de um token de entrada. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	Normaliza os caracteres alemães de acordo com a heurística do algoritmo de bola de neve alemão2. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	Normaliza a representação Unicode do texto em idiomas indianos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	Emite cada token de entrada duas vezes, uma como palavra-chave e uma vez como palavra-chave. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	Um filtro kstem de alto desempenho para inglês. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	Remove palavras muito longas ou muito curtas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	Limita o número de tokens durante a indexação. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	Normaliza o texto do token para maiúsculas e minúsculas. Consulte https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	Gera n-gramas dos tamanhos determinados. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	Aplica a normalização para persa. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	Crie tokens para correspondências fonéticas. Consulte https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	Usa o algoritmo porter para transformar o fluxo de token. Consulte http://tartarus.org/~martin/PorterStemmer
reverse	Inverte a cadeia de caracteres de token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	Dobra os caracteres escandinavos åÅäæÄÆ->a e öÖøØ->o. Também discrimina o uso de vogais duplas aa, ae, ao, oe e oo, deixando apenas a primeira. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	Normaliza o uso dos caracteres escandinavos intercambiáveis. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	Cria combinações de tokens como um único token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	Um filtro que resulta em palavras usando um lematizador gerado por Bola de Neve. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	Normaliza a representação Unicode do texto Sorani. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	Filtro de lematização específico da linguagem. Consulte https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	Remove palavras irrelevantes de um fluxo de token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	Corta o espaço em branco à esquerda e à direita dos tokens. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	Trunca os termos para um comprimento específico. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	Filtra tokens com o mesmo texto do token anterior. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	Normaliza o texto do token para maiúsculas e minúsculas. Consulte https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	Divide palavras em sub palavras e executa transformações opcionais em grupos de sub palavras.

Compartilhar via

Indexes - Analyze

Parâmetros de URI

Cabeçalho da solicitação

Corpo da solicitação

Respostas

Exemplos

SearchServiceIndexAnalyze

Solicitação de exemplo

Resposta de exemplo

Definições

AnalyzedTokenInfo

AnalyzeRequest

AnalyzeResult

CharFilterName

ErrorAdditionalInfo

ErrorDetail

ErrorResponse

LexicalAnalyzerName

LexicalNormalizerName

LexicalTokenizerName

TokenFilterName