Indexes - Analyze

Referência

Serviço:: Search Service

Versão da API:: 2023-10-01-Preview

Mostra como um analisador divide o texto em tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-10-01-Preview

Parâmetros de URI

Nome	Em	Obrigatório	Tipo	Description
endpoint	path	True	string	A URL do ponto de extremidade do serviço de pesquisa.
indexName	path	True	string	O nome do índice para o qual testar um analisador.
api-version	query	True	string	Versão da API do cliente.

Cabeçalho da solicitação

Nome	Obrigatório	Tipo	Description
x-ms-client-request-id		string uuid	A ID de rastreamento enviada com a solicitação para ajudar na depuração.

Corpo da solicitação

Nome	Obrigatório	Tipo	Description
text	True	string	O texto a ser dividido em tokens.
analyzer		LexicalAnalyzerName	O nome do analisador a ser usado para interromper o texto fornecido.
charFilters		CharFilterName[]	Uma lista opcional de filtros de caracteres a serem usados ao quebrar o texto especificado.
normalizer		LexicalNormalizerName	O nome do normalizador a ser usado para normalizar o texto fornecido.
tokenFilters		TokenFilterName[]	Uma lista opcional de filtros de token a serem usados ao quebrar o texto fornecido.
tokenizer		LexicalTokenizerName	O nome do criador de token a ser usado para quebrar o texto fornecido.

Respostas

Nome	Tipo	Description
200 OK	AnalyzeResult
Other Status Codes	SearchError	Resposta de erro.

Exemplos

SearchServiceIndexAnalyze

Solicitação de exemplo

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-10-01-Preview

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Resposta de exemplo

Código de status:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definições

Nome	Description
AnalyzedTokenInfo	Informações sobre um token retornado por um analisador.
AnalyzeRequest	Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.
AnalyzeResult	O resultado de testar um analisador no texto.
CharFilterName	Define os nomes de todos os filtros de caracteres compatíveis com o mecanismo de pesquisa.
LexicalAnalyzerName	Define os nomes de todos os analisadores de texto compatíveis com o mecanismo de pesquisa.
LexicalNormalizerName	Define os nomes de todos os normalizadores de texto compatíveis com o mecanismo de pesquisa.
LexicalTokenizerName	Define os nomes de todos os tokenizers compatíveis com o mecanismo de pesquisa.
SearchError	Descreve uma condição de erro para a API.
TokenFilterName	Define os nomes de todos os filtros de token compatíveis com o mecanismo de pesquisa.

AnalyzedTokenInfo

Informações sobre um token retornado por um analisador.

Nome	Tipo	Description
endOffset	integer	O índice do último caractere do token no texto de entrada.
position	integer	A posição do token no texto de entrada em relação a outros tokens. O primeiro token no texto de entrada tem a posição 0, o próximo tem a posição 1 e assim por diante. Dependendo do analisador usado, alguns tokens podem ter a mesma posição, por exemplo, se forem sinônimos uns dos outros.
startOffset	integer	O índice do primeiro caractere do token no texto de entrada.
token	string	O token retornado pelo analisador.

AnalyzeRequest

Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.

Nome	Tipo	Description
analyzer	LexicalAnalyzerName	O nome do analisador a ser usado para interromper o texto fornecido.
charFilters	CharFilterName[]	Uma lista opcional de filtros de caracteres a serem usados ao quebrar o texto especificado.
normalizer	LexicalNormalizerName	O nome do normalizador a ser usado para normalizar o texto fornecido.
text	string	O texto a ser dividido em tokens.
tokenFilters	TokenFilterName[]	Uma lista opcional de filtros de token a serem usados ao quebrar o texto fornecido.
tokenizer	LexicalTokenizerName	O nome do tokenizer a ser usado para quebrar o texto fornecido.

AnalyzeResult

O resultado de testar um analisador no texto.

Nome	Tipo	Description
tokens	AnalyzedTokenInfo[]	A lista de tokens retornados pelo analisador especificado na solicitação.

CharFilterName

Define os nomes de todos os filtros de caracteres compatíveis com o mecanismo de pesquisa.

Nome	Tipo	Description
html_strip	string	Um filtro de caracteres que tenta remover constructos HTML. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto compatíveis com o mecanismo de pesquisa.

Nome	Tipo	Description
ar.lucene	string	Analisador Lucene para árabe.
ar.microsoft	string	Analisador da Microsoft para árabe.
bg.lucene	string	Analisador Lucene para búlgaro.
bg.microsoft	string	Analisador da Microsoft para búlgaro.
bn.microsoft	string	Analisador da Microsoft para Bangla.
ca.lucene	string	Analisador Lucene para catalão.
ca.microsoft	string	Analisador da Microsoft para catalão.
cs.lucene	string	Analisador Lucene para tcheco.
cs.microsoft	string	Analisador da Microsoft para Tcheco.
da.lucene	string	Analisador Lucene para dinamarquês.
da.microsoft	string	Analisador da Microsoft para dinamarquês.
de.lucene	string	Analisador Lucene para alemão.
de.microsoft	string	Analisador da Microsoft para alemão.
el.lucene	string	Analisador Lucene para grego.
el.microsoft	string	Analisador da Microsoft para grego.
en.lucene	string	Analisador Lucene para inglês.
en.microsoft	string	Analisador da Microsoft para inglês.
es.lucene	string	Analisador Lucene para espanhol.
es.microsoft	string	Analisador da Microsoft para espanhol.
et.microsoft	string	Analisador da Microsoft para estoniano.
eu.lucene	string	Analisador Lucene para Basco.
fa.lucene	string	Analisador Lucene para persa.
fi.lucene	string	Analisador Lucene para finlandês.
fi.microsoft	string	Analisador da Microsoft para finlandês.
fr.lucene	string	Analisador Lucene para francês.
fr.microsoft	string	Analisador da Microsoft para francês.
ga.lucene	string	Analisador Lucene para irlandês.
gl.lucene	string	Analisador Lucene para galego.
gu.microsoft	string	Analisador da Microsoft para Gujarati.
he.microsoft	string	Analisador da Microsoft para hebraico.
hi.lucene	string	Analisador Lucene para hindi.
hi.microsoft	string	Analisador da Microsoft para hindi.
hr.microsoft	string	Analisador da Microsoft para croata.
hu.lucene	string	Analisador Lucene para húngaro.
hu.microsoft	string	Analisador da Microsoft para húngaro.
hy.lucene	string	Analisador Lucene para armênio.
id.lucene	string	Analisador Lucene para indonésio.
id.microsoft	string	Analisador da Microsoft para Indonésio (Bahasa).
is.microsoft	string	Analisador da Microsoft para islandês.
it.lucene	string	Analisador Lucene para italiano.
it.microsoft	string	Analisador da Microsoft para italiano.
ja.lucene	string	Analisador Lucene para japonês.
ja.microsoft	string	Analisador da Microsoft para japonês.
keyword	string	Trata todo o conteúdo de um campo como um único token. Isso é útil para dados como códigos postais, IDs e alguns nomes de produtos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	string	Analisador da Microsoft para Kannada.
ko.lucene	string	Analisador Lucene para coreano.
ko.microsoft	string	Analisador da Microsoft para coreano.
lt.microsoft	string	Analisador da Microsoft para lituano.
lv.lucene	string	Analisador Lucene para letão.
lv.microsoft	string	Analisador da Microsoft para letão.
ml.microsoft	string	Analisador da Microsoft para Malayalam.
mr.microsoft	string	Analisador da Microsoft para Marathi.
ms.microsoft	string	Analisador da Microsoft para malaio (latino).
nb.microsoft	string	Analisador da Microsoft para norueguês (Bokmål).
nl.lucene	string	Analisador Lucene para holandês.
nl.microsoft	string	Analisador da Microsoft para holandês.
no.lucene	string	Analisador Lucene para norueguês.
pa.microsoft	string	Analisador da Microsoft para Punjabi.
pattern	string	Separa texto em termos de forma flexível por meio de um padrão de expressão regular. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	string	Analisador Lucene para polonês.
pl.microsoft	string	Analisador da Microsoft para polonês.
pt-BR.lucene	string	Analisador Lucene para Português (Brasil).
pt-BR.microsoft	string	Analisador da Microsoft para português (Brasil).
pt-PT.lucene	string	Analisador Lucene para Português (Portugal).
pt-PT.microsoft	string	Analisador da Microsoft para português (Portugal).
ro.lucene	string	Analisador Lucene para romeno.
ro.microsoft	string	Analisador da Microsoft para romeno.
ru.lucene	string	Analisador Lucene para russo.
ru.microsoft	string	Analisador da Microsoft para russo.
simple	string	Divide o texto em não letras e converte em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	string	Analisador da Microsoft para Eslovaco.
sl.microsoft	string	Analisador da Microsoft para esloveno.
sr-cyrillic.microsoft	string	Analisador da Microsoft para sérvio (cirílico).
sr-latin.microsoft	string	Analisador da Microsoft para sérvio (latino).
standard.lucene	string	Analisador Lucene padrão.
standardasciifolding.lucene	string	Analisador lucene de dobragem ASCII padrão. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	string	Divide o texto em não letras; Aplica os filtros de token de letras minúsculas e palavras irrelevantes. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	string	Analisador Lucene para sueco.
sv.microsoft	string	Analisador da Microsoft para sueco.
ta.microsoft	string	Analisador da Microsoft para Tâmil.
te.microsoft	string	Microsoft Analyzer para Telugu.
th.lucene	string	Analisador Lucene para tailandês.
th.microsoft	string	Analisador da Microsoft para tailandês.
tr.lucene	string	Analisador Lucene para turco.
tr.microsoft	string	Analisador da Microsoft para turco.
uk.microsoft	string	Analisador da Microsoft para ucraniano.
ur.microsoft	string	Analisador da Microsoft para Urdu.
vi.microsoft	string	Analisador da Microsoft para vietnamita.
whitespace	string	Um analisador que usa o criador de token whitespace. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	string	Analisador Lucene para chinês (simplificado).
zh-Hans.microsoft	string	Analisador da Microsoft para chinês (simplificado).
zh-Hant.lucene	string	Analisador Lucene para chinês (tradicional).
zh-Hant.microsoft	string	Analisador da Microsoft para chinês (tradicional).

LexicalNormalizerName

Define os nomes de todos os normalizadores de texto compatíveis com o mecanismo de pesquisa.

Nome	Tipo	Description
asciifolding	string	Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico" em seus equivalentes ASCII, se esses equivalentes existirem. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
elision	string	Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
lowercase	string	Normaliza o texto do token em minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
standard	string	Normalizador padrão, que consiste em minúsculas e asciifolding. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
uppercase	string	Normaliza o texto do token em maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Define os nomes de todos os tokenizers compatíveis com o mecanismo de pesquisa.

Nome	Tipo	Description
classic	string	Criador de tokens baseado em gramática adequado para processar a maioria dos documentos em idioma europeu. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	string	Tokeniza a entrada de uma borda em n-gramas dos tamanhos fornecidos. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	string	Emite a entrada inteira como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	string	Divide o texto em não letras. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	string	Divide o texto em não letras e converte em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	string	Divide o texto usando regras específicas de idioma e reduz palavras para seus formulários base.
microsoft_language_tokenizer	string	Divide o texto usando regras específicas de idioma.
nGram	string	Cria tokens de entrada em n-gramas de determinados tamanhos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	string	Criador de token para hierarquias de caminho. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	string	Criador de token que usa a correspondência de padrões regex para construir tokens distintos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	string	Analisador Lucene Padrão; Composto pelo tokenizer padrão, filtro em minúsculas e filtro de parada. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	string	Cria tokens de urls e emails como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	string	Divide o texto em espaços em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

SearchError

Descreve uma condição de erro para a API.

Nome	Tipo	Description
code	string	Um de um conjunto definido pelo servidor de códigos de erro.
details	SearchError[]	Uma matriz de detalhes sobre erros específicos que levaram a esse erro relatado.
message	string	Uma representação legível pelo homem do erro.

TokenFilterName

Define os nomes de todos os filtros de token compatíveis com o mecanismo de pesquisa.

Nome	Tipo	Description
apostrophe	string	Remove todos os caracteres após um apóstrofo (incluindo o próprio apóstrofo). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	string	Um filtro de token que aplica o normalizador em árabe para normalizar a ortografia. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	string	Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico" em seus equivalentes ASCII, se esses equivalentes existirem. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	string	Forma bigrams de termos CJK gerados a partir do tokenizador padrão. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	string	Normaliza as diferenças de largura CJK. Dobra as variantes ASCII de largura total nas variantes equivalentes do latim básico e katakana de meia largura no Kana equivalente. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	string	Remove possessivos em inglês e de acrônimos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	string	Construa bigramas para termos que ocorrem com frequência durante a indexação. Termos únicos ainda são indexados também, com bigramas sobrepostos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	string	Gera n-gramas dos tamanhos fornecidos a partir da frente ou da parte traseira de um token de entrada. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	string	Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	string	Normaliza caracteres alemães de acordo com a heurística do algoritmo de bola de neve alemão2. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	string	Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	string	Normaliza a representação Unicode do texto nos idiomas indianos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	string	Emite cada token de entrada duas vezes, uma vez como palavra-chave e uma vez como não palavra-chave. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	string	Um filtro kstem de alto desempenho para o inglês. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	string	Remove palavras muito longas ou muito curtas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	string	Limita o número de tokens durante a indexação. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	string	Normaliza o texto do token para letras minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	string	Gera n-gramas de determinados tamanhos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	string	Aplica a normalização para persa. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	string	Crie tokens para correspondências fonéticas. Veja https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	string	Usa o algoritmo de lematização Porter para transformar o fluxo de token. Veja http://tartarus.org/~martin/PorterStemmer
reverse	string	Inverte a cadeia de caracteres do token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	string	Dobra os caracteres escandinavos åÅäæÄÆ->a e öÖøØ->o. Também discrimina o uso de vogais duplas aa, ae, SOL, oe e oo, deixando apenas o primeiro deles. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	string	Normaliza o uso de caracteres escandinavos intercambiáveis. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	string	Cria combinações de tokens como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	string	Um filtro que deriva palavras usando um lematizador gerado por Bola de Neve. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	string	Normaliza a representação Unicode de texto Sorani. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	string	Filtro de lematização específico da linguagem. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	string	Remove palavras irrelevantes de um fluxo de tokens. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	string	Corta o espaço em branco à esquerda e à direita de uma cadeia de tokens. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	string	Trunca os termos para um comprimento específico. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	string	Filtra os tokens com o mesmo texto como o token anterior. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	string	Normaliza o texto do token para letras maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	string	Divide as palavras em subpalavras e realiza transformações opcionais em grupos de subpalavras.

Compartilhar via