Indexes - Analyze

Mostra como um analisador divide texto em tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

Parâmetros do URI

Name Em Necessário Tipo Description
endpoint
path True

string

O URL do ponto final do serviço de pesquisa.

indexName
path True

string

O nome do índice para o qual testar um analisador.

api-version
query True

string

Versão da API do Cliente.

Cabeçalho do Pedido

Name Necessário Tipo Description
x-ms-client-request-id

string

uuid

O ID de controlo enviado com o pedido para ajudar na depuração.

Corpo do Pedido

Name Necessário Tipo Description
text True

string

O texto a dividir em tokens.

analyzer

LexicalAnalyzerName

O nome do analisador a utilizar para quebrar o texto especificado. Se este parâmetro não for especificado, tem de especificar um tokenizer. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos.

charFilters

CharFilterName[]

Uma lista opcional de filtros de carateres a utilizar ao quebrar o texto especificado. Este parâmetro só pode ser definido ao utilizar o parâmetro de tokenizer.

tokenFilters

TokenFilterName[]

Uma lista opcional de filtros de tokens a utilizar ao quebrar o texto especificado. Este parâmetro só pode ser definido ao utilizar o parâmetro de tokenizer.

tokenizer

LexicalTokenizerName

O nome do tokenizer a utilizar para quebrar o texto especificado. Se este parâmetro não for especificado, tem de especificar um analisador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos.

Respostas

Name Tipo Description
200 OK

AnalyzeResult

Other Status Codes

SearchError

Resposta de erro.

Exemplos

SearchServiceIndexAnalyze

Sample Request

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Sample Response

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definições

Name Description
AnalyzedTokenInfo

Informações sobre um token devolvido por um analisador.

AnalyzeRequest

Especifica alguns componentes de texto e análise utilizados para dividir esse texto em tokens.

AnalyzeResult

O resultado do teste de um analisador em texto.

CharFilterName

Define os nomes de todos os filtros de carateres suportados pelo motor de busca.

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto suportados pelo motor de busca.

LexicalTokenizerName

Define os nomes de todos os tokenizers suportados pelo motor de busca.

SearchError

Descreve uma condição de erro para a API.

TokenFilterName

Define os nomes de todos os filtros de token suportados pelo motor de busca.

AnalyzedTokenInfo

Informações sobre um token devolvido por um analisador.

Name Tipo Description
endOffset

integer

O índice do último caráter do token no texto de entrada.

position

integer

A posição do token no texto de entrada relativamente a outros tokens. O primeiro token no texto de entrada tem a posição 0, o seguinte tem a posição 1, etc. Consoante o analisador utilizado, alguns tokens podem ter a mesma posição, por exemplo, se forem sinónimos uns dos outros.

startOffset

integer

O índice do primeiro caráter do token no texto de entrada.

token

string

O token devolvido pelo analisador.

AnalyzeRequest

Especifica alguns componentes de texto e análise utilizados para dividir esse texto em tokens.

Name Tipo Description
analyzer

LexicalAnalyzerName

O nome do analisador a utilizar para quebrar o texto especificado. Se este parâmetro não for especificado, tem de especificar um tokenizer. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos.

charFilters

CharFilterName[]

Uma lista opcional de filtros de carateres a utilizar ao quebrar o texto especificado. Este parâmetro só pode ser definido ao utilizar o parâmetro de tokenizer.

text

string

O texto a dividir em tokens.

tokenFilters

TokenFilterName[]

Uma lista opcional de filtros de tokens a utilizar ao quebrar o texto especificado. Este parâmetro só pode ser definido ao utilizar o parâmetro de tokenizer.

tokenizer

LexicalTokenizerName

O nome do tokenizer a utilizar para quebrar o texto especificado. Se este parâmetro não for especificado, tem de especificar um analisador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos.

AnalyzeResult

O resultado do teste de um analisador em texto.

Name Tipo Description
tokens

AnalyzedTokenInfo[]

A lista de tokens devolvidos pelo analisador especificado no pedido.

CharFilterName

Define os nomes de todos os filtros de carateres suportados pelo motor de busca.

Name Tipo Description
html_strip

string

Um filtro de carateres que tenta remover construções HTML. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto suportados pelo motor de busca.

Name Tipo Description
ar.lucene

string

Analisador lucene para árabe.

ar.microsoft

string

Analisador da Microsoft para árabe.

bg.lucene

string

Lucene analisador para búlgaro.

bg.microsoft

string

Analisador da Microsoft para búlgaro.

bn.microsoft

string

Analisador da Microsoft para Bangla.

ca.lucene

string

Lucene analyzer para catalão.

ca.microsoft

string

Analisador da Microsoft para catalão.

cs.lucene

string

Analisador lucene para checo.

cs.microsoft

string

Analisador da Microsoft para checo.

da.lucene

string

Lucene analyzer para dinamarquês.

da.microsoft

string

Analisador da Microsoft para dinamarquês.

de.lucene

string

Lucene analyzer para alemão.

de.microsoft

string

Analisador da Microsoft para alemão.

el.lucene

string

Lucene analyzer para grego.

el.microsoft

string

Analisador da Microsoft para grego.

en.lucene

string

Analisador lucene para inglês.

en.microsoft

string

Analisador da Microsoft para inglês.

es.lucene

string

Analisador lucene para espanhol.

es.microsoft

string

Analisador da Microsoft para espanhol.

et.microsoft

string

Analisador da Microsoft para estónio.

eu.lucene

string

Lucene analisador para basco.

fa.lucene

string

Lucene analyzer para persa.

fi.lucene

string

Lucene analyzer para finlandês.

fi.microsoft

string

Analisador da Microsoft para finlandês.

fr.lucene

string

Lucene analyzer para francês.

fr.microsoft

string

Analisador da Microsoft para francês.

ga.lucene

string

Lucene analyzer para irlandês.

gl.lucene

string

Lucene analyzer for Galician.

gu.microsoft

string

Analisador da Microsoft para Gujarati.

he.microsoft

string

Analisador da Microsoft para hebraico.

hi.lucene

string

Analisador lucene para Hindi.

hi.microsoft

string

Analisador da Microsoft para Hindi.

hr.microsoft

string

Analisador da Microsoft para croata.

hu.lucene

string

Lucene analyzer para húngaro.

hu.microsoft

string

Analisador da Microsoft para húngaro.

hy.lucene

string

Lucene analisador para arménio.

id.lucene

string

Analisador lucene para indonésio.

id.microsoft

string

Analisador da Microsoft para indonésio (Bahasa).

is.microsoft

string

Analisador da Microsoft para islandês.

it.lucene

string

Lucene analyzer para italiano.

it.microsoft

string

Analisador da Microsoft para italiano.

ja.lucene

string

Analisador lucene para japonês.

ja.microsoft

string

Analisador da Microsoft para japonês.

keyword

string

Trata todo o conteúdo de um campo como um único token. Isto é útil para dados como códigos postais, IDs e alguns nomes de produtos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Analisador da Microsoft para Kannada.

ko.lucene

string

Lucene analyzer para coreano.

ko.microsoft

string

Analisador da Microsoft para coreano.

lt.microsoft

string

Analisador da Microsoft para lituano.

lv.lucene

string

Lucene analyzer para letão.

lv.microsoft

string

Analisador da Microsoft para letão.

ml.microsoft

string

Analisador da Microsoft para Malayalam.

mr.microsoft

string

Analisador da Microsoft para Marathi.

ms.microsoft

string

Analisador da Microsoft para Malaio (Latim).

nb.microsoft

string

Analisador da Microsoft para norueguês (Bokmål).

nl.lucene

string

Lucene analyzer para neerlandês.

nl.microsoft

string

Analisador da Microsoft para neerlandês.

no.lucene

string

Lucene analyzer para norueguês.

pa.microsoft

string

Analisador da Microsoft para Punjabi.

pattern

string

Separa flexívelmente o texto em termos através de um padrão de expressão normal. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Lucene analyzer para polaco.

pl.microsoft

string

Analisador da Microsoft para polaco.

pt-BR.lucene

string

Analisador lucene para português (Brasil).

pt-BR.microsoft

string

Analisador da Microsoft para português (Brasil).

pt-PT.lucene

string

Analisador lucene para português (Portugal).

pt-PT.microsoft

string

Analisador da Microsoft para Português (Portugal).

ro.lucene

string

Lucene analyzer para romeno.

ro.microsoft

string

Analisador da Microsoft para romeno.

ru.lucene

string

Analisador lucene para russo.

ru.microsoft

string

Analisador da Microsoft para russo.

simple

string

Divide o texto em não letras e converte-o em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analisador da Microsoft para Eslovaco.

sl.microsoft

string

Analisador da Microsoft para esloveno.

sr-cyrillic.microsoft

string

Analisador da Microsoft para sérvio (cirílico).

sr-latin.microsoft

string

Analisador da Microsoft para sérvio (latim).

standard.lucene

string

Analisador Lucene Padrão.

standardasciifolding.lucene

string

Analisador Lucene de Dobragem ASCII Padrão. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Divide texto em não letras; Aplica os filtros de token de palavras-passe e minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Lucene analyzer para sueco.

sv.microsoft

string

Analisador da Microsoft para sueco.

ta.microsoft

string

Analisador da Microsoft para Tamil.

te.microsoft

string

Analisador da Microsoft para Telugu.

th.lucene

string

Lucene analyzer para tailandês.

th.microsoft

string

Analisador da Microsoft para tailandês.

tr.lucene

string

Lucene analyzer para turco.

tr.microsoft

string

Analisador da Microsoft para turco.

uk.microsoft

string

Analisador da Microsoft para ucraniano.

ur.microsoft

string

Analisador da Microsoft para Urdu.

vi.microsoft

string

Analisador da Microsoft para vietnamitas.

whitespace

string

Um analisador que utiliza o tokenizer de espaço em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analisador lucene para chinês (Simplificado).

zh-Hans.microsoft

string

Analisador da Microsoft para chinês (Simplificado).

zh-Hant.lucene

string

Analisador lucene para chinês (tradicional).

zh-Hant.microsoft

string

Analisador da Microsoft para chinês (tradicional).

LexicalTokenizerName

Define os nomes de todos os tokenizers suportados pelo motor de busca.

Name Tipo Description
classic

string

Tokenizador baseado em gramática adequado para processar a maioria dos documentos de idioma europeu. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokens the input from an edge into n-grams of the given size(s). Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Emite toda a entrada como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Divide o texto em não letras. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Divide o texto em não letras e converte-o em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Divide o texto através de regras específicas do idioma e reduz as palavras aos respetivos formulários base.

microsoft_language_tokenizer

string

Divide o texto através de regras específicas do idioma.

nGram

string

Tokens the input into n-grams of the given size(s). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer para hierarquias semelhantes a caminho. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer que utiliza a correspondência de padrões regex para construir tokens distintos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Analisador Lucene Padrão; Composto pelo tokenizador padrão, filtro em minúsculas e filtro de paragem. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokens urls e e-mails como um token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Divide o texto no espaço em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

SearchError

Descreve uma condição de erro para a API.

Name Tipo Description
code

string

Um dos conjuntos de códigos de erro definidos pelo servidor.

details

SearchError[]

Uma série de detalhes sobre erros específicos que levaram a este erro comunicado.

message

string

Uma representação legível por humanos do erro.

TokenFilterName

Define os nomes de todos os filtros de token suportados pelo motor de busca.

Name Tipo Description
apostrophe

string

Tira todos os carateres após um apóstrofo (incluindo o próprio apóstrofo). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Um filtro de token que aplica o normalizador árabe para normalizar a ortografia. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forma bigrams de termos CJK que são gerados a partir do tokenizer padrão. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normaliza as diferenças de largura do CJK. Dobra variantes ASCII de largura completa no latim básico equivalente e variantes katakana de meia largura no Kana equivalente. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Remove possessivos ingleses e pontos de acrónimos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Construa bigrams para termos que ocorrem frequentemente durante a indexação. Os termos únicos também são indexados, com bigrams sobrepostos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normaliza os personagens alemães de acordo com a heurística do algoritmo de bola de neve German2. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normaliza a representação Unicode do texto em idiomas indianos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Emite cada token de entrada duas vezes, uma vez como palavra-chave e uma vez como não palavra-chave. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Um filtro de kstem de elevado desempenho para inglês. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Remove palavras demasiado longas ou demasiado curtas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Limita o número de tokens durante a indexação. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normaliza o texto do token para minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm

nGram_v2

string

Gera n-gramas dos tamanhos especificados. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Aplica a normalização para persa. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Criar tokens para correspondências fonéticas. Veja https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Utiliza o algoritmo de detenção Porter para transformar o fluxo de tokens. Veja http://tartarus.org/~martin/PorterStemmer

reverse

string

Inverte a cadeia de token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Dobra carateres escandinavos åÅäæÄÆ-a> e öÖøØ-o>. Também discrimina o uso de vogais duplas aa, ae, ao, oe e oo, deixando apenas a primeira. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normaliza a utilização dos personagens escandinavos intercambiáveis. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Cria combinações de tokens como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Um filtro que escorria palavras utilizando um stemer gerado por bola de neve. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normaliza a representação Unicode do texto Sorani. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtro de decorrido específico da linguagem. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Remove palavras paradas de um fluxo de tokens. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Corta o espaço em branco à esquerda e à direita dos tokens. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Trunca os termos para um comprimento específico. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtra tokens com o mesmo texto que o token anterior. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normaliza o texto do token para maiúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Divide palavras em sub-palavras e efetua transformações opcionais em grupos de sub-palavras.