Indexes - Analyze

Muestra cómo un analizador divide el texto en tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

Parámetros de identificador URI

Nombre En Requerido Tipo Description
endpoint
path True

string

Dirección URL del punto de conexión del servicio de búsqueda.

indexName
path True

string

Nombre del índice para el que se va a probar un analizador.

api-version
query True

string

Versión de api de cliente.

Encabezado de la solicitud

Nombre Requerido Tipo Description
x-ms-client-request-id

string

uuid

Identificador de seguimiento enviado con la solicitud para ayudar con la depuración.

Cuerpo de la solicitud

Nombre Requerido Tipo Description
text True

string

Texto que se va a dividir en tokens.

analyzer

LexicalAnalyzerName

Nombre del analizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un tokenizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

charFilters

CharFilterName[]

Lista opcional de filtros de caracteres que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.

tokenFilters

TokenFilterName[]

Lista opcional de filtros de token que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.

tokenizer

LexicalTokenizerName

Nombre del tokenizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un analizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

Respuestas

Nombre Tipo Description
200 OK

AnalyzeResult

Other Status Codes

SearchError

Respuesta de error.

Ejemplos

SearchServiceIndexAnalyze

Sample Request

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Sample Response

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definiciones

Nombre Description
AnalyzedTokenInfo

Información sobre un token devuelto por un analizador.

AnalyzeRequest

Especifica algunos componentes de texto y análisis que se usan para dividir ese texto en tokens.

AnalyzeResult

Resultado de la prueba de un analizador en texto.

CharFilterName

Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.

LexicalAnalyzerName

Define los nombres de todos los analizadores de texto admitidos por el motor de búsqueda.

LexicalTokenizerName

Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.

SearchError

Describe una condición de error para la API.

TokenFilterName

Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.

AnalyzedTokenInfo

Información sobre un token devuelto por un analizador.

Nombre Tipo Description
endOffset

integer

Índice del último carácter del token en el texto de entrada.

position

integer

Posición del token en el texto de entrada en relación con otros tokens. El primer token del texto de entrada tiene la posición 0, la siguiente tiene la posición 1, etc. Dependiendo del analizador usado, algunos tokens podrían tener la misma posición, por ejemplo, si son sinónimos entre sí.

startOffset

integer

Índice del primer carácter del token en el texto de entrada.

token

string

Token devuelto por el analizador.

AnalyzeRequest

Especifica algunos componentes de texto y análisis que se usan para dividir ese texto en tokens.

Nombre Tipo Description
analyzer

LexicalAnalyzerName

Nombre del analizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un tokenizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

charFilters

CharFilterName[]

Lista opcional de filtros de caracteres que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.

text

string

Texto que se va a dividir en tokens.

tokenFilters

TokenFilterName[]

Lista opcional de filtros de token que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.

tokenizer

LexicalTokenizerName

Nombre del tokenizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un analizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

AnalyzeResult

Resultado de la prueba de un analizador en texto.

Nombre Tipo Description
tokens

AnalyzedTokenInfo[]

Lista de tokens devueltos por el analizador especificado en la solicitud.

CharFilterName

Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.

Nombre Tipo Description
html_strip

string

Filtro de caracteres que intenta quitar construcciones HTML. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html.

LexicalAnalyzerName

Define los nombres de todos los analizadores de texto admitidos por el motor de búsqueda.

Nombre Tipo Description
ar.lucene

string

Analizador de Lucene para árabe.

ar.microsoft

string

Analizador de Microsoft para árabe.

bg.lucene

string

Analizador de Lucene para búlgaro.

bg.microsoft

string

Analizador de Microsoft para búlgaro.

bn.microsoft

string

Analizador de Microsoft para Bangla.

ca.lucene

string

Analizador de Lucene para catalán.

ca.microsoft

string

Analizador de Microsoft para catalán.

cs.lucene

string

Analizador de Lucene para Checo.

cs.microsoft

string

Analizador de Microsoft para Checo.

da.lucene

string

Analizador de Lucene para danés.

da.microsoft

string

Analizador de Microsoft para danés.

de.lucene

string

Analizador de Lucene para alemán.

de.microsoft

string

Analizador de Microsoft para alemán.

el.lucene

string

Analizador de Lucene para griego.

el.microsoft

string

Analizador de Microsoft para griego.

en.lucene

string

Analizador de Lucene para inglés.

en.microsoft

string

Analizador de Microsoft para inglés.

es.lucene

string

Analizador de Lucene para español.

es.microsoft

string

Analizador de Microsoft para español.

et.microsoft

string

Analizador de Microsoft para Estonio.

eu.lucene

string

Analizador de Lucene para Euskera.

fa.lucene

string

Analizador de Lucene para persa.

fi.lucene

string

Analizador de Lucene para finés.

fi.microsoft

string

Analizador de Microsoft para Finlandés.

fr.lucene

string

Analizador de Lucene para francés.

fr.microsoft

string

Analizador de Microsoft para francés.

ga.lucene

string

Analizador de Lucene para irlandés.

gl.lucene

string

Analizador de Lucene para Gallega.

gu.microsoft

string

Analizador de Microsoft para Gujarati.

he.microsoft

string

Analizador de Microsoft para hebreo.

hi.lucene

string

Analizador de Lucene para hindi.

hi.microsoft

string

Analizador de Microsoft para hindi.

hr.microsoft

string

Analizador de Microsoft para croata.

hu.lucene

string

Analizador de Lucene para húngaro.

hu.microsoft

string

Analizador de Microsoft para húngaro.

hy.lucene

string

Analizador de Lucene para Armenio.

id.lucene

string

Analizador de Lucene para Indonesia.

id.microsoft

string

Analizador de Microsoft para Indonesia (Bahasa).

is.microsoft

string

Analizador de Microsoft para Islandés.

it.lucene

string

Analizador de Lucene para italiano.

it.microsoft

string

Analizador de Microsoft para italiano.

ja.lucene

string

Analizador de Lucene para japonés.

ja.microsoft

string

Analizador de Microsoft para japonés.

keyword

string

Trata todo el contenido de un campo como un solo token. Esto es útil para los datos tipo código postal, identificador y algunos nombres de producto. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html.

kn.microsoft

string

Analizador de Microsoft para Kannada.

ko.lucene

string

Analizador de Lucene para coreano.

ko.microsoft

string

Analizador de Microsoft para coreano.

lt.microsoft

string

Analizador de Microsoft para Lituano.

lv.lucene

string

Analizador de Lucene para Letón.

lv.microsoft

string

Analizador de Microsoft para Letón.

ml.microsoft

string

Analizador de Microsoft para Malayalam.

mr.microsoft

string

Analizador de Microsoft para Marathi.

ms.microsoft

string

Analizador de Microsoft para malayo (latino).

nb.microsoft

string

Analizador de Microsoft para noruego (Bokmål).

nl.lucene

string

Analizador de Lucene para neerlandés.

nl.microsoft

string

Analizador de Microsoft para neerlandés.

no.lucene

string

Analizador de Lucene para noruego.

pa.microsoft

string

Analizador de Microsoft para Punjabi.

pattern

string

Separa el texto de manera flexible en términos a través de un patrón de expresión regular. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html.

pl.lucene

string

Analizador de Lucene para polaco.

pl.microsoft

string

Analizador de Microsoft para polaco.

pt-BR.lucene

string

Analizador de Lucene para portugués (Brasil).

pt-BR.microsoft

string

Analizador de Microsoft para portugués (Brasil).

pt-PT.lucene

string

Analizador de Lucene para portugués (Portugal).

pt-PT.microsoft

string

Analizador de Microsoft para portugués (Portugal).

ro.lucene

string

Analizador de Lucene para rumano.

ro.microsoft

string

Analizador de Microsoft para rumano.

ru.lucene

string

Analizador de Lucene para ruso.

ru.microsoft

string

Analizador de Microsoft para ruso.

simple

string

Divide el texto por donde no hay letras y lo convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html.

sk.microsoft

string

Analizador de Microsoft para eslovaco.

sl.microsoft

string

Analizador de Microsoft para Eslovenia.

sr-cyrillic.microsoft

string

Analizador de Microsoft para serbio (cirílico).

sr-latin.microsoft

string

Analizador de Microsoft para serbio (latino).

standard.lucene

string

Analizador estándar de Lucene.

standardasciifolding.lucene

string

Analizador de Lucene plegado ASCII estándar. Consulta https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers.

stop

string

Divide el texto en letras no letras; Aplica los filtros de token en minúsculas y palabra irrelevantes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html.

sv.lucene

string

Analizador de Lucene para sueco.

sv.microsoft

string

Analizador de Microsoft para sueco.

ta.microsoft

string

Analizador de Microsoft para Tamil.

te.microsoft

string

Analizador de Microsoft para Telugu.

th.lucene

string

Analizador de Lucene para tailandés.

th.microsoft

string

Analizador de Microsoft para tailandés.

tr.lucene

string

Analizador de Lucene para turco.

tr.microsoft

string

Analizador de Microsoft para turco.

uk.microsoft

string

Analizador de Microsoft para ucraniano.

ur.microsoft

string

Analizador de Microsoft para Urdu.

vi.microsoft

string

Analizador de Microsoft para vietnamita.

whitespace

string

Un analizador que usa el tokenizador whitespace. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html.

zh-Hans.lucene

string

Analizador de Lucene para chino (simplificado).

zh-Hans.microsoft

string

Analizador de Microsoft para chino (simplificado).

zh-Hant.lucene

string

Analizador de Lucene para chino (tradicional).

zh-Hant.microsoft

string

Analizador de Microsoft para chino (tradicional).

LexicalTokenizerName

Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.

Nombre Tipo Description
classic

string

Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.

edgeNGram

string

Tokeniza la entrada de un borde en n-gramas de los tamaños especificados. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.

keyword_v2

string

Emite la entrada completa como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.

letter

string

Divide el texto por donde no hay letras. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.

lowercase

string

Divide el texto por donde no hay letras y lo convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.

microsoft_language_stemming_tokenizer

string

Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base.

microsoft_language_tokenizer

string

Divide el texto mediante reglas específicas del idioma.

nGram

string

Tokeniza la entrada en n-gramas de tamaños dados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.

path_hierarchy_v2

string

Tokenizador para las jerarquías parecidas a rutas de acceso. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.

pattern

string

Tokenizador que usa la coincidencia de patrones regex para construir tokens distintos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.

standard_v2

string

Analizador estándar de Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.

uax_url_email

string

Tokeniza las direcciones URL y los correos electrónicos como un token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.

whitespace

string

Divide el texto por los espacios en blanco. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

SearchError

Describe una condición de error para la API.

Nombre Tipo Description
code

string

Uno de los conjuntos de códigos de error definidos por el servidor.

details

SearchError[]

Matriz de detalles sobre errores específicos que llevaron a este error notificado.

message

string

Representación legible del error.

TokenFilterName

Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.

Nombre Tipo Description
apostrophe

string

Elimina todos los caracteres después de un apóstrofo (incluido el propio apóstrofo). Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.

arabic_normalization

string

Un filtro de token que aplica el normalizador de árabe para normalizar la ortografía. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.

asciifolding

string

Convierte caracteres alfabéticos, numéricos y simbólicos Unicode que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Básico latino") en sus equivalentes ASCII, si existen dichos equivalentes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

cjk_bigram

string

Forma bigrams de términos de CJK que se generan a partir del tokenizador estándar. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.

cjk_width

string

Normaliza las diferencias de ancho de CJK. Dobla las variantes ASCII fullwidth en el equivalente latino básico y las variantes katakana de ancho medio en el kana equivalente. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.

classic

string

Quita los posesivos en inglés y los puntos de los acrónimos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.

common_grams

string

Construye bigramas para términos que se repiten con frecuencia durante la indexación. Los términos individuales también se indexan, con los bigramas superpuestos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.

edgeNGram_v2

string

Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.

elision

string

Quita las elisiones. Por ejemplo, "l'avion" (el plano) se convertirá en "avion" (plano). Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

german_normalization

string

Normaliza los caracteres alemanes según la heurística del algoritmo de bola de nieve alemán2. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.

hindi_normalization

string

Normaliza el texto en hindi para quitar algunas diferencias en las variaciones ortográficas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.

indic_normalization

string

Normaliza la representación Unicode de texto en las lenguas hindúes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.

keyword_repeat

string

Emite cada token entrante dos veces, una como palabra clave y una vez como no palabra clave. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.

kstem

string

Un filtro kstem de alto rendimiento para inglés. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.

length

string

Quita las palabras que son demasiado largas o demasiado cortas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.

limit

string

Limita el número de tokens durante la indexación. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.

lowercase

string

Normaliza el texto de token a minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm.

nGram_v2

string

Genera n-gramas de los tamaños dados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.

persian_normalization

string

Aplica la normalización para persa. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.

phonetic

string

Crea tokens para coincidencias fonéticas. Consulta https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.

porter_stem

string

Usa el algoritmo de lematización de Porter para transformar el flujo de tokens. Consulta http://tartarus.org/~martin/PorterStemmer.

reverse

string

Invierte la cadena de token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

scandinavian_folding

string

Pliega los caracteres escandinavos åÅäæÄÆ->a y öÖøØ->o. También discrimina el uso de las vocales dobles aa, ae, ao, oe y oo, dejando solo la primera de ellas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.

scandinavian_normalization

string

Normaliza el uso de los caracteres de escandinavo intercambiables. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.

shingle

string

Crea combinaciones de tokens como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.

snowball

string

Filtro que deriva las palabras mediante un lematizador generado por Snowball. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.

sorani_normalization

string

Normaliza la representación de Unicode de texto del idioma sorani. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.

stemmer

string

Filtro de lematización específico del idioma. Consulta https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.

stopwords

string

Quita las palabras irrelevantes de una secuencia de tokens. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.

trim

string

Recorta el espacio en blanco inicial y final de los tokens. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.

truncate

string

Trunca los términos a una longitud específica. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.

unique

string

Filtra los tokens con el mismo texto que el token anterior. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.

uppercase

string

Normaliza el texto de token a mayúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

word_delimiter

string

Divide palabras en subpalabras y realiza transformaciones opcionales en los grupos de subpalabras.