Indexes - Analyze

Referencia

Servicio:: Search Service

Versión de la API:: 2023-11-01

Muestra cómo un analizador divide el texto en tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

Parámetros de identificador URI

Nombre	En	Requerido	Tipo	Description
endpoint	path	True	string	Dirección URL del punto de conexión del servicio de búsqueda.
indexName	path	True	string	Nombre del índice para el que se va a probar un analizador.
api-version	query	True	string	Versión de api de cliente.

Encabezado de la solicitud

Nombre	Requerido	Tipo	Description
x-ms-client-request-id		string uuid	Identificador de seguimiento enviado con la solicitud para ayudar con la depuración.

Cuerpo de la solicitud

Nombre	Requerido	Tipo	Description
text	True	string	Texto que se va a dividir en tokens.
analyzer		LexicalAnalyzerName	Nombre del analizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un tokenizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.
charFilters		CharFilterName[]	Lista opcional de filtros de caracteres que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.
tokenFilters		TokenFilterName[]	Lista opcional de filtros de token que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.
tokenizer		LexicalTokenizerName	Nombre del tokenizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un analizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

Respuestas

Nombre	Tipo	Description
200 OK	AnalyzeResult
Other Status Codes	SearchError	Respuesta de error.

Ejemplos

SearchServiceIndexAnalyze

Solicitud de ejemplo

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Respuesta de muestra

status code:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definiciones

Nombre	Description
AnalyzedTokenInfo	Información sobre un token devuelto por un analizador.
AnalyzeRequest	Especifica algunos componentes de texto y análisis que se usan para dividir ese texto en tokens.
AnalyzeResult	Resultado de la prueba de un analizador en texto.
CharFilterName	Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.
LexicalAnalyzerName	Define los nombres de todos los analizadores de texto admitidos por el motor de búsqueda.
LexicalTokenizerName	Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.
SearchError	Describe una condición de error para la API.
TokenFilterName	Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.

AnalyzedTokenInfo

Información sobre un token devuelto por un analizador.

Nombre	Tipo	Description
endOffset	integer	Índice del último carácter del token en el texto de entrada.
position	integer	Posición del token en el texto de entrada en relación con otros tokens. El primer token del texto de entrada tiene la posición 0, la siguiente tiene la posición 1, etc. Dependiendo del analizador usado, algunos tokens podrían tener la misma posición, por ejemplo, si son sinónimos entre sí.
startOffset	integer	Índice del primer carácter del token en el texto de entrada.
token	string	Token devuelto por el analizador.

AnalyzeRequest

Especifica algunos componentes de texto y análisis que se usan para dividir ese texto en tokens.

Nombre	Tipo	Description
analyzer	LexicalAnalyzerName	Nombre del analizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un tokenizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.
charFilters	CharFilterName[]	Lista opcional de filtros de caracteres que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.
text	string	Texto que se va a dividir en tokens.
tokenFilters	TokenFilterName[]	Lista opcional de filtros de token que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.
tokenizer	LexicalTokenizerName	Nombre del tokenizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un analizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

AnalyzeResult

Resultado de la prueba de un analizador en texto.

Nombre	Tipo	Description
tokens	AnalyzedTokenInfo[]	Lista de tokens devueltos por el analizador especificado en la solicitud.

CharFilterName

Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.

Nombre	Tipo	Description
html_strip	string	Filtro de caracteres que intenta quitar construcciones HTML. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html.

LexicalAnalyzerName

Define los nombres de todos los analizadores de texto admitidos por el motor de búsqueda.

Nombre	Tipo	Description
ar.lucene	string	Analizador de Lucene para árabe.
ar.microsoft	string	Analizador de Microsoft para árabe.
bg.lucene	string	Analizador de Lucene para búlgaro.
bg.microsoft	string	Analizador de Microsoft para búlgaro.
bn.microsoft	string	Analizador de Microsoft para Bangla.
ca.lucene	string	Analizador de Lucene para catalán.
ca.microsoft	string	Analizador de Microsoft para catalán.
cs.lucene	string	Analizador de Lucene para Checo.
cs.microsoft	string	Analizador de Microsoft para Checo.
da.lucene	string	Analizador de Lucene para danés.
da.microsoft	string	Analizador de Microsoft para danés.
de.lucene	string	Analizador de Lucene para alemán.
de.microsoft	string	Analizador de Microsoft para alemán.
el.lucene	string	Analizador de Lucene para griego.
el.microsoft	string	Analizador de Microsoft para griego.
en.lucene	string	Analizador de Lucene para inglés.
en.microsoft	string	Analizador de Microsoft para inglés.
es.lucene	string	Analizador de Lucene para español.
es.microsoft	string	Analizador de Microsoft para español.
et.microsoft	string	Analizador de Microsoft para Estonio.
eu.lucene	string	Analizador de Lucene para Euskera.
fa.lucene	string	Analizador de Lucene para persa.
fi.lucene	string	Analizador de Lucene para finés.
fi.microsoft	string	Analizador de Microsoft para Finlandés.
fr.lucene	string	Analizador de Lucene para francés.
fr.microsoft	string	Analizador de Microsoft para francés.
ga.lucene	string	Analizador de Lucene para irlandés.
gl.lucene	string	Analizador de Lucene para Gallega.
gu.microsoft	string	Analizador de Microsoft para Gujarati.
he.microsoft	string	Analizador de Microsoft para hebreo.
hi.lucene	string	Analizador de Lucene para hindi.
hi.microsoft	string	Analizador de Microsoft para hindi.
hr.microsoft	string	Analizador de Microsoft para croata.
hu.lucene	string	Analizador de Lucene para húngaro.
hu.microsoft	string	Analizador de Microsoft para húngaro.
hy.lucene	string	Analizador de Lucene para Armenio.
id.lucene	string	Analizador de Lucene para Indonesia.
id.microsoft	string	Analizador de Microsoft para Indonesia (Bahasa).
is.microsoft	string	Analizador de Microsoft para Islandés.
it.lucene	string	Analizador de Lucene para italiano.
it.microsoft	string	Analizador de Microsoft para italiano.
ja.lucene	string	Analizador de Lucene para japonés.
ja.microsoft	string	Analizador de Microsoft para japonés.
keyword	string	Trata todo el contenido de un campo como un solo token. Esto es útil para los datos tipo código postal, identificador y algunos nombres de producto. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html.
kn.microsoft	string	Analizador de Microsoft para Kannada.
ko.lucene	string	Analizador de Lucene para coreano.
ko.microsoft	string	Analizador de Microsoft para coreano.
lt.microsoft	string	Analizador de Microsoft para Lituano.
lv.lucene	string	Analizador de Lucene para Letón.
lv.microsoft	string	Analizador de Microsoft para Letón.
ml.microsoft	string	Analizador de Microsoft para Malayalam.
mr.microsoft	string	Analizador de Microsoft para Marathi.
ms.microsoft	string	Analizador de Microsoft para malayo (latino).
nb.microsoft	string	Analizador de Microsoft para noruego (Bokmål).
nl.lucene	string	Analizador de Lucene para neerlandés.
nl.microsoft	string	Analizador de Microsoft para neerlandés.
no.lucene	string	Analizador de Lucene para noruego.
pa.microsoft	string	Analizador de Microsoft para Punjabi.
pattern	string	Separa el texto de manera flexible en términos a través de un patrón de expresión regular. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html.
pl.lucene	string	Analizador de Lucene para polaco.
pl.microsoft	string	Analizador de Microsoft para polaco.
pt-BR.lucene	string	Analizador de Lucene para portugués (Brasil).
pt-BR.microsoft	string	Analizador de Microsoft para portugués (Brasil).
pt-PT.lucene	string	Analizador de Lucene para portugués (Portugal).
pt-PT.microsoft	string	Analizador de Microsoft para portugués (Portugal).
ro.lucene	string	Analizador de Lucene para rumano.
ro.microsoft	string	Analizador de Microsoft para rumano.
ru.lucene	string	Analizador de Lucene para ruso.
ru.microsoft	string	Analizador de Microsoft para ruso.
simple	string	Divide el texto por donde no hay letras y lo convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html.
sk.microsoft	string	Analizador de Microsoft para eslovaco.
sl.microsoft	string	Analizador de Microsoft para Eslovenia.
sr-cyrillic.microsoft	string	Analizador de Microsoft para serbio (cirílico).
sr-latin.microsoft	string	Analizador de Microsoft para serbio (latino).
standard.lucene	string	Analizador estándar de Lucene.
standardasciifolding.lucene	string	Analizador de Lucene plegado ASCII estándar. Consulta https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers.
stop	string	Divide el texto en letras no letras; Aplica los filtros de token en minúsculas y palabra irrelevantes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html.
sv.lucene	string	Analizador de Lucene para sueco.
sv.microsoft	string	Analizador de Microsoft para sueco.
ta.microsoft	string	Analizador de Microsoft para Tamil.
te.microsoft	string	Analizador de Microsoft para Telugu.
th.lucene	string	Analizador de Lucene para tailandés.
th.microsoft	string	Analizador de Microsoft para tailandés.
tr.lucene	string	Analizador de Lucene para turco.
tr.microsoft	string	Analizador de Microsoft para turco.
uk.microsoft	string	Analizador de Microsoft para ucraniano.
ur.microsoft	string	Analizador de Microsoft para Urdu.
vi.microsoft	string	Analizador de Microsoft para vietnamita.
whitespace	string	Un analizador que usa el tokenizador whitespace. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html.
zh-Hans.lucene	string	Analizador de Lucene para chino (simplificado).
zh-Hans.microsoft	string	Analizador de Microsoft para chino (simplificado).
zh-Hant.lucene	string	Analizador de Lucene para chino (tradicional).
zh-Hant.microsoft	string	Analizador de Microsoft para chino (tradicional).

LexicalTokenizerName

Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.

Nombre	Tipo	Description
classic	string	Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.
edgeNGram	string	Tokeniza la entrada de un borde en n-gramas de los tamaños especificados. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.
keyword_v2	string	Emite la entrada completa como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.
letter	string	Divide el texto por donde no hay letras. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.
lowercase	string	Divide el texto por donde no hay letras y lo convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.
microsoft_language_stemming_tokenizer	string	Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base.
microsoft_language_tokenizer	string	Divide el texto mediante reglas específicas del idioma.
nGram	string	Tokeniza la entrada en n-gramas de tamaños dados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.
path_hierarchy_v2	string	Tokenizador para las jerarquías parecidas a rutas de acceso. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.
pattern	string	Tokenizador que usa la coincidencia de patrones regex para construir tokens distintos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.
standard_v2	string	Analizador estándar de Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.
uax_url_email	string	Tokeniza las direcciones URL y los correos electrónicos como un token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.
whitespace	string	Divide el texto por los espacios en blanco. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

SearchError

Describe una condición de error para la API.

Nombre	Tipo	Description
code	string	Uno de los conjuntos de códigos de error definidos por el servidor.
details	SearchError[]	Matriz de detalles sobre errores específicos que llevaron a este error notificado.
message	string	Representación legible del error.

TokenFilterName

Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.

Nombre	Tipo	Description
apostrophe	string	Elimina todos los caracteres después de un apóstrofo (incluido el propio apóstrofo). Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.
arabic_normalization	string	Un filtro de token que aplica el normalizador de árabe para normalizar la ortografía. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.
asciifolding	string	Convierte caracteres alfabéticos, numéricos y simbólicos Unicode que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Básico latino") en sus equivalentes ASCII, si existen dichos equivalentes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.
cjk_bigram	string	Forma bigrams de términos de CJK que se generan a partir del tokenizador estándar. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.
cjk_width	string	Normaliza las diferencias de ancho de CJK. Dobla las variantes ASCII fullwidth en el equivalente latino básico y las variantes katakana de ancho medio en el kana equivalente. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.
classic	string	Quita los posesivos en inglés y los puntos de los acrónimos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.
common_grams	string	Construye bigramas para términos que se repiten con frecuencia durante la indexación. Los términos individuales también se indexan, con los bigramas superpuestos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.
edgeNGram_v2	string	Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.
elision	string	Quita las elisiones. Por ejemplo, "l'avion" (el plano) se convertirá en "avion" (plano). Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.
german_normalization	string	Normaliza los caracteres alemanes según la heurística del algoritmo de bola de nieve alemán2. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.
hindi_normalization	string	Normaliza el texto en hindi para quitar algunas diferencias en las variaciones ortográficas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.
indic_normalization	string	Normaliza la representación Unicode de texto en las lenguas hindúes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.
keyword_repeat	string	Emite cada token entrante dos veces, una como palabra clave y una vez como no palabra clave. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.
kstem	string	Un filtro kstem de alto rendimiento para inglés. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.
length	string	Quita las palabras que son demasiado largas o demasiado cortas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.
limit	string	Limita el número de tokens durante la indexación. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.
lowercase	string	Normaliza el texto de token a minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm.
nGram_v2	string	Genera n-gramas de los tamaños dados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.
persian_normalization	string	Aplica la normalización para persa. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.
phonetic	string	Crea tokens para coincidencias fonéticas. Consulta https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.
porter_stem	string	Usa el algoritmo de lematización de Porter para transformar el flujo de tokens. Consulta http://tartarus.org/~martin/PorterStemmer.
reverse	string	Invierte la cadena de token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.
scandinavian_folding	string	Pliega los caracteres escandinavos åÅäæÄÆ->a y öÖøØ->o. También discrimina el uso de las vocales dobles aa, ae, ao, oe y oo, dejando solo la primera de ellas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.
scandinavian_normalization	string	Normaliza el uso de los caracteres de escandinavo intercambiables. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.
shingle	string	Crea combinaciones de tokens como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.
snowball	string	Filtro que deriva las palabras mediante un lematizador generado por Snowball. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.
sorani_normalization	string	Normaliza la representación de Unicode de texto del idioma sorani. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.
stemmer	string	Filtro de lematización específico del idioma. Consulta https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.
stopwords	string	Quita las palabras irrelevantes de una secuencia de tokens. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.
trim	string	Recorta el espacio en blanco inicial y final de los tokens. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.
truncate	string	Trunca los términos a una longitud específica. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.
unique	string	Filtra los tokens con el mismo texto que el token anterior. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.
uppercase	string	Normaliza el texto de token a mayúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.
word_delimiter	string	Divide palabras en subpalabras y realiza transformaciones opcionales en los grupos de subpalabras.

Compartir a través de