Indexes - Analyze
Muestra cómo un analizador divide el texto en tokens.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01
Parámetros de identificador URI
Nombre | En | Requerido | Tipo | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
Dirección URL del punto de conexión del servicio de búsqueda. |
index
|
path | True |
string |
Nombre del índice para el que se va a probar un analizador. |
api-version
|
query | True |
string |
Versión de api de cliente. |
Encabezado de la solicitud
Nombre | Requerido | Tipo | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Identificador de seguimiento enviado con la solicitud para ayudar con la depuración. |
Cuerpo de la solicitud
Nombre | Requerido | Tipo | Description |
---|---|---|---|
text | True |
string |
Texto que se va a dividir en tokens. |
analyzer |
Nombre del analizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un tokenizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes. |
||
charFilters |
Lista opcional de filtros de caracteres que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer. |
||
tokenFilters |
Lista opcional de filtros de token que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer. |
||
tokenizer |
Nombre del tokenizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un analizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes. |
Respuestas
Nombre | Tipo | Description |
---|---|---|
200 OK | ||
Other Status Codes |
Respuesta de error. |
Ejemplos
SearchServiceIndexAnalyze
Solicitud de ejemplo
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Respuesta de muestra
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definiciones
Nombre | Description |
---|---|
Analyzed |
Información sobre un token devuelto por un analizador. |
Analyze |
Especifica algunos componentes de texto y análisis que se usan para dividir ese texto en tokens. |
Analyze |
Resultado de la prueba de un analizador en texto. |
Char |
Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda. |
Lexical |
Define los nombres de todos los analizadores de texto admitidos por el motor de búsqueda. |
Lexical |
Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda. |
Search |
Describe una condición de error para la API. |
Token |
Define los nombres de todos los filtros de token admitidos por el motor de búsqueda. |
AnalyzedTokenInfo
Información sobre un token devuelto por un analizador.
Nombre | Tipo | Description |
---|---|---|
endOffset |
integer |
Índice del último carácter del token en el texto de entrada. |
position |
integer |
Posición del token en el texto de entrada en relación con otros tokens. El primer token del texto de entrada tiene la posición 0, la siguiente tiene la posición 1, etc. Dependiendo del analizador usado, algunos tokens podrían tener la misma posición, por ejemplo, si son sinónimos entre sí. |
startOffset |
integer |
Índice del primer carácter del token en el texto de entrada. |
token |
string |
Token devuelto por el analizador. |
AnalyzeRequest
Especifica algunos componentes de texto y análisis que se usan para dividir ese texto en tokens.
Nombre | Tipo | Description |
---|---|---|
analyzer |
Nombre del analizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un tokenizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes. |
|
charFilters |
Lista opcional de filtros de caracteres que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer. |
|
text |
string |
Texto que se va a dividir en tokens. |
tokenFilters |
Lista opcional de filtros de token que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer. |
|
tokenizer |
Nombre del tokenizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un analizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes. |
AnalyzeResult
Resultado de la prueba de un analizador en texto.
Nombre | Tipo | Description |
---|---|---|
tokens |
Lista de tokens devueltos por el analizador especificado en la solicitud. |
CharFilterName
Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.
Nombre | Tipo | Description |
---|---|---|
html_strip |
string |
Filtro de caracteres que intenta quitar construcciones HTML. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html. |
LexicalAnalyzerName
Define los nombres de todos los analizadores de texto admitidos por el motor de búsqueda.
Nombre | Tipo | Description |
---|---|---|
ar.lucene |
string |
Analizador de Lucene para árabe. |
ar.microsoft |
string |
Analizador de Microsoft para árabe. |
bg.lucene |
string |
Analizador de Lucene para búlgaro. |
bg.microsoft |
string |
Analizador de Microsoft para búlgaro. |
bn.microsoft |
string |
Analizador de Microsoft para Bangla. |
ca.lucene |
string |
Analizador de Lucene para catalán. |
ca.microsoft |
string |
Analizador de Microsoft para catalán. |
cs.lucene |
string |
Analizador de Lucene para Checo. |
cs.microsoft |
string |
Analizador de Microsoft para Checo. |
da.lucene |
string |
Analizador de Lucene para danés. |
da.microsoft |
string |
Analizador de Microsoft para danés. |
de.lucene |
string |
Analizador de Lucene para alemán. |
de.microsoft |
string |
Analizador de Microsoft para alemán. |
el.lucene |
string |
Analizador de Lucene para griego. |
el.microsoft |
string |
Analizador de Microsoft para griego. |
en.lucene |
string |
Analizador de Lucene para inglés. |
en.microsoft |
string |
Analizador de Microsoft para inglés. |
es.lucene |
string |
Analizador de Lucene para español. |
es.microsoft |
string |
Analizador de Microsoft para español. |
et.microsoft |
string |
Analizador de Microsoft para Estonio. |
eu.lucene |
string |
Analizador de Lucene para Euskera. |
fa.lucene |
string |
Analizador de Lucene para persa. |
fi.lucene |
string |
Analizador de Lucene para finés. |
fi.microsoft |
string |
Analizador de Microsoft para Finlandés. |
fr.lucene |
string |
Analizador de Lucene para francés. |
fr.microsoft |
string |
Analizador de Microsoft para francés. |
ga.lucene |
string |
Analizador de Lucene para irlandés. |
gl.lucene |
string |
Analizador de Lucene para Gallega. |
gu.microsoft |
string |
Analizador de Microsoft para Gujarati. |
he.microsoft |
string |
Analizador de Microsoft para hebreo. |
hi.lucene |
string |
Analizador de Lucene para hindi. |
hi.microsoft |
string |
Analizador de Microsoft para hindi. |
hr.microsoft |
string |
Analizador de Microsoft para croata. |
hu.lucene |
string |
Analizador de Lucene para húngaro. |
hu.microsoft |
string |
Analizador de Microsoft para húngaro. |
hy.lucene |
string |
Analizador de Lucene para Armenio. |
id.lucene |
string |
Analizador de Lucene para Indonesia. |
id.microsoft |
string |
Analizador de Microsoft para Indonesia (Bahasa). |
is.microsoft |
string |
Analizador de Microsoft para Islandés. |
it.lucene |
string |
Analizador de Lucene para italiano. |
it.microsoft |
string |
Analizador de Microsoft para italiano. |
ja.lucene |
string |
Analizador de Lucene para japonés. |
ja.microsoft |
string |
Analizador de Microsoft para japonés. |
keyword |
string |
Trata todo el contenido de un campo como un solo token. Esto es útil para los datos tipo código postal, identificador y algunos nombres de producto. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html. |
kn.microsoft |
string |
Analizador de Microsoft para Kannada. |
ko.lucene |
string |
Analizador de Lucene para coreano. |
ko.microsoft |
string |
Analizador de Microsoft para coreano. |
lt.microsoft |
string |
Analizador de Microsoft para Lituano. |
lv.lucene |
string |
Analizador de Lucene para Letón. |
lv.microsoft |
string |
Analizador de Microsoft para Letón. |
ml.microsoft |
string |
Analizador de Microsoft para Malayalam. |
mr.microsoft |
string |
Analizador de Microsoft para Marathi. |
ms.microsoft |
string |
Analizador de Microsoft para malayo (latino). |
nb.microsoft |
string |
Analizador de Microsoft para noruego (Bokmål). |
nl.lucene |
string |
Analizador de Lucene para neerlandés. |
nl.microsoft |
string |
Analizador de Microsoft para neerlandés. |
no.lucene |
string |
Analizador de Lucene para noruego. |
pa.microsoft |
string |
Analizador de Microsoft para Punjabi. |
pattern |
string |
Separa el texto de manera flexible en términos a través de un patrón de expresión regular. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html. |
pl.lucene |
string |
Analizador de Lucene para polaco. |
pl.microsoft |
string |
Analizador de Microsoft para polaco. |
pt-BR.lucene |
string |
Analizador de Lucene para portugués (Brasil). |
pt-BR.microsoft |
string |
Analizador de Microsoft para portugués (Brasil). |
pt-PT.lucene |
string |
Analizador de Lucene para portugués (Portugal). |
pt-PT.microsoft |
string |
Analizador de Microsoft para portugués (Portugal). |
ro.lucene |
string |
Analizador de Lucene para rumano. |
ro.microsoft |
string |
Analizador de Microsoft para rumano. |
ru.lucene |
string |
Analizador de Lucene para ruso. |
ru.microsoft |
string |
Analizador de Microsoft para ruso. |
simple |
string |
Divide el texto por donde no hay letras y lo convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html. |
sk.microsoft |
string |
Analizador de Microsoft para eslovaco. |
sl.microsoft |
string |
Analizador de Microsoft para Eslovenia. |
sr-cyrillic.microsoft |
string |
Analizador de Microsoft para serbio (cirílico). |
sr-latin.microsoft |
string |
Analizador de Microsoft para serbio (latino). |
standard.lucene |
string |
Analizador estándar de Lucene. |
standardasciifolding.lucene |
string |
Analizador de Lucene plegado ASCII estándar. Consulta https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers. |
stop |
string |
Divide el texto en letras no letras; Aplica los filtros de token en minúsculas y palabra irrelevantes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html. |
sv.lucene |
string |
Analizador de Lucene para sueco. |
sv.microsoft |
string |
Analizador de Microsoft para sueco. |
ta.microsoft |
string |
Analizador de Microsoft para Tamil. |
te.microsoft |
string |
Analizador de Microsoft para Telugu. |
th.lucene |
string |
Analizador de Lucene para tailandés. |
th.microsoft |
string |
Analizador de Microsoft para tailandés. |
tr.lucene |
string |
Analizador de Lucene para turco. |
tr.microsoft |
string |
Analizador de Microsoft para turco. |
uk.microsoft |
string |
Analizador de Microsoft para ucraniano. |
ur.microsoft |
string |
Analizador de Microsoft para Urdu. |
vi.microsoft |
string |
Analizador de Microsoft para vietnamita. |
whitespace |
string |
Un analizador que usa el tokenizador whitespace. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html. |
zh-Hans.lucene |
string |
Analizador de Lucene para chino (simplificado). |
zh-Hans.microsoft |
string |
Analizador de Microsoft para chino (simplificado). |
zh-Hant.lucene |
string |
Analizador de Lucene para chino (tradicional). |
zh-Hant.microsoft |
string |
Analizador de Microsoft para chino (tradicional). |
LexicalTokenizerName
Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.
Nombre | Tipo | Description |
---|---|---|
classic |
string |
Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html. |
edgeNGram |
string |
Tokeniza la entrada de un borde en n-gramas de los tamaños especificados. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html. |
keyword_v2 |
string |
Emite la entrada completa como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html. |
letter |
string |
Divide el texto por donde no hay letras. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html. |
lowercase |
string |
Divide el texto por donde no hay letras y lo convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html. |
microsoft_language_stemming_tokenizer |
string |
Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base. |
microsoft_language_tokenizer |
string |
Divide el texto mediante reglas específicas del idioma. |
nGram |
string |
Tokeniza la entrada en n-gramas de tamaños dados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html. |
path_hierarchy_v2 |
string |
Tokenizador para las jerarquías parecidas a rutas de acceso. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html. |
pattern |
string |
Tokenizador que usa la coincidencia de patrones regex para construir tokens distintos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html. |
standard_v2 |
string |
Analizador estándar de Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html. |
uax_url_email |
string |
Tokeniza las direcciones URL y los correos electrónicos como un token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html. |
whitespace |
string |
Divide el texto por los espacios en blanco. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html. |
SearchError
Describe una condición de error para la API.
Nombre | Tipo | Description |
---|---|---|
code |
string |
Uno de los conjuntos de códigos de error definidos por el servidor. |
details |
Matriz de detalles sobre errores específicos que llevaron a este error notificado. |
|
message |
string |
Representación legible del error. |
TokenFilterName
Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.
Nombre | Tipo | Description |
---|---|---|
apostrophe |
string |
Elimina todos los caracteres después de un apóstrofo (incluido el propio apóstrofo). Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html. |
arabic_normalization |
string |
Un filtro de token que aplica el normalizador de árabe para normalizar la ortografía. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html. |
asciifolding |
string |
Convierte caracteres alfabéticos, numéricos y simbólicos Unicode que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Básico latino") en sus equivalentes ASCII, si existen dichos equivalentes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html. |
cjk_bigram |
string |
Forma bigrams de términos de CJK que se generan a partir del tokenizador estándar. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html. |
cjk_width |
string |
Normaliza las diferencias de ancho de CJK. Dobla las variantes ASCII fullwidth en el equivalente latino básico y las variantes katakana de ancho medio en el kana equivalente. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html. |
classic |
string |
Quita los posesivos en inglés y los puntos de los acrónimos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html. |
common_grams |
string |
Construye bigramas para términos que se repiten con frecuencia durante la indexación. Los términos individuales también se indexan, con los bigramas superpuestos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html. |
edgeNGram_v2 |
string |
Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html. |
elision |
string |
Quita las elisiones. Por ejemplo, "l'avion" (el plano) se convertirá en "avion" (plano). Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html. |
german_normalization |
string |
Normaliza los caracteres alemanes según la heurística del algoritmo de bola de nieve alemán2. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html. |
hindi_normalization |
string |
Normaliza el texto en hindi para quitar algunas diferencias en las variaciones ortográficas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html. |
indic_normalization |
string |
Normaliza la representación Unicode de texto en las lenguas hindúes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html. |
keyword_repeat |
string |
Emite cada token entrante dos veces, una como palabra clave y una vez como no palabra clave. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html. |
kstem |
string |
Un filtro kstem de alto rendimiento para inglés. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html. |
length |
string |
Quita las palabras que son demasiado largas o demasiado cortas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html. |
limit |
string |
Limita el número de tokens durante la indexación. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html. |
lowercase |
string |
Normaliza el texto de token a minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm. |
nGram_v2 |
string |
Genera n-gramas de los tamaños dados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html. |
persian_normalization |
string |
Aplica la normalización para persa. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html. |
phonetic |
string |
Crea tokens para coincidencias fonéticas. Consulta https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html. |
porter_stem |
string |
Usa el algoritmo de lematización de Porter para transformar el flujo de tokens. Consulta http://tartarus.org/~martin/PorterStemmer. |
reverse |
string |
Invierte la cadena de token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html. |
scandinavian_folding |
string |
Pliega los caracteres escandinavos åÅäæÄÆ->a y öÖøØ->o. También discrimina el uso de las vocales dobles aa, ae, ao, oe y oo, dejando solo la primera de ellas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html. |
scandinavian_normalization |
string |
Normaliza el uso de los caracteres de escandinavo intercambiables. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html. |
shingle |
string |
Crea combinaciones de tokens como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html. |
snowball |
string |
Filtro que deriva las palabras mediante un lematizador generado por Snowball. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html. |
sorani_normalization |
string |
Normaliza la representación de Unicode de texto del idioma sorani. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html. |
stemmer |
string |
Filtro de lematización específico del idioma. Consulta https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters. |
stopwords |
string |
Quita las palabras irrelevantes de una secuencia de tokens. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html. |
trim |
string |
Recorta el espacio en blanco inicial y final de los tokens. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html. |
truncate |
string |
Trunca los términos a una longitud específica. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html. |
unique |
string |
Filtra los tokens con el mismo texto que el token anterior. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html. |
uppercase |
string |
Normaliza el texto de token a mayúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html. |
word_delimiter |
string |
Divide palabras en subpalabras y realiza transformaciones opcionales en los grupos de subpalabras. |