Indexes - Create Or Update
Crea un nuevo índice de búsqueda o actualiza un índice si ya existe.
PUT {endpoint}/indexes('{indexName}')?api-version=2023-11-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2023-11-01
Parámetros de identificador URI
Nombre | En | Requerido | Tipo | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
Dirección URL del punto de conexión del servicio de búsqueda. |
index
|
path | True |
string |
Definición del índice que se va a crear o actualizar. |
api-version
|
query | True |
string |
Versión de api de cliente. |
allow
|
query |
boolean |
Permite agregar nuevos analizadores, tokenizadores, filtros de token o filtros char a un índice al desconectar el índice durante al menos unos segundos. Esto provoca temporalmente un error en la indexación y las solicitudes de consulta. El rendimiento y la disponibilidad de escritura del índice pueden ser desiguales durante varios minutos después de que se actualice el índice, o durante más tiempo en el caso de índices muy grandes. |
Encabezado de la solicitud
Nombre | Requerido | Tipo | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Identificador de seguimiento enviado con la solicitud para ayudar con la depuración. |
|
If-Match |
string |
Define la condición de If-Match. La operación solo se realizará si la ETag del servidor coincide con este valor. |
|
If-None-Match |
string |
Define la condición If-None-Match. La operación solo se realizará si la ETag del servidor no coincide con este valor. |
|
Prefer | True |
string |
En el caso de las solicitudes HTTP PUT, indica al servicio que devuelva el recurso creado o actualizado si se ha realizado correctamente. |
Cuerpo de la solicitud
Nombre | Requerido | Tipo | Description |
---|---|---|---|
fields | True |
Campos del índice. |
|
name | True |
string |
El nombre del índice. |
@odata.etag |
string |
ETag del índice. |
|
analyzers | LexicalAnalyzer[]: |
Analizadores del índice. |
|
charFilters | CharFilter[]: |
Filtros de caracteres para el índice. |
|
corsOptions |
Opciones para controlar el uso compartido de recursos entre orígenes (CORS) para el índice. |
||
defaultScoringProfile |
string |
Nombre del perfil de puntuación que se va a usar si no se especifica ninguno en la consulta. Si esta propiedad no está establecida y no se especifica ningún perfil de puntuación en la consulta, se usará la puntuación predeterminada (tf-idf). |
|
encryptionKey |
Descripción de una clave de cifrado que se crea en Azure Key Vault. Esta clave se usa para proporcionar un nivel adicional de cifrado en reposo para los datos cuando desee asegurarse de que nadie, ni siquiera Microsoft, puede descifrar los datos. Una vez que haya cifrado los datos, siempre permanecerá cifrado. El servicio de búsqueda omitirá los intentos de establecer esta propiedad en null. Puede cambiar esta propiedad según sea necesario si desea rotar la clave de cifrado; Los datos no se verán afectados. El cifrado con claves administradas por el cliente no está disponible para los servicios de búsqueda gratuitos y solo está disponible para los servicios de pago creados el 1 de enero de 2019 o después. |
||
scoringProfiles |
Perfiles de puntuación para el índice. |
||
semantic |
Define parámetros para un índice de búsqueda que influye en las funcionalidades semánticas. |
||
similarity | Similarity: |
Tipo de algoritmo de similitud que se va a usar al puntuar y clasificar los documentos que coinciden con una consulta de búsqueda. El algoritmo de similitud solo se puede definir en el momento de la creación del índice y no se puede modificar en índices existentes. Si es null, se usa el algoritmo ClassicSimilarity. |
|
suggesters |
Los proveedores de sugerencias para el índice. |
||
tokenFilters |
TokenFilter[]:
|
El token filtra el índice. |
|
tokenizers | LexicalTokenizer[]: |
Tokenizadores para el índice. |
|
vectorSearch |
Contiene opciones de configuración relacionadas con la búsqueda de vectores. |
Respuestas
Nombre | Tipo | Description |
---|---|---|
200 OK | ||
201 Created | ||
Other Status Codes |
Respuesta de error. |
Ejemplos
SearchServiceCreateOrUpdateIndex
Solicitud de ejemplo
PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2023-11-01
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"searchable": true,
"retrievable": true
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine"
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
]
}
}
Respuesta de muestra
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
Definiciones
Nombre | Description |
---|---|
Ascii |
Convierte caracteres alfabéticos, numéricos y simbólicos Unicode que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Básico latino") en sus equivalentes ASCII, si existen dichos equivalentes. Este filtro de token se implementa mediante Apache Lucene. |
Azure |
Credenciales de una aplicación registrada creada para el servicio de búsqueda, que se usa para el acceso autenticado a las claves de cifrado almacenadas en Azure Key Vault. |
BM25Similarity |
Función de clasificación basada en el algoritmo de similitud okapi BM25. BM25 es un algoritmo similar a TF-IDF que incluye la normalización de longitud (controlada por el parámetro 'b'), así como la saturación de la frecuencia de términos (controlada por el parámetro 'k1'). |
Char |
Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda. |
Cjk |
Forma bigrams de términos de CJK que se generan a partir del tokenizador estándar. Este filtro de token se implementa mediante Apache Lucene. |
Cjk |
Scripts que CjkBigramTokenFilter puede omitir. |
Classic |
Algoritmo de similitud heredado que usa la implementación TFIDFSimilarity de Lucene de TF-IDF. Esta variación de TF-IDF presenta la normalización de longitud de documento estática, así como factores de coordinación que penalizan los documentos que solo coinciden parcialmente con las consultas buscadas. |
Classic |
Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Este tokenizador se implementa mediante Apache Lucene. |
Common |
Construye bigramas para términos que se repiten con frecuencia durante la indexación. Los términos individuales también se indexan, con los bigramas superpuestos. Este filtro de token se implementa mediante Apache Lucene. |
Cors |
Define las opciones para controlar el uso compartido de recursos entre orígenes (CORS) para un índice. |
Custom |
Permite tomar el control sobre el proceso de conversión de texto en tokens indexables o buscables. Se trata de una configuración definida por el usuario que consta de un único tokenizador predefinido y uno o varios filtros. El tokenizador es responsable de dividir texto en tokens y los filtros para modificar los tokens emitidos por el tokenizador. |
Dictionary |
Descompone las palabras compuestas que se encuentran en muchas lenguas germánicas. Este filtro de token se implementa mediante Apache Lucene. |
Distance |
Define una función que aumenta las puntuaciones en función de la distancia desde una ubicación geográfica. |
Distance |
Proporciona valores de parámetro a una función de puntuación de distancia. |
Edge |
Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Este filtro de token se implementa mediante Apache Lucene. |
Edge |
Especifica a qué lado de la entrada se debe generar un n-grama. |
Edge |
Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Este filtro de token se implementa mediante Apache Lucene. |
Edge |
Tokeniza la entrada de un borde en n-gramas de los tamaños especificados. Este tokenizador se implementa mediante Apache Lucene. |
Elision |
Quita las elisiones. Por ejemplo, "l'avion" (el plano) se convertirá en "avion" (plano). Este filtro de token se implementa mediante Apache Lucene. |
Exhaustive |
Contiene los parámetros específicos del algoritmo KNN exhaustivo. |
Exhaustive |
Contiene opciones de configuración específicas del algoritmo KNN exhaustivo utilizado durante la consulta, que realizará la búsqueda por fuerza bruta en todo el índice vectorial. |
Freshness |
Define una función que aumenta las puntuaciones en función del valor de un campo de fecha y hora. |
Freshness |
Proporciona valores de parámetro a una función de puntuación de actualización. |
Hnsw |
Contiene los parámetros específicos del algoritmo HNSW. |
Hnsw |
Contiene opciones de configuración específicas del algoritmo de vecinos más cercano aproximado de HNSW que se usan durante la indexación y la consulta. El algoritmo HNSW ofrece un equilibrio ajustable entre la velocidad de búsqueda y la precisión. |
Keep |
Filtro de token que solo mantiene los tokens con texto contenido en una lista especificada de palabras. Este filtro de token se implementa mediante Apache Lucene. |
Keyword |
Marca los términos como palabras clave. Este filtro de token se implementa mediante Apache Lucene. |
Keyword |
Emite la entrada completa como un solo token. Este tokenizador se implementa mediante Apache Lucene. |
Keyword |
Emite la entrada completa como un solo token. Este tokenizador se implementa mediante Apache Lucene. |
Length |
Quita las palabras que son demasiado largas o demasiado cortas. Este filtro de token se implementa mediante Apache Lucene. |
Lexical |
Define los nombres de todos los analizadores de texto admitidos por el motor de búsqueda. |
Lexical |
Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda. |
Limit |
Limita el número de tokens durante la indexación. Este filtro de token se implementa mediante Apache Lucene. |
Lucene |
Analizador estándar de Apache Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. |
Lucene |
Divide el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene. |
Lucene |
Divide el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene. |
Magnitude |
Define una función que aumenta las puntuaciones en función de la magnitud de un campo numérico. |
Magnitude |
Proporciona valores de parámetro a una función de puntuación de magnitud. |
Mapping |
Filtro de caracteres que aplica asignaciones definidas con la opción asignaciones. La coincidencia es ambiciosa (la mayor coincidencia de patrones en un momento dado gana). Se permite que la sustitución sea una cadena vacía. Este filtro de caracteres se implementa mediante Apache Lucene. |
Microsoft |
Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base. |
Microsoft |
Divide el texto mediante reglas específicas del idioma. |
Microsoft |
Listas los idiomas admitidos por el tokenizador de lematización de idioma de Microsoft. |
Microsoft |
Listas los idiomas admitidos por el tokenizador de idioma de Microsoft. |
NGram |
Genera n-gramas de los tamaños dados. Este filtro de token se implementa mediante Apache Lucene. |
NGram |
Genera n-gramas de los tamaños dados. Este filtro de token se implementa mediante Apache Lucene. |
NGram |
Tokeniza la entrada en n-gramas de tamaños dados. Este tokenizador se implementa mediante Apache Lucene. |
Path |
Tokenizador para las jerarquías parecidas a rutas de acceso. Este tokenizador se implementa mediante Apache Lucene. |
Pattern |
Separa el texto de manera flexible en términos a través de un patrón de expresión regular. Este analizador se implementa mediante Apache Lucene. |
Pattern |
Usa expresiones regulares de Java para emitir varios tokens: uno para cada grupo de capturas en uno o varios patrones. Este filtro de token se implementa mediante Apache Lucene. |
Pattern |
Filtro de caracteres que reemplaza los caracteres de la cadena de entrada. Usa una expresión regular para identificar las secuencias de caracteres que se desean conservar y un patrón de reemplazo para identificar los caracteres que se desean reemplazar. Por ejemplo, dado el texto de entrada "aa bb aa bb", el patrón "(aa)\s+(bb)" y el reemplazo "$1#$2", el resultado sería "aa#bb aa#bb aa#bb". Este filtro de caracteres se implementa mediante Apache Lucene. |
Pattern |
Filtro de caracteres que reemplaza los caracteres de la cadena de entrada. Usa una expresión regular para identificar las secuencias de caracteres que se desean conservar y un patrón de reemplazo para identificar los caracteres que se desean reemplazar. Por ejemplo, dado el texto de entrada "aa bb aa bb", el patrón "(aa)\s+(bb)" y el reemplazo "$1#$2", el resultado sería "aa#bb aa#bb aa#bb". Este filtro de token se implementa mediante Apache Lucene. |
Pattern |
Tokenizador que usa la coincidencia de patrones regex para construir tokens distintos. Este tokenizador se implementa mediante Apache Lucene. |
Phonetic |
Identifica el tipo de codificador fonético que se va a usar con un PhoneticTokenFilter. |
Phonetic |
Crea tokens para coincidencias fonéticas. Este filtro de token se implementa mediante Apache Lucene. |
Prioritized |
Describe los campos título, contenido y palabras clave que se usarán para la clasificación semántica, los títulos, los resaltados y las respuestas. |
Regex |
Define marcas que se pueden combinar para controlar cómo se usan las expresiones regulares en el analizador de patrones y el tokenizador de patrones. |
Scoring |
Define la función de agregación usada para combinar los resultados de todas las funciones de puntuación de un perfil de puntuación. |
Scoring |
Define la función que se usa para interpolar la potenciación de la puntuación en un intervalo de documentos. |
Scoring |
Define parámetros para un índice de búsqueda que influye en la puntuación en las consultas de búsqueda. |
Search |
Describe una condición de error para la API. |
Search |
Representa un campo de una definición de índice, que describe el nombre, el tipo de datos y el comportamiento de búsqueda de un campo. |
Search |
Define el tipo de datos de un campo en un índice de búsqueda. |
Search |
Representa una definición de índice de búsqueda, que describe los campos y el comportamiento de búsqueda de un índice. |
Search |
Una clave de cifrado administrada por el cliente en Azure Key Vault. Las claves que cree y administre se pueden usar para cifrar o descifrar datos en reposo en el servicio de búsqueda, como índices y mapas de sinónimos. |
Semantic |
Define una configuración específica que se usará en el contexto de las funcionalidades semánticas. |
Semantic |
Campo que se usa como parte de la configuración semántica. |
Semantic |
Define parámetros para un índice de búsqueda que influye en las funcionalidades semánticas. |
Shingle |
Crea combinaciones de tokens como un solo token. Este filtro de token se implementa mediante Apache Lucene. |
Snowball |
Filtro que deriva las palabras mediante un lematizador generado por Snowball. Este filtro de token se implementa mediante Apache Lucene. |
Snowball |
Idioma que se va a usar para un filtro de token de Snowball. |
Stemmer |
Proporciona la capacidad de invalidar otros filtros de lematización con lematización personalizada basada en diccionarios. Los términos con lematización del diccionario se marcarán como palabras clave para que no se lematice con lematizadores hacia abajo en la cadena. Se debe colocar antes de los filtros de lematización. Este filtro de token se implementa mediante Apache Lucene. |
Stemmer |
Filtro de lematización específico del idioma. Este filtro de token se implementa mediante Apache Lucene. |
Stemmer |
Idioma que se va a usar para un filtro de token de lematizador. |
Stop |
Divide el texto en letras no letras; Aplica los filtros de token en minúsculas y palabra irrelevantes. Este analizador se implementa mediante Apache Lucene. |
Stopwords |
Identifica una lista predefinida de palabras irrelevantes específicas del lenguaje. |
Stopwords |
Quita las palabras irrelevantes de una secuencia de tokens. Este filtro de token se implementa mediante Apache Lucene. |
Suggester |
Define cómo se debe aplicar suggest API a un grupo de campos del índice. |
Suggester |
Valor que indica las funciones del proveedor de sugerencias. |
Synonym |
Coincide con sinónimos de una o varias palabras en una secuencia de tokens. Este filtro de token se implementa mediante Apache Lucene. |
Tag |
Define una función que aumenta las puntuaciones de documentos con valores de cadena que coinciden con una lista determinada de etiquetas. |
Tag |
Proporciona valores de parámetro a una función de puntuación de etiquetas. |
Text |
Define pesos en los campos de índice para los que las coincidencias deben aumentar la puntuación en las consultas de búsqueda. |
Token |
Representa clases de caracteres en las que puede funcionar un filtro de token. |
Token |
Define los nombres de todos los filtros de token admitidos por el motor de búsqueda. |
Truncate |
Trunca los términos a una longitud específica. Este filtro de token se implementa mediante Apache Lucene. |
Uax |
Tokeniza las direcciones URL y los correos electrónicos como un token. Este tokenizador se implementa mediante Apache Lucene. |
Unique |
Filtra los tokens con el mismo texto que el token anterior. Este filtro de token se implementa mediante Apache Lucene. |
Vector |
Contiene opciones de configuración relacionadas con la búsqueda vectorial. |
Vector |
Algoritmo utilizado para la indexación y la consulta. |
Vector |
Métrica de similitud que se va a usar para comparaciones de vectores. |
Vector |
Define una combinación de configuraciones que se van a usar con la búsqueda vectorial. |
Word |
Divide palabras en subpalabras y realiza transformaciones opcionales en los grupos de subpalabras. Este filtro de token se implementa mediante Apache Lucene. |
AsciiFoldingTokenFilter
Convierte caracteres alfabéticos, numéricos y simbólicos Unicode que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Básico latino") en sus equivalentes ASCII, si existen dichos equivalentes. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
preserveOriginal |
boolean |
False |
Valor que indica si se conservará el token original. El valor predeterminado es False. |
AzureActiveDirectoryApplicationCredentials
Credenciales de una aplicación registrada creada para el servicio de búsqueda, que se usa para el acceso autenticado a las claves de cifrado almacenadas en Azure Key Vault.
Nombre | Tipo | Description |
---|---|---|
applicationId |
string |
Identificador de aplicación de AAD al que se concedieron los permisos de acceso necesarios a Azure Key Vault que se van a usar al cifrar los datos en reposo. El identificador de aplicación no debe confundirse con el id. de objeto de la aplicación de AAD. |
applicationSecret |
string |
Clave de autenticación de la aplicación de AAD especificada. |
BM25Similarity
Función de clasificación basada en el algoritmo de similitud okapi BM25. BM25 es un algoritmo similar a TF-IDF que incluye la normalización de longitud (controlada por el parámetro 'b'), así como la saturación de la frecuencia de términos (controlada por el parámetro 'k1').
Nombre | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Esta propiedad controla cómo afecta la longitud de un documento a la puntuación de relevancia. De forma predeterminada, se usa un valor de 0,75. Un valor de 0,0 significa que no se aplica ninguna normalización de longitud, mientras que un valor de 1,0 significa que la puntuación está totalmente normalizada por la longitud del documento. |
k1 |
number |
Esta propiedad controla la función de escalado entre la frecuencia de término de cada término coincidente y la puntuación final de relevancia de un par de consulta de documentos. De forma predeterminada, se usa un valor de 1.2. Un valor de 0,0 significa que la puntuación no se escala con un aumento en la frecuencia del término. |
CharFilterName
Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.
Nombre | Tipo | Description |
---|---|---|
html_strip |
string |
Filtro de caracteres que intenta quitar construcciones HTML. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html. |
CjkBigramTokenFilter
Forma bigrams de términos de CJK que se generan a partir del tokenizador estándar. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
ignoreScripts |
Los scripts que se van a omitir. |
||
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
outputUnigrams |
boolean |
False |
Valor que indica si se van a generar unigramas y bigrams (si es true) o solo bigrams (si es false). El valor predeterminado es False. |
CjkBigramTokenFilterScripts
Scripts que CjkBigramTokenFilter puede omitir.
Nombre | Tipo | Description |
---|---|---|
han |
string |
Omita el script han al formar bigrams de términos de CJK. |
hangul |
string |
Omita el script hangul al formar bigrams de términos de CJK. |
hiragana |
string |
Omita el script hiragana al formar bigrams de términos de CJK. |
katakana |
string |
Omita el script Katakana al formar bigrams de términos de CJK. |
ClassicSimilarity
Algoritmo de similitud heredado que usa la implementación TFIDFSimilarity de Lucene de TF-IDF. Esta variación de TF-IDF presenta la normalización de longitud de documento estática, así como factores de coordinación que penalizan los documentos que solo coinciden parcialmente con las consultas buscadas.
Nombre | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Este tokenizador se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de tokenizador. |
|
maxTokenLength |
integer |
255 |
Longitud máxima del token. El valor predeterminado es 255. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres. |
name |
string |
Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
CommonGramTokenFilter
Construye bigramas para términos que se repiten con frecuencia durante la indexación. Los términos individuales también se indexan, con los bigramas superpuestos. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
commonWords |
string[] |
Conjunto de palabras comunes. |
|
ignoreCase |
boolean |
False |
Valor que indica si las palabras comunes que coinciden no distinguen mayúsculas de minúsculas. El valor predeterminado es False. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
queryMode |
boolean |
False |
Valor que indica si el filtro de token está en modo de consulta. Cuando está en modo de consulta, el filtro de token genera bigrams y, a continuación, quita palabras comunes y términos únicos seguidos de una palabra común. El valor predeterminado es False. |
CorsOptions
Define las opciones para controlar el uso compartido de recursos entre orígenes (CORS) para un índice.
Nombre | Tipo | Description |
---|---|---|
allowedOrigins |
string[] |
La lista de orígenes desde los que se concederá acceso al código JavaScript al índice. Puede contener una lista de hosts con el formato {protocol}://{fully-qualified-domain-name}[:{port#}], o un único |
maxAgeInSeconds |
integer |
Duración para la que los exploradores deben almacenar en caché las respuestas preparatorias de CORS. El valor predeterminado es 5 minutos. |
CustomAnalyzer
Permite tomar el control sobre el proceso de conversión de texto en tokens indexables o buscables. Se trata de una configuración definida por el usuario que consta de un único tokenizador predefinido y uno o varios filtros. El tokenizador es responsable de dividir texto en tokens y los filtros para modificar los tokens emitidos por el tokenizador.
Nombre | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de analizador. |
charFilters |
Lista de filtros de caracteres usados para preparar el texto de entrada antes de que el tokenizador lo procese. Por ejemplo, pueden reemplazar determinados caracteres o símbolos. Los filtros se ejecutan en el orden en que se muestran. |
|
name |
string |
Nombre del analizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
tokenFilters |
Lista de filtros de token usados para filtrar o modificar los tokens generados por un tokenizador. Por ejemplo, puede especificar un filtro en minúsculas que convierte todos los caracteres a minúsculas. Los filtros se ejecutan en el orden en que se muestran. |
|
tokenizer |
Nombre del tokenizador que se va a usar para dividir el texto continuo en una secuencia de tokens, como dividir una frase en palabras. |
DictionaryDecompounderTokenFilter
Descompone las palabras compuestas que se encuentran en muchas lenguas germánicas. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
maxSubwordSize |
integer |
15 |
Tamaño máximo de la subpalabra. Solo se generan subtareas más cortas que esta. El valor predeterminado es 15. El máximo es 300. |
minSubwordSize |
integer |
2 |
Tamaño mínimo de la subpalabra. Solo se generan subtareas más largas de las que se generan. El valor predeterminado es 2. El máximo es 300. |
minWordSize |
integer |
5 |
Tamaño mínimo de palabra. Solo se procesan las palabras más largas que esta. El valor predeterminado es 5. El máximo es 300. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
onlyLongestMatch |
boolean |
False |
Valor que indica si se va a agregar solo la subword coincidente más larga a la salida. El valor predeterminado es False. |
wordList |
string[] |
Lista de palabras con las que debe coincidir. |
DistanceScoringFunction
Define una función que aumenta las puntuaciones en función de la distancia desde una ubicación geográfica.
Nombre | Tipo | Description |
---|---|---|
boost |
number |
Multiplicador de la puntuación sin procesar. Debe ser un número positivo no igual a 1,0. |
distance |
Valores de parámetro para la función de puntuación de distancia. |
|
fieldName |
string |
Nombre del campo utilizado como entrada para la función de puntuación. |
interpolation |
Valor que indica cómo se interpolará la potenciación entre las puntuaciones de documentos; el valor predeterminado es "Linear". |
|
type |
string:
distance |
Indica el tipo de función que se usará. Entre los valores válidos se incluyen magnitud, índice de actualización, distancia y etiqueta. El tipo de función debe estar en minúsculas. |
DistanceScoringParameters
Proporciona valores de parámetro a una función de puntuación de distancia.
Nombre | Tipo | Description |
---|---|---|
boostingDistance |
number |
Distancia en kilómetros desde la ubicación de referencia donde finaliza el intervalo de potenciación. |
referencePointParameter |
string |
Nombre del parámetro pasado en las consultas de búsqueda para especificar la ubicación de referencia. |
EdgeNGramTokenFilter
Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
maxGram |
integer |
2 |
Longitud máxima de n-gramas. El valor predeterminado es 2. |
minGram |
integer |
1 |
Longitud mínima de n-gramas. El valor predeterminado es 1. Debe ser menor que el valor de maxGram. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
side | front |
Especifica a qué lado de la entrada se debe generar el n-grama. El valor predeterminado es "front". |
EdgeNGramTokenFilterSide
Especifica a qué lado de la entrada se debe generar un n-grama.
Nombre | Tipo | Description |
---|---|---|
back |
string |
Especifica que el n-grama se debe generar a partir de la parte posterior de la entrada. |
front |
string |
Especifica que el n-grama debe generarse desde el principio de la entrada. |
EdgeNGramTokenFilterV2
Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
maxGram |
integer |
2 |
Longitud máxima de n-gramas. El valor predeterminado es 2. El máximo es 300. |
minGram |
integer |
1 |
Longitud mínima de n-gramas. El valor predeterminado es 1. El máximo es 300. Debe ser menor que el valor de maxGram. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
side | front |
Especifica a qué lado de la entrada se debe generar el n-grama. El valor predeterminado es "front". |
EdgeNGramTokenizer
Tokeniza la entrada de un borde en n-gramas de los tamaños especificados. Este tokenizador se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de tokenizador. |
|
maxGram |
integer |
2 |
Longitud máxima de n-gramas. El valor predeterminado es 2. El máximo es 300. |
minGram |
integer |
1 |
Longitud mínima de n-gramas. El valor predeterminado es 1. El máximo es 300. Debe ser menor que el valor de maxGram. |
name |
string |
Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
tokenChars |
Clases de caracteres que se mantendrán en los tokens. |
ElisionTokenFilter
Quita las elisiones. Por ejemplo, "l'avion" (el plano) se convertirá en "avion" (plano). Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
articles |
string[] |
Conjunto de artículos que se van a quitar. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
ExhaustiveKnnParameters
Contiene los parámetros específicos del algoritmo KNN exhaustivo.
Nombre | Tipo | Description |
---|---|---|
metric |
Métrica de similitud que se va a usar para comparaciones de vectores. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Contiene opciones de configuración específicas del algoritmo KNN exhaustivo utilizado durante la consulta, que realizará la búsqueda por fuerza bruta en todo el índice vectorial.
Nombre | Tipo | Description |
---|---|---|
exhaustiveKnnParameters |
Contiene los parámetros específicos del algoritmo KNN exhaustivo. |
|
kind |
string:
exhaustive |
Nombre del tipo de algoritmo que se va a configurar para su uso con la búsqueda vectorial. |
name |
string |
Nombre que se va a asociar a esta configuración determinada. |
FreshnessScoringFunction
Define una función que aumenta las puntuaciones en función del valor de un campo de fecha y hora.
Nombre | Tipo | Description |
---|---|---|
boost |
number |
Multiplicador de la puntuación sin procesar. Debe ser un número positivo no igual a 1,0. |
fieldName |
string |
Nombre del campo utilizado como entrada para la función de puntuación. |
freshness |
Valores de parámetro para la función de puntuación de actualización. |
|
interpolation |
Valor que indica cómo se interpolará la potenciación entre las puntuaciones de documentos; el valor predeterminado es "Linear". |
|
type |
string:
freshness |
Indica el tipo de función que se usará. Entre los valores válidos se incluyen magnitud, índice de actualización, distancia y etiqueta. El tipo de función debe estar en minúsculas. |
FreshnessScoringParameters
Proporciona valores de parámetro a una función de puntuación de actualización.
Nombre | Tipo | Description |
---|---|---|
boostingDuration |
string |
Período de expiración después del cual la mejora se detendrá para un documento determinado. |
HnswParameters
Contiene los parámetros específicos del algoritmo HNSW.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
efConstruction |
integer |
400 |
Tamaño de la lista dinámica que contiene los vecinos más cercanos, que se usan durante el tiempo de índice. Aumentar este parámetro puede mejorar la calidad del índice, a costa del aumento del tiempo de indexación. En un momento determinado, aumentar este parámetro conduce a la disminución de los retornos. |
efSearch |
integer |
500 |
Tamaño de la lista dinámica que contiene los vecinos más cercanos, que se usan durante el tiempo de búsqueda. Aumentar este parámetro puede mejorar los resultados de búsqueda, a costa de una búsqueda más lenta. En un momento determinado, aumentar este parámetro conduce a la disminución de los retornos. |
m |
integer |
4 |
Número de vínculos bidireccionales creados para cada nuevo elemento durante la construcción. Aumentar este valor de parámetro puede mejorar la recuperación y reducir los tiempos de recuperación de los conjuntos de datos con una alta dimensionalidad intrínseca a costa del aumento del consumo de memoria y el tiempo de indexación más largo. |
metric |
Métrica de similitud que se va a usar para comparaciones de vectores. |
HnswVectorSearchAlgorithmConfiguration
Contiene opciones de configuración específicas del algoritmo de vecinos más cercano aproximado de HNSW que se usan durante la indexación y la consulta. El algoritmo HNSW ofrece un equilibrio ajustable entre la velocidad de búsqueda y la precisión.
Nombre | Tipo | Description |
---|---|---|
hnswParameters |
Contiene los parámetros específicos del algoritmo HNSW. |
|
kind |
string:
hnsw |
Nombre del tipo de algoritmo que se va a configurar para su uso con la búsqueda vectorial. |
name |
string |
Nombre que se va a asociar a esta configuración determinada. |
KeepTokenFilter
Filtro de token que solo mantiene los tokens con texto contenido en una lista especificada de palabras. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
keepWords |
string[] |
Lista de palabras que se van a conservar. |
|
keepWordsCase |
boolean |
False |
Valor que indica si se deben minúsculas todas las palabras en primer lugar. El valor predeterminado es False. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
KeywordMarkerTokenFilter
Marca los términos como palabras clave. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
ignoreCase |
boolean |
False |
Valor que indica si se omitirán mayúsculas y minúsculas. Si es true, todas las palabras se convierten en minúsculas en primer lugar. El valor predeterminado es False. |
keywords |
string[] |
Lista de palabras que se van a marcar como palabras clave. |
|
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
KeywordTokenizer
Emite la entrada completa como un solo token. Este tokenizador se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de tokenizador. |
|
bufferSize |
integer |
256 |
Tamaño del búfer de lectura en bytes. El valor predeterminado es 256. |
name |
string |
Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
KeywordTokenizerV2
Emite la entrada completa como un solo token. Este tokenizador se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de tokenizador. |
|
maxTokenLength |
integer |
256 |
Longitud máxima del token. El valor predeterminado es 256. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres. |
name |
string |
Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
LengthTokenFilter
Quita las palabras que son demasiado largas o demasiado cortas. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
max |
integer |
300 |
Longitud máxima en caracteres. El valor predeterminado y máximo es 300. |
min |
integer |
0 |
Longitud mínima en caracteres. El valor predeterminado es 0. El máximo es 300. Debe ser menor que el valor de max. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
LexicalAnalyzerName
Define los nombres de todos los analizadores de texto admitidos por el motor de búsqueda.
Nombre | Tipo | Description |
---|---|---|
ar.lucene |
string |
Analizador de Lucene para árabe. |
ar.microsoft |
string |
Analizador de Microsoft para árabe. |
bg.lucene |
string |
Analizador de Lucene para búlgaro. |
bg.microsoft |
string |
Analizador de Microsoft para búlgaro. |
bn.microsoft |
string |
Analizador de Microsoft para Bangla. |
ca.lucene |
string |
Analizador de Lucene para catalán. |
ca.microsoft |
string |
Analizador de Microsoft para catalán. |
cs.lucene |
string |
Analizador de Lucene para Checo. |
cs.microsoft |
string |
Analizador de Microsoft para Checo. |
da.lucene |
string |
Analizador de Lucene para danés. |
da.microsoft |
string |
Analizador de Microsoft para danés. |
de.lucene |
string |
Analizador de Lucene para alemán. |
de.microsoft |
string |
Analizador de Microsoft para alemán. |
el.lucene |
string |
Analizador de Lucene para griego. |
el.microsoft |
string |
Analizador de Microsoft para griego. |
en.lucene |
string |
Analizador de Lucene para inglés. |
en.microsoft |
string |
Analizador de Microsoft para inglés. |
es.lucene |
string |
Analizador de Lucene para español. |
es.microsoft |
string |
Analizador de Microsoft para español. |
et.microsoft |
string |
Analizador de Microsoft para Estonio. |
eu.lucene |
string |
Analizador de Lucene para Euskera. |
fa.lucene |
string |
Analizador de Lucene para persa. |
fi.lucene |
string |
Analizador de Lucene para finés. |
fi.microsoft |
string |
Analizador de Microsoft para Finlandés. |
fr.lucene |
string |
Analizador de Lucene para francés. |
fr.microsoft |
string |
Analizador de Microsoft para francés. |
ga.lucene |
string |
Analizador de Lucene para irlandés. |
gl.lucene |
string |
Analizador de Lucene para Gallega. |
gu.microsoft |
string |
Analizador de Microsoft para Gujarati. |
he.microsoft |
string |
Analizador de Microsoft para hebreo. |
hi.lucene |
string |
Analizador de Lucene para hindi. |
hi.microsoft |
string |
Analizador de Microsoft para hindi. |
hr.microsoft |
string |
Analizador de Microsoft para croata. |
hu.lucene |
string |
Analizador de Lucene para húngaro. |
hu.microsoft |
string |
Analizador de Microsoft para húngaro. |
hy.lucene |
string |
Analizador de Lucene para Armenio. |
id.lucene |
string |
Analizador de Lucene para Indonesia. |
id.microsoft |
string |
Analizador de Microsoft para Indonesia (Bahasa). |
is.microsoft |
string |
Analizador de Microsoft para Islandés. |
it.lucene |
string |
Analizador de Lucene para italiano. |
it.microsoft |
string |
Analizador de Microsoft para italiano. |
ja.lucene |
string |
Analizador de Lucene para japonés. |
ja.microsoft |
string |
Analizador de Microsoft para japonés. |
keyword |
string |
Trata todo el contenido de un campo como un solo token. Esto es útil para los datos tipo código postal, identificador y algunos nombres de producto. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html. |
kn.microsoft |
string |
Analizador de Microsoft para Kannada. |
ko.lucene |
string |
Analizador de Lucene para coreano. |
ko.microsoft |
string |
Analizador de Microsoft para coreano. |
lt.microsoft |
string |
Analizador de Microsoft para Lituano. |
lv.lucene |
string |
Analizador de Lucene para Letón. |
lv.microsoft |
string |
Analizador de Microsoft para Letón. |
ml.microsoft |
string |
Analizador de Microsoft para Malayalam. |
mr.microsoft |
string |
Analizador de Microsoft para Marathi. |
ms.microsoft |
string |
Analizador de Microsoft para malayo (latino). |
nb.microsoft |
string |
Analizador de Microsoft para noruego (Bokmål). |
nl.lucene |
string |
Analizador de Lucene para neerlandés. |
nl.microsoft |
string |
Analizador de Microsoft para neerlandés. |
no.lucene |
string |
Analizador de Lucene para noruego. |
pa.microsoft |
string |
Analizador de Microsoft para Punjabi. |
pattern |
string |
Separa el texto de manera flexible en términos a través de un patrón de expresión regular. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html. |
pl.lucene |
string |
Analizador de Lucene para polaco. |
pl.microsoft |
string |
Analizador de Microsoft para polaco. |
pt-BR.lucene |
string |
Analizador de Lucene para portugués (Brasil). |
pt-BR.microsoft |
string |
Analizador de Microsoft para portugués (Brasil). |
pt-PT.lucene |
string |
Analizador de Lucene para portugués (Portugal). |
pt-PT.microsoft |
string |
Analizador de Microsoft para portugués (Portugal). |
ro.lucene |
string |
Analizador de Lucene para rumano. |
ro.microsoft |
string |
Analizador de Microsoft para rumano. |
ru.lucene |
string |
Analizador de Lucene para ruso. |
ru.microsoft |
string |
Analizador de Microsoft para ruso. |
simple |
string |
Divide el texto por donde no hay letras y lo convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html. |
sk.microsoft |
string |
Analizador de Microsoft para eslovaco. |
sl.microsoft |
string |
Analizador de Microsoft para Eslovenia. |
sr-cyrillic.microsoft |
string |
Analizador de Microsoft para serbio (cirílico). |
sr-latin.microsoft |
string |
Analizador de Microsoft para serbio (latino). |
standard.lucene |
string |
Analizador estándar de Lucene. |
standardasciifolding.lucene |
string |
Analizador de Lucene plegado ASCII estándar. Consulta https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers. |
stop |
string |
Divide el texto en letras no letras; Aplica los filtros de token en minúsculas y palabra irrelevantes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html. |
sv.lucene |
string |
Analizador de Lucene para sueco. |
sv.microsoft |
string |
Analizador de Microsoft para sueco. |
ta.microsoft |
string |
Analizador de Microsoft para Tamil. |
te.microsoft |
string |
Analizador de Microsoft para Telugu. |
th.lucene |
string |
Analizador de Lucene para tailandés. |
th.microsoft |
string |
Analizador de Microsoft para tailandés. |
tr.lucene |
string |
Analizador de Lucene para turco. |
tr.microsoft |
string |
Analizador de Microsoft para turco. |
uk.microsoft |
string |
Analizador de Microsoft para ucraniano. |
ur.microsoft |
string |
Analizador de Microsoft para Urdu. |
vi.microsoft |
string |
Analizador de Microsoft para vietnamita. |
whitespace |
string |
Un analizador que usa el tokenizador whitespace. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html. |
zh-Hans.lucene |
string |
Analizador de Lucene para chino (simplificado). |
zh-Hans.microsoft |
string |
Analizador de Microsoft para chino (simplificado). |
zh-Hant.lucene |
string |
Analizador de Lucene para chino (tradicional). |
zh-Hant.microsoft |
string |
Analizador de Microsoft para chino (tradicional). |
LexicalTokenizerName
Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.
Nombre | Tipo | Description |
---|---|---|
classic |
string |
Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html. |
edgeNGram |
string |
Tokeniza la entrada de un borde en n-gramas de los tamaños especificados. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html. |
keyword_v2 |
string |
Emite la entrada completa como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html. |
letter |
string |
Divide el texto por donde no hay letras. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html. |
lowercase |
string |
Divide el texto por donde no hay letras y lo convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html. |
microsoft_language_stemming_tokenizer |
string |
Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base. |
microsoft_language_tokenizer |
string |
Divide el texto mediante reglas específicas del idioma. |
nGram |
string |
Tokeniza la entrada en n-gramas de tamaños dados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html. |
path_hierarchy_v2 |
string |
Tokenizador para las jerarquías parecidas a rutas de acceso. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html. |
pattern |
string |
Tokenizador que usa la coincidencia de patrones regex para construir tokens distintos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html. |
standard_v2 |
string |
Analizador estándar de Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html. |
uax_url_email |
string |
Tokeniza las direcciones URL y los correos electrónicos como un token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html. |
whitespace |
string |
Divide el texto por los espacios en blanco. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html. |
LimitTokenFilter
Limita el número de tokens durante la indexación. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
consumeAllTokens |
boolean |
False |
Valor que indica si se deben consumir todos los tokens de la entrada incluso si se alcanza maxTokenCount. El valor predeterminado es False. |
maxTokenCount |
integer |
1 |
Número máximo de tokens que se van a generar. El valor predeterminado es 1. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
LuceneStandardAnalyzer
Analizador estándar de Apache Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de analizador. |
|
maxTokenLength |
integer |
255 |
Longitud máxima del token. El valor predeterminado es 255. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres. |
name |
string |
Nombre del analizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
stopwords |
string[] |
Lista de palabras irrelevantes. |
LuceneStandardTokenizer
Divide el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de tokenizador. |
|
maxTokenLength |
integer |
255 |
Longitud máxima del token. El valor predeterminado es 255. Los tokens que sobrepasen la longitud máxima se dividen. |
name |
string |
Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
LuceneStandardTokenizerV2
Divide el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de tokenizador. |
|
maxTokenLength |
integer |
255 |
Longitud máxima del token. El valor predeterminado es 255. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres. |
name |
string |
Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
MagnitudeScoringFunction
Define una función que aumenta las puntuaciones en función de la magnitud de un campo numérico.
Nombre | Tipo | Description |
---|---|---|
boost |
number |
Multiplicador de la puntuación sin procesar. Debe ser un número positivo no igual a 1,0. |
fieldName |
string |
Nombre del campo utilizado como entrada para la función de puntuación. |
interpolation |
Valor que indica cómo se interpolará la potenciación entre las puntuaciones de documentos; el valor predeterminado es "Linear". |
|
magnitude |
Valores de parámetro para la función de puntuación de magnitud. |
|
type |
string:
magnitude |
Indica el tipo de función que se usará. Entre los valores válidos se incluyen magnitud, índice de actualización, distancia y etiqueta. El tipo de función debe estar en minúsculas. |
MagnitudeScoringParameters
Proporciona valores de parámetro a una función de puntuación de magnitud.
Nombre | Tipo | Description |
---|---|---|
boostingRangeEnd |
number |
Valor de campo en el que finaliza la potenciación. |
boostingRangeStart |
number |
Valor de campo en el que se inicia la potenciación. |
constantBoostBeyondRange |
boolean |
Valor que indica si se debe aplicar un aumento constante para los valores de campo más allá del valor final del intervalo; el valor predeterminado es false. |
MappingCharFilter
Filtro de caracteres que aplica asignaciones definidas con la opción asignaciones. La coincidencia es ambiciosa (la mayor coincidencia de patrones en un momento dado gana). Se permite que la sustitución sea una cadena vacía. Este filtro de caracteres se implementa mediante Apache Lucene.
Nombre | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro char. |
mappings |
string[] |
Lista de asignaciones del formato siguiente: "a=>b" (todas las apariciones del carácter "a" se reemplazarán por el carácter "b"). |
name |
string |
Nombre del filtro char. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
MicrosoftLanguageStemmingTokenizer
Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de tokenizador. |
|
isSearchTokenizer |
boolean |
False |
Valor que indica cómo se usa el tokenizador. Se establece en true si se usa como tokenizador de búsqueda, se establece en false si se usa como tokenizador de indexación. El valor predeterminado es False. |
language |
Idioma que se va a usar. El valor predeterminado es inglés. |
||
maxTokenLength |
integer |
255 |
Longitud máxima del token. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es 300 caracteres. Los tokens de más de 300 caracteres se dividen primero en tokens de longitud 300 y, a continuación, cada uno de esos tokens se divide en función del conjunto de longitud máxima del token. El valor predeterminado es 255. |
name |
string |
Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
MicrosoftLanguageTokenizer
Divide el texto mediante reglas específicas del idioma.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de tokenizador. |
|
isSearchTokenizer |
boolean |
False |
Valor que indica cómo se usa el tokenizador. Se establece en true si se usa como tokenizador de búsqueda, se establece en false si se usa como tokenizador de indexación. El valor predeterminado es False. |
language |
Idioma que se va a usar. El valor predeterminado es inglés. |
||
maxTokenLength |
integer |
255 |
Longitud máxima del token. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es 300 caracteres. Los tokens de más de 300 caracteres se dividen primero en tokens de longitud 300 y, a continuación, cada uno de esos tokens se divide en función del conjunto de longitud máxima del token. El valor predeterminado es 255. |
name |
string |
Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
MicrosoftStemmingTokenizerLanguage
Listas los idiomas admitidos por el tokenizador de lematización de idioma de Microsoft.
Nombre | Tipo | Description |
---|---|---|
arabic |
string |
Selecciona el tokenizador de lematización de Microsoft para árabe. |
bangla |
string |
Selecciona el tokenizador de lematización de Microsoft para Bangla. |
bulgarian |
string |
Selecciona el tokenizador de lematización de Microsoft para búlgaro. |
catalan |
string |
Selecciona el tokenizador de lematización de Microsoft para catalán. |
croatian |
string |
Selecciona el tokenizador de lematización de Microsoft para croata. |
czech |
string |
Selecciona el tokenizador de lematización de Microsoft para Checo. |
danish |
string |
Selecciona el tokenizador de lematización de Microsoft para danés. |
dutch |
string |
Selecciona el tokenizador de lematización de Microsoft para neerlandés. |
english |
string |
Selecciona el tokenizador de lematización de Microsoft para inglés. |
estonian |
string |
Selecciona el tokenizador de lematización de Microsoft para estonio. |
finnish |
string |
Selecciona el tokenizador de lematización de Microsoft para Finés. |
french |
string |
Selecciona el tokenizador de lematización de Microsoft para francés. |
german |
string |
Selecciona el tokenizador de lematización de Microsoft para alemán. |
greek |
string |
Selecciona el tokenizador de lematización de Microsoft para griego. |
gujarati |
string |
Selecciona el tokenizador de lematización de Microsoft para Gujarati. |
hebrew |
string |
Selecciona el tokenizador de lematización de Microsoft para hebreo. |
hindi |
string |
Selecciona el tokenizador de lematización de Microsoft para Hindi. |
hungarian |
string |
Selecciona el tokenizador de lematización de Microsoft para húngaro. |
icelandic |
string |
Selecciona el tokenizador de lematización de Microsoft para Islandés. |
indonesian |
string |
Selecciona el tokenizador de lematización de Microsoft para Indonesio. |
italian |
string |
Selecciona el tokenizador de lematización de Microsoft para italiano. |
kannada |
string |
Selecciona el tokenizador de lematización de Microsoft para Kannada. |
latvian |
string |
Selecciona el tokenizador de lematización de Microsoft para Letón. |
lithuanian |
string |
Selecciona el tokenizador de lematización de Microsoft para Lituano. |
malay |
string |
Selecciona el tokenizador de lematización de Microsoft para Malay. |
malayalam |
string |
Selecciona el tokenizador de lematización de Microsoft para Malayalam. |
marathi |
string |
Selecciona el tokenizador de lematización de Microsoft para Marathi. |
norwegianBokmaal |
string |
Selecciona el tokenizador de lematización de Microsoft para Noruego (Bokmål). |
polish |
string |
Selecciona el tokenizador de lematización de Microsoft para Polaco. |
portuguese |
string |
Selecciona el tokenizador de lematización de Microsoft para portugués. |
portugueseBrazilian |
string |
Selecciona el tokenizador de lematización de Microsoft para portugués (Brasil). |
punjabi |
string |
Selecciona el tokenizador de lematización de Microsoft para Punjabi. |
romanian |
string |
Selecciona el tokenizador de lematización de Microsoft para rumano. |
russian |
string |
Selecciona el tokenizador de lematización de Microsoft para ruso. |
serbianCyrillic |
string |
Selecciona el tokenizador de lematización de Microsoft para serbio (cirílico). |
serbianLatin |
string |
Selecciona el tokenizador de lematización de Microsoft para serbio (latino). |
slovak |
string |
Selecciona el tokenizador de lematización de Microsoft para Eslovaco. |
slovenian |
string |
Selecciona el tokenizador de lematización de Microsoft para esloveno. |
spanish |
string |
Selecciona el tokenizador de lematización de Microsoft para español. |
swedish |
string |
Selecciona el tokenizador de lematización de Microsoft para sueco. |
tamil |
string |
Selecciona el tokenizador de lematización de Microsoft para Tamil. |
telugu |
string |
Selecciona el tokenizador de lematización de Microsoft para Telugu. |
turkish |
string |
Selecciona el tokenizador de lematización de Microsoft para turco. |
ukrainian |
string |
Selecciona el tokenizador de lematización de Microsoft para ucrania. |
urdu |
string |
Selecciona el tokenizador de lematización de Microsoft para Urdu. |
MicrosoftTokenizerLanguage
Listas los idiomas admitidos por el tokenizador de idioma de Microsoft.
Nombre | Tipo | Description |
---|---|---|
bangla |
string |
Selecciona el tokenizador de Microsoft para Bangla. |
bulgarian |
string |
Selecciona el tokenizador de Microsoft para búlgaro. |
catalan |
string |
Selecciona el tokenizador de Microsoft para catalán. |
chineseSimplified |
string |
Selecciona el tokenizador de Microsoft para chino (simplificado). |
chineseTraditional |
string |
Selecciona el tokenizador de Microsoft para chino (tradicional). |
croatian |
string |
Selecciona el tokenizador de Microsoft para croata. |
czech |
string |
Selecciona el tokenizador de Microsoft para Checo. |
danish |
string |
Selecciona el tokenizador de Microsoft para danés. |
dutch |
string |
Selecciona el tokenizador de Microsoft para neerlandés. |
english |
string |
Selecciona el tokenizador de Microsoft para inglés. |
french |
string |
Selecciona el tokenizador de Microsoft para francés. |
german |
string |
Selecciona el tokenizador de Microsoft para alemán. |
greek |
string |
Selecciona el tokenizador de Microsoft para griego. |
gujarati |
string |
Selecciona el tokenizador de Microsoft para Gujarati. |
hindi |
string |
Selecciona el tokenizador de Microsoft para Hindi. |
icelandic |
string |
Selecciona el tokenizador de Microsoft para Islandés. |
indonesian |
string |
Selecciona el tokenizador de Microsoft para Indonesia. |
italian |
string |
Selecciona el tokenizador de Microsoft para italiano. |
japanese |
string |
Selecciona el tokenizador de Microsoft para japonés. |
kannada |
string |
Selecciona el tokenizador de Microsoft para Kannada. |
korean |
string |
Selecciona el tokenizador de Microsoft para coreano. |
malay |
string |
Selecciona el tokenizador de Microsoft para Malay. |
malayalam |
string |
Selecciona el tokenizador de Microsoft para Malayalam. |
marathi |
string |
Selecciona el tokenizador de Microsoft para Marathi. |
norwegianBokmaal |
string |
Selecciona el tokenizador de Microsoft para Noruego (Bokmål). |
polish |
string |
Selecciona el tokenizador de Microsoft para Polaco. |
portuguese |
string |
Selecciona el tokenizador de Microsoft para portugués. |
portugueseBrazilian |
string |
Selecciona el tokenizador de Microsoft para portugués (Brasil). |
punjabi |
string |
Selecciona el tokenizador de Microsoft para Punjabi. |
romanian |
string |
Selecciona el tokenizador de Microsoft para rumano. |
russian |
string |
Selecciona el tokenizador de Microsoft para ruso. |
serbianCyrillic |
string |
Selecciona el tokenizador de Microsoft para serbio (cirílico). |
serbianLatin |
string |
Selecciona el tokenizador de Microsoft para serbio (latino). |
slovenian |
string |
Selecciona el tokenizador de Microsoft para esloveno. |
spanish |
string |
Selecciona el tokenizador de Microsoft para español. |
swedish |
string |
Selecciona el tokenizador de Microsoft para sueco. |
tamil |
string |
Selecciona el tokenizador de Microsoft para Tamil. |
telugu |
string |
Selecciona el tokenizador de Microsoft para Telugu. |
thai |
string |
Selecciona el tokenizador de Microsoft para tailandés. |
ukrainian |
string |
Selecciona el tokenizador de Microsoft para ucrania. |
urdu |
string |
Selecciona el tokenizador de Microsoft para Urdu. |
vietnamese |
string |
Selecciona el tokenizador de Microsoft para vietnamita. |
NGramTokenFilter
Genera n-gramas de los tamaños dados. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
maxGram |
integer |
2 |
Longitud máxima de n-gramas. El valor predeterminado es 2. |
minGram |
integer |
1 |
Longitud mínima de n-gramas. El valor predeterminado es 1. Debe ser menor que el valor de maxGram. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
NGramTokenFilterV2
Genera n-gramas de los tamaños dados. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
maxGram |
integer |
2 |
Longitud máxima de n-gramas. El valor predeterminado es 2. El máximo es 300. |
minGram |
integer |
1 |
Longitud mínima de n-gramas. El valor predeterminado es 1. El máximo es 300. Debe ser menor que el valor de maxGram. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
NGramTokenizer
Tokeniza la entrada en n-gramas de tamaños dados. Este tokenizador se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de tokenizador. |
|
maxGram |
integer |
2 |
Longitud máxima de n-gramas. El valor predeterminado es 2. El máximo es 300. |
minGram |
integer |
1 |
Longitud mínima de n-gramas. El valor predeterminado es 1. El máximo es 300. Debe ser menor que el valor de maxGram. |
name |
string |
Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
tokenChars |
Clases de caracteres que se mantendrán en los tokens. |
PathHierarchyTokenizerV2
Tokenizador para las jerarquías parecidas a rutas de acceso. Este tokenizador se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de tokenizador. |
|
delimiter |
string |
/ |
Carácter delimitador que se va a usar. El valor predeterminado es "/". |
maxTokenLength |
integer |
300 |
Longitud máxima del token. El valor predeterminado y máximo es 300. |
name |
string |
Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
replacement |
string |
/ |
Valor que, si se establece, reemplaza el carácter delimitador. El valor predeterminado es "/". |
reverse |
boolean |
False |
Valor que indica si se van a generar tokens en orden inverso. El valor predeterminado es False. |
skip |
integer |
0 |
Número de tokens iniciales que se omitirán. El valor predeterminado es 0. |
PatternAnalyzer
Separa el texto de manera flexible en términos a través de un patrón de expresión regular. Este analizador se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de analizador. |
|
flags |
Marcas de expresión regular. |
||
lowercase |
boolean |
True |
Valor que indica si los términos deben estar en minúsculas. El valor predeterminado es true. |
name |
string |
Nombre del analizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
pattern |
string |
\W+ |
Patrón de expresión regular para buscar coincidencias con separadores de token. El valor predeterminado es una expresión que coincide con uno o varios caracteres que no son de palabra. |
stopwords |
string[] |
Lista de palabras irrelevantes. |
PatternCaptureTokenFilter
Usa expresiones regulares de Java para emitir varios tokens: uno para cada grupo de capturas en uno o varios patrones. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
patterns |
string[] |
Lista de patrones que se van a comparar con cada token. |
|
preserveOriginal |
boolean |
True |
Valor que indica si se va a devolver el token original incluso si uno de los patrones coincide. El valor predeterminado es true. |
PatternReplaceCharFilter
Filtro de caracteres que reemplaza los caracteres de la cadena de entrada. Usa una expresión regular para identificar las secuencias de caracteres que se desean conservar y un patrón de reemplazo para identificar los caracteres que se desean reemplazar. Por ejemplo, dado el texto de entrada "aa bb aa bb", el patrón "(aa)\s+(bb)" y el reemplazo "$1#$2", el resultado sería "aa#bb aa#bb aa#bb". Este filtro de caracteres se implementa mediante Apache Lucene.
Nombre | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro char. |
name |
string |
Nombre del filtro char. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
pattern |
string |
Patrón de expresión regular. |
replacement |
string |
Texto de sustitución. |
PatternReplaceTokenFilter
Filtro de caracteres que reemplaza los caracteres de la cadena de entrada. Usa una expresión regular para identificar las secuencias de caracteres que se desean conservar y un patrón de reemplazo para identificar los caracteres que se desean reemplazar. Por ejemplo, dado el texto de entrada "aa bb aa bb", el patrón "(aa)\s+(bb)" y el reemplazo "$1#$2", el resultado sería "aa#bb aa#bb aa#bb". Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
pattern |
string |
Patrón de expresión regular. |
replacement |
string |
Texto de sustitución. |
PatternTokenizer
Tokenizador que usa la coincidencia de patrones regex para construir tokens distintos. Este tokenizador se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de tokenizador. |
|
flags |
Marcas de expresión regular. |
||
group |
integer |
-1 |
Ordinal de base cero del grupo coincidente en el patrón de expresión regular que se va a extraer en tokens. Use -1 si desea usar todo el patrón para dividir la entrada en tokens, independientemente de los grupos coincidentes. El valor predeterminado es -1. |
name |
string |
Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
pattern |
string |
\W+ |
Patrón de expresión regular para buscar coincidencias con separadores de token. El valor predeterminado es una expresión que coincide con uno o varios caracteres que no son de palabra. |
PhoneticEncoder
Identifica el tipo de codificador fonético que se va a usar con un PhoneticTokenFilter.
Nombre | Tipo | Description |
---|---|---|
beiderMorse |
string |
Codifica un token en un valor de Beider-Morse. |
caverphone1 |
string |
Codifica un token en un valor caverphone 1.0. |
caverphone2 |
string |
Codifica un token en un valor caverphone 2.0. |
cologne |
string |
Codifica un token en un valor fonético de Colonia. |
doubleMetaphone |
string |
Codifica un token en un valor de metaphone doble. |
haasePhonetik |
string |
Codifica un token mediante el refinamiento haase del algoritmo Kölner Phonetik. |
koelnerPhonetik |
string |
Codifica un token mediante el algoritmo Kölner Phonetik. |
metaphone |
string |
Codifica un token en un valor de Metaphone. |
nysiis |
string |
Codifica un token en un valor NYSIIS. |
refinedSoundex |
string |
Codifica un token en un valor Soundex refinado. |
soundex |
string |
Codifica un token en un valor Soundex. |
PhoneticTokenFilter
Crea tokens para coincidencias fonéticas. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
encoder | metaphone |
Codificador fonético que se va a usar. El valor predeterminado es "metaphone". |
|
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
replace |
boolean |
True |
Valor que indica si los tokens codificados deben reemplazar los tokens originales. Si es false, los tokens codificados se agregan como sinónimos. El valor predeterminado es true. |
PrioritizedFields
Describe los campos título, contenido y palabras clave que se usarán para la clasificación semántica, los títulos, los resaltados y las respuestas.
Nombre | Tipo | Description |
---|---|---|
prioritizedContentFields |
Define los campos de contenido que se usarán para la clasificación semántica, los subtítulos, los resaltados y las respuestas. Para obtener el mejor resultado, los campos seleccionados deben contener texto en formato de lenguaje natural. El orden de los campos de la matriz representa su prioridad. Los campos con prioridad inferior se pueden truncar si el contenido es largo. |
|
prioritizedKeywordsFields |
Define los campos de palabra clave que se usarán para la clasificación semántica, los títulos, los resaltados y las respuestas. Para obtener el mejor resultado, los campos seleccionados deben contener una lista de palabras clave. El orden de los campos de la matriz representa su prioridad. Los campos con prioridad inferior se pueden truncar si el contenido es largo. |
|
titleField |
Define el campo de título que se usará para la clasificación semántica, los títulos, los resaltados y las respuestas. Si no tiene un campo de título en el índice, déjelo en blanco. |
RegexFlags
Define marcas que se pueden combinar para controlar cómo se usan las expresiones regulares en el analizador de patrones y el tokenizador de patrones.
Nombre | Tipo | Description |
---|---|---|
CANON_EQ |
string |
Habilita la equivalencia canónica. |
CASE_INSENSITIVE |
string |
Habilita la coincidencia sin distinción entre mayúsculas y minúsculas. |
COMMENTS |
string |
Permite espacios en blanco y comentarios en el patrón. |
DOTALL |
string |
Habilita el modo dotall. |
LITERAL |
string |
Habilita el análisis literal del patrón. |
MULTILINE |
string |
Habilita el modo multilínea. |
UNICODE_CASE |
string |
Habilita el plegado de mayúsculas y minúsculas compatibles con Unicode. |
UNIX_LINES |
string |
Habilita el modo de líneas unix. |
ScoringFunctionAggregation
Define la función de agregación usada para combinar los resultados de todas las funciones de puntuación de un perfil de puntuación.
Nombre | Tipo | Description |
---|---|---|
average |
string |
Aumente las puntuaciones según el promedio de todos los resultados de la función de puntuación. |
firstMatching |
string |
Aumente las puntuaciones con la primera función de puntuación aplicable en el perfil de puntuación. |
maximum |
string |
Aumente las puntuaciones por el máximo de todos los resultados de la función de puntuación. |
minimum |
string |
Aumente las puntuaciones por el mínimo de todos los resultados de la función de puntuación. |
sum |
string |
Aumente las puntuaciones por la suma de todos los resultados de la función de puntuación. |
ScoringFunctionInterpolation
Define la función que se usa para interpolar la potenciación de la puntuación en un intervalo de documentos.
Nombre | Tipo | Description |
---|---|---|
constant |
string |
Aumenta las puntuaciones por un factor constante. |
linear |
string |
Aumenta las puntuaciones por una cantidad decreciente linealmente. Esta es la interpolación predeterminada para las funciones de puntuación. |
logarithmic |
string |
Aumenta las puntuaciones por una cantidad que disminuye logarítmicamente. Aumenta rápidamente para obtener puntuaciones más altas y, más lentamente, a medida que se reducen las puntuaciones. Esta opción de interpolación no se permite en funciones de puntuación de etiquetas. |
quadratic |
string |
Aumenta las puntuaciones por una cantidad que disminuye cuadráticamente. Los aumentos reducen lentamente las puntuaciones más altas y, más rápidamente, a medida que se reducen las puntuaciones. Esta opción de interpolación no se permite en funciones de puntuación de etiquetas. |
ScoringProfile
Define parámetros para un índice de búsqueda que influye en la puntuación en las consultas de búsqueda.
Nombre | Tipo | Description |
---|---|---|
functionAggregation |
Valor que indica cómo se deben combinar los resultados de las funciones de puntuación individuales. El valor predeterminado es "Sum". Se omite si no hay funciones de puntuación. |
|
functions | ScoringFunction[]: |
Colección de funciones que influyen en la puntuación de los documentos. |
name |
string |
Nombre del perfil de puntuación. |
text |
Parámetros que aumentan la puntuación en función de coincidencias de texto en determinados campos de índice. |
SearchError
Describe una condición de error para la API.
Nombre | Tipo | Description |
---|---|---|
code |
string |
Uno de un conjunto definido por el servidor de códigos de error. |
details |
Matriz de detalles sobre errores específicos que llevaron a este error notificado. |
|
message |
string |
Representación legible del error. |
SearchField
Representa un campo de una definición de índice, que describe el nombre, el tipo de datos y el comportamiento de búsqueda de un campo.
Nombre | Tipo | Description |
---|---|---|
analyzer |
Nombre del analizador que se va a usar para el campo. Esta opción puede utilizarse solo con campos habilitados para la búsqueda y no se puede establecer junto con searchAnalyzer ni indexAnalyzer. Una vez que se elige el analizador, no se podrá cambiar para el campo. Debe ser null para campos complejos. |
|
dimensions |
integer |
Dimensionalidad del campo vectorial. |
facetable |
boolean |
Valor que indica si se va a permitir que se haga referencia al campo en las consultas de faceta. Normalmente se usa en una presentación de resultados de búsqueda que incluye el número de llamadas por categoría (por ejemplo, buscar cámaras digitales y ver visitas por marca, por megapíxeles, por precio, etc.). Esta propiedad debe ser null para campos complejos. Los campos de tipo Edm.GeographyPoint o Collection(Edm.GeographyPoint) no pueden ser facetables. El valor predeterminado es true para todos los demás campos simples. |
fields |
Lista de subcampos si se trata de un campo de tipo Edm.ComplexType o Collection(Edm.ComplexType). Debe ser null o estar vacío para los campos simples. |
|
filterable |
boolean |
Valor que indica si se debe hacer referencia al campo en $filter consultas. filterable difiere de lo que se puede buscar en la forma en que se controlan las cadenas. Los campos de tipo Edm.String o Collection(Edm.String) que se pueden filtrar no se someten a separación de palabras, por lo que las comparaciones son solo para coincidencias exactas. Por ejemplo, si establece este campo f en "sunny day", $filter=f eq 'sunny' no encontrará coincidencias, pero $filter=f eq 'sunny day' will. Esta propiedad debe ser null para campos complejos. El valor predeterminado es true para los campos simples y null para los campos complejos. |
indexAnalyzer |
Nombre del analizador utilizado en el tiempo de indexación del campo. Esta opción solo se puede usar con campos que se pueden buscar. Debe establecerse junto con searchAnalyzer y no se puede establecer junto con la opción del analizador. Esta propiedad no se puede establecer en el nombre de un analizador de idioma; Use la propiedad analyzer en su lugar si necesita un analizador de lenguaje. Una vez que se elige el analizador, no se podrá cambiar para el campo. Debe ser null para campos complejos. |
|
key |
boolean |
Valor que indica si el campo identifica de forma única los documentos del índice. Se debe elegir exactamente un campo de nivel superior en cada índice como campo clave y debe ser de tipo Edm.String. Los campos clave se pueden usar para buscar documentos directamente y actualizar o eliminar documentos específicos. El valor predeterminado es false para los campos simples y null para los campos complejos. |
name |
string |
Nombre del campo, que debe ser único dentro de la colección fields del índice o campo primario. |
retrievable |
boolean |
Valor que indica si el campo se puede devolver en un resultado de búsqueda. Puede deshabilitar esta opción si desea usar un campo (por ejemplo, margen) como filtro, ordenación o mecanismo de puntuación, pero no desea que el campo sea visible para el usuario final. Esta propiedad debe ser true para los campos clave y debe ser NULL para campos complejos. Esta propiedad se puede cambiar en campos existentes. La habilitación de esta propiedad no provoca ningún aumento en los requisitos de almacenamiento de índices. El valor predeterminado es true para los campos simples y null para los campos complejos. |
searchAnalyzer |
Nombre del analizador utilizado en el momento de la búsqueda del campo. Esta opción solo se puede usar con campos que se pueden buscar. Debe establecerse junto con indexAnalyzer y no se puede establecer junto con la opción analizador. Esta propiedad no se puede establecer en el nombre de un analizador de idioma; Use la propiedad analyzer en su lugar si necesita un analizador de lenguaje. Este analizador se puede actualizar en un campo existente. Debe ser null para campos complejos. |
|
searchable |
boolean |
Valor que indica si el campo es buscable de texto completo. Esto significa que se someterá a análisis como la separación de palabras durante la indexación. Si establece un campo buscable en un valor como "día soleado", internamente se dividirá en los tokens individuales "soleado" y "día". Esto permite realizar búsquedas de texto completo de estos términos. Los campos de tipo Edm.String o Collection(Edm.String) se pueden buscar de forma predeterminada. Esta propiedad debe ser false para los campos simples de otros tipos de datos que no son de cadena y debe ser null para campos complejos. Nota: Los campos que se pueden buscar consumen espacio adicional en el índice para dar cabida a versiones tokenizadas adicionales del valor de campo para las búsquedas de texto completo. Si desea ahorrar espacio en el índice y no necesita incluir un campo en las búsquedas, establezca searchable en false. |
sortable |
boolean |
Valor que indica si se debe hacer referencia al campo en $orderby expresiones. De forma predeterminada, el motor de búsqueda ordena los resultados por puntuación, pero en muchas experiencias los usuarios querrán ordenar por campos de los documentos. Un campo simple solo se puede ordenar si es de un solo valor (tiene un valor único en el ámbito del documento primario). Los campos de colección simples no se pueden ordenar, ya que son multivalor. Los subprocesos simples de colecciones complejas también tienen varios valores y, por tanto, no se pueden ordenar. Esto es cierto si es un campo primario inmediato o un campo antecesor, es la colección compleja. Los campos complejos no se pueden ordenar y la propiedad ordenable debe ser null para estos campos. El valor predeterminado para ordenar es true para los campos simples de un solo valor, false para los campos simples con varios valores y null para los campos complejos. |
synonymMaps |
string[] |
Lista de los nombres de los mapas de sinónimos que se van a asociar a este campo. Esta opción solo se puede usar con campos que se pueden buscar. Actualmente solo se admite un mapa de sinónimos por campo. La asignación de un mapa de sinónimos a un campo garantiza que los términos de consulta destinados a ese campo se expanden en tiempo de consulta mediante las reglas del mapa de sinónimos. Este atributo se puede cambiar en los campos existentes. Debe ser null o una colección vacía para campos complejos. |
type |
Tipo de datos del campo. |
|
vectorSearchProfile |
string |
Nombre del perfil de búsqueda vectorial que especifica el algoritmo que se va a usar al buscar en el campo vectorial. |
SearchFieldDataType
Define el tipo de datos de un campo en un índice de búsqueda.
Nombre | Tipo | Description |
---|---|---|
Edm.Boolean |
string |
Indica que un campo contiene un valor booleano (true o false). |
Edm.ComplexType |
string |
Indica que un campo contiene uno o varios objetos complejos que, a su vez, tienen subcampos de otros tipos. |
Edm.DateTimeOffset |
string |
Indica que un campo contiene un valor de fecha y hora, incluida la información de zona horaria. |
Edm.Double |
string |
Indica que un campo contiene un número de punto flotante de precisión doble IEEE. |
Edm.GeographyPoint |
string |
Indica que un campo contiene una ubicación geográfica en términos de longitud y latitud. |
Edm.Int32 |
string |
Indica que un campo contiene un entero de 32 bits con signo. |
Edm.Int64 |
string |
Indica que un campo contiene un entero de 64 bits con signo. |
Edm.Single |
string |
Indica que un campo contiene un número de punto flotante de precisión sencilla. Esto solo es válido cuando se usa con Collection(Edm.Single). |
Edm.String |
string |
Indica que un campo contiene una cadena. |
SearchIndex
Representa una definición de índice de búsqueda, que describe los campos y el comportamiento de búsqueda de un índice.
Nombre | Tipo | Description |
---|---|---|
@odata.etag |
string |
ETag del índice. |
analyzers | LexicalAnalyzer[]: |
Analizadores del índice. |
charFilters | CharFilter[]: |
Filtros de caracteres para el índice. |
corsOptions |
Opciones para controlar el uso compartido de recursos entre orígenes (CORS) para el índice. |
|
defaultScoringProfile |
string |
Nombre del perfil de puntuación que se va a usar si no se especifica ninguno en la consulta. Si esta propiedad no está establecida y no se especifica ningún perfil de puntuación en la consulta, se usará la puntuación predeterminada (tf-idf). |
encryptionKey |
Descripción de una clave de cifrado que se crea en Azure Key Vault. Esta clave se usa para proporcionar un nivel adicional de cifrado en reposo para los datos cuando desee asegurarse de que nadie, ni siquiera Microsoft, puede descifrar los datos. Una vez que haya cifrado los datos, siempre permanecerá cifrado. El servicio de búsqueda omitirá los intentos de establecer esta propiedad en null. Puede cambiar esta propiedad según sea necesario si desea rotar la clave de cifrado; Los datos no se verán afectados. El cifrado con claves administradas por el cliente no está disponible para los servicios de búsqueda gratuitos y solo está disponible para los servicios de pago creados el 1 de enero de 2019 o después. |
|
fields |
Campos del índice. |
|
name |
string |
El nombre del índice. |
scoringProfiles |
Perfiles de puntuación para el índice. |
|
semantic |
Define parámetros para un índice de búsqueda que influye en las funcionalidades semánticas. |
|
similarity | Similarity: |
Tipo de algoritmo de similitud que se va a usar al puntuar y clasificar los documentos que coinciden con una consulta de búsqueda. El algoritmo de similitud solo se puede definir en el momento de la creación del índice y no se puede modificar en índices existentes. Si es null, se usa el algoritmo ClassicSimilarity. |
suggesters |
Los proveedores de sugerencias para el índice. |
|
tokenFilters |
TokenFilter[]:
|
El token filtra el índice. |
tokenizers | LexicalTokenizer[]: |
Tokenizadores para el índice. |
vectorSearch |
Contiene opciones de configuración relacionadas con la búsqueda de vectores. |
SearchResourceEncryptionKey
Una clave de cifrado administrada por el cliente en Azure Key Vault. Las claves que cree y administre se pueden usar para cifrar o descifrar datos en reposo en el servicio de búsqueda, como índices y mapas de sinónimos.
Nombre | Tipo | Description |
---|---|---|
accessCredentials |
Credenciales opcionales de Azure Active Directory que se usan para acceder a la Key Vault de Azure. No es necesario si se usa la identidad administrada en su lugar. |
|
keyVaultKeyName |
string |
Nombre de la clave de Azure Key Vault que se usará para cifrar los datos en reposo. |
keyVaultKeyVersion |
string |
La versión de la clave de Azure Key Vault que se usará para cifrar los datos en reposo. |
keyVaultUri |
string |
El URI de la Key Vault de Azure, también denominado nombre DNS, que contiene la clave que se va a usar para cifrar los datos en reposo. Un identificador URI de ejemplo podría ser |
SemanticConfiguration
Define una configuración específica que se usará en el contexto de las funcionalidades semánticas.
Nombre | Tipo | Description |
---|---|---|
name |
string |
Nombre de la configuración semántica. |
prioritizedFields |
Describe los campos de título, contenido y palabra clave que se usarán para la clasificación semántica, los títulos, los resaltados y las respuestas. Es necesario establecer al menos una de las tres subpropiedades (titleField, priordKeywordsFields y prioritizedContentFields). |
SemanticField
Campo que se usa como parte de la configuración semántica.
Nombre | Tipo | Description |
---|---|---|
fieldName |
string |
SemanticSettings
Define parámetros para un índice de búsqueda que influye en las funcionalidades semánticas.
Nombre | Tipo | Description |
---|---|---|
configurations |
Configuraciones semánticas para el índice. |
|
defaultConfiguration |
string |
Permite establecer el nombre de una configuración semántica predeterminada en el índice, lo que lo convierte en opcional para pasarlo como parámetro de consulta cada vez. |
ShingleTokenFilter
Crea combinaciones de tokens como un solo token. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
filterToken |
string |
_ |
Cadena que se va a insertar para cada posición en la que no hay ningún token. El valor predeterminado es un carácter de subrayado ("_"). |
maxShingleSize |
integer |
2 |
Tamaño máximo del shingle. El valor predeterminado y mínimo es 2. |
minShingleSize |
integer |
2 |
Tamaño mínimo del shingle. El valor predeterminado y mínimo es 2. Debe ser menor que el valor de maxShingleSize. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
outputUnigrams |
boolean |
True |
Valor que indica si el flujo de salida contendrá los tokens de entrada (unigramas) así como los shingles. El valor predeterminado es true. |
outputUnigramsIfNoShingles |
boolean |
False |
Valor que indica si se van a generar unigramas para esas horas cuando no hay ningún shingle disponible. Esta propiedad tiene prioridad cuando outputUnigrams está establecido en false. El valor predeterminado es False. |
tokenSeparator |
string |
Cadena que se va a usar al unir tokens adyacentes para formar un shingle. El valor predeterminado es un espacio único (" "). |
SnowballTokenFilter
Filtro que deriva las palabras mediante un lematizador generado por Snowball. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
language |
Idioma que se va a usar. |
|
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
SnowballTokenFilterLanguage
Idioma que se va a usar para un filtro de token de Snowball.
Nombre | Tipo | Description |
---|---|---|
armenian |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para Armenio. |
basque |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para Euskera. |
catalan |
string |
Selecciona el tokenizador de lematización lucene Snowball para catalán. |
danish |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para danés. |
dutch |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para neerlandés. |
english |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para inglés. |
finnish |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para Finnish. |
french |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para francés. |
german |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para alemán. |
german2 |
string |
Selecciona el tokenizador de lematización de Lucene Snowball que usa el algoritmo de variante alemán. |
hungarian |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para húngaro. |
italian |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para italiano. |
kp |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para neerlandés que usa el algoritmo de lematización Kraaij-Pohlmann. |
lovins |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para inglés que usa el algoritmo de lematización de Lovins. |
norwegian |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para noruego. |
porter |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para inglés que usa el algoritmo de lematización porter. |
portuguese |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para portugués. |
romanian |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para rumano. |
russian |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para ruso. |
spanish |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para español. |
swedish |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para sueco. |
turkish |
string |
Selecciona el tokenizador de lematización de Lucene Snowball para turco. |
StemmerOverrideTokenFilter
Proporciona la capacidad de invalidar otros filtros de lematización con lematización personalizada basada en diccionarios. Los términos con lematización del diccionario se marcarán como palabras clave para que no se lematice con lematizadores hacia abajo en la cadena. Se debe colocar antes de los filtros de lematización. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
rules |
string[] |
Lista de reglas de lematización con el siguiente formato: "word => stem", por ejemplo: "ran => run". |
StemmerTokenFilter
Filtro de lematización específico del idioma. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
language |
Idioma que se va a usar. |
|
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
StemmerTokenFilterLanguage
Idioma que se va a usar para un filtro de token de lematizador.
Nombre | Tipo | Description |
---|---|---|
arabic |
string |
Selecciona el tokenizador de lematización de Lucene para árabe. |
armenian |
string |
Selecciona el tokenizador de lematización lucene para armenio. |
basque |
string |
Selecciona el tokenizador de lematización de Lucene para Euskera. |
brazilian |
string |
Selecciona el tokenizador de lematización de Lucene para portugués (Brasil). |
bulgarian |
string |
Selecciona el tokenizador de lematización de Lucene para búlgaro. |
catalan |
string |
Selecciona el tokenizador de lematización lucene para catalán. |
czech |
string |
Selecciona el tokenizador de lematización de Lucene para Checo. |
danish |
string |
Selecciona el tokenizador de lematización de Lucene para danés. |
dutch |
string |
Selecciona el tokenizador de lematización de Lucene para holandés. |
dutchKp |
string |
Selecciona el tokenizador de lematización de Lucene para neerlandés que usa el algoritmo de lematización Kraaij-Pohlmann. |
english |
string |
Selecciona el tokenizador de lematización de Lucene para inglés. |
finnish |
string |
Selecciona el tokenizador de lematización de Lucene para finés. |
french |
string |
Selecciona el tokenizador de lematización de Lucene para francés. |
galician |
string |
Selecciona el tokenizador de lematización de Lucene para Gallega. |
german |
string |
Selecciona el tokenizador de lematización de Lucene para alemán. |
german2 |
string |
Selecciona el tokenizador de lematización de Lucene que usa el algoritmo de variante alemán. |
greek |
string |
Selecciona el tokenizador de lematización de Lucene para griego. |
hindi |
string |
Selecciona el tokenizador de lematización de Lucene para hindi. |
hungarian |
string |
Selecciona el tokenizador de lematización de Lucene para húngaro. |
indonesian |
string |
Selecciona el tokenizador de lematización de Lucene para Indonesia. |
irish |
string |
Selecciona el tokenizador de lematización de Lucene para irlandés. |
italian |
string |
Selecciona el tokenizador de lematización de Lucene para italiano. |
latvian |
string |
Selecciona el tokenizador de lematización de Lucene para letón. |
lightEnglish |
string |
Selecciona el tokenizador de lematización de Lucene para inglés que realiza lematización ligera. |
lightFinnish |
string |
Selecciona el tokenizador de lematización de Lucene para finés que realiza lematización ligera. |
lightFrench |
string |
Selecciona el tokenizador de lematización de Lucene para francés que realiza lematización ligera. |
lightGerman |
string |
Selecciona el tokenizador de lematización de Lucene para alemán que realiza lematización ligera. |
lightHungarian |
string |
Selecciona el tokenizador de lematización de Lucene para húngaro que realiza lematización ligera. |
lightItalian |
string |
Selecciona el tokenizador de lematización de Lucene para italiano que realiza lematización ligera. |
lightNorwegian |
string |
Selecciona el tokenizador de lematización de Lucene para noruego (Bokmål) que realiza lematización ligera. |
lightNynorsk |
string |
Selecciona el tokenizador de lematización de Lucene para noruego (Nynorsk) que realiza lematización ligera. |
lightPortuguese |
string |
Selecciona el tokenizador de lematización de Lucene para portugués que realiza lematización ligera. |
lightRussian |
string |
Selecciona el tokenizador de lematización de Lucene para ruso que realiza lematización ligera. |
lightSpanish |
string |
Selecciona el tokenizador de lematización de Lucene para español que realiza lematización ligera. |
lightSwedish |
string |
Selecciona el tokenizador de lematización lucene para sueco que realiza lematización ligera. |
lovins |
string |
Selecciona el tokenizador de lematización de Lucene para inglés que usa el algoritmo de lematización de Lovins. |
minimalEnglish |
string |
Selecciona el tokenizador de lematización de Lucene para inglés que realiza una lematización mínima. |
minimalFrench |
string |
Selecciona el tokenizador de lematización de Lucene para francés que realiza una lematización mínima. |
minimalGalician |
string |
Selecciona el tokenizador de lematización lucene para gallega que realiza una lematización mínima. |
minimalGerman |
string |
Selecciona el tokenizador de lematización de Lucene para alemán que realiza una lematización mínima. |
minimalNorwegian |
string |
Selecciona el tokenizador de lematización de Lucene para noruego (Bokmål) que realiza una lematización mínima. |
minimalNynorsk |
string |
Selecciona el tokenizador de lematización de Lucene para noruego (Nynorsk) que realiza una lematización mínima. |
minimalPortuguese |
string |
Selecciona el tokenizador de lematización de Lucene para portugués que realiza una lematización mínima. |
norwegian |
string |
Selecciona el tokenizador de lematización lucene para noruego (Bokmål). |
porter2 |
string |
Selecciona el tokenizador de lematización de Lucene para inglés que usa el algoritmo de lematización porter2. |
portuguese |
string |
Selecciona el tokenizador de lematización de Lucene para portugués. |
portugueseRslp |
string |
Selecciona el tokenizador de lematización de Lucene para portugués que usa el algoritmo de lematización RSLP. |
possessiveEnglish |
string |
Selecciona el tokenizador de lematización de Lucene para inglés que quita los posesivos finales de las palabras. |
romanian |
string |
Selecciona el tokenizador de lematización de Lucene para rumano. |
russian |
string |
Selecciona el tokenizador de lematización de Lucene para ruso. |
sorani |
string |
Selecciona el tokenizador de lematización de Lucene para Sorani. |
spanish |
string |
Selecciona el tokenizador de lematización de Lucene para español. |
swedish |
string |
Selecciona el tokenizador de lematización de Lucene para sueco. |
turkish |
string |
Selecciona el tokenizador de lematización de Lucene para turco. |
StopAnalyzer
Divide el texto en letras no letras; Aplica los filtros de token en minúsculas y palabra irrelevantes. Este analizador se implementa mediante Apache Lucene.
Nombre | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de analizador. |
name |
string |
Nombre del analizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
stopwords |
string[] |
Lista de palabras irrelevantes. |
StopwordsList
Identifica una lista predefinida de palabras irrelevantes específicas del lenguaje.
Nombre | Tipo | Description |
---|---|---|
arabic |
string |
Selecciona la lista de palabras irrelevantes para árabe. |
armenian |
string |
Selecciona la lista de palabras irrelevantes de Armenia. |
basque |
string |
Selecciona la lista de palabras irrelevantes de Basque. |
brazilian |
string |
Selecciona la lista de palabras irrelevantes para portugués (Brasil). |
bulgarian |
string |
Selecciona la lista de palabras irrelevantes para búlgaro. |
catalan |
string |
Selecciona la lista de palabras irrelevantes para catalán. |
czech |
string |
Selecciona la lista de palabras irrelevantes para Checo. |
danish |
string |
Selecciona la lista de palabras irrelevantes para danés. |
dutch |
string |
Selecciona la lista de palabras irrelevantes para neerlandés. |
english |
string |
Selecciona la lista de palabras irrelevantes para inglés. |
finnish |
string |
Selecciona la lista de palabras irrelevantes para Finnish. |
french |
string |
Selecciona la lista de palabras irrelevantes para francés. |
galician |
string |
Selecciona la lista de palabras irrelevantes de Gallega. |
german |
string |
Selecciona la lista de palabras irrelevantes para alemán. |
greek |
string |
Selecciona la lista de palabras irrelevantes para griego. |
hindi |
string |
Selecciona la lista de palabras irrelevantes para hindi. |
hungarian |
string |
Selecciona la lista de palabras irrelevantes para húngaro. |
indonesian |
string |
Selecciona la lista de palabras irrelevantes de Indonesia. |
irish |
string |
Selecciona la lista de palabras irrelevantes para irlandés. |
italian |
string |
Selecciona la lista de palabras irrelevantes para italiano. |
latvian |
string |
Selecciona la lista de palabras irrelevantes para letón. |
norwegian |
string |
Selecciona la lista de palabras irrelevantes para Noruego. |
persian |
string |
Selecciona la lista de palabras irrelevantes para Persa. |
portuguese |
string |
Selecciona la lista de palabras irrelevantes para portugués. |
romanian |
string |
Selecciona la lista de palabras irrelevantes para rumano. |
russian |
string |
Selecciona la lista de palabras irrelevantes para ruso. |
sorani |
string |
Selecciona la lista de palabras irrelevantes de Sorani. |
spanish |
string |
Selecciona la lista de palabras irrelevantes para español. |
swedish |
string |
Selecciona la lista de palabras irrelevantes para sueco. |
thai |
string |
Selecciona la lista de palabras irrelevantes de Thai. |
turkish |
string |
Selecciona la lista de palabras irrelevantes para Turco. |
StopwordsTokenFilter
Quita las palabras irrelevantes de una secuencia de tokens. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
ignoreCase |
boolean |
False |
Valor que indica si se omitirán mayúsculas y minúsculas. Si es true, todas las palabras se convierten en minúsculas en primer lugar. El valor predeterminado es False. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
removeTrailing |
boolean |
True |
Valor que indica si se omitirá el último término de búsqueda si es una palabra irrelevante. El valor predeterminado es true. |
stopwords |
string[] |
Lista de palabras irrelevantes. Esta propiedad y la propiedad de lista de palabras irrelevantes no se pueden establecer. |
|
stopwordsList | english |
Lista predefinida de palabras irrelevantes que se van a usar. Esta propiedad y la propiedad stopwords no se pueden establecer. El valor predeterminado es inglés. |
Suggester
Define cómo se debe aplicar suggest API a un grupo de campos del índice.
Nombre | Tipo | Description |
---|---|---|
name |
string |
El nombre del proveedor de sugerencias. |
searchMode |
Valor que indica las funcionalidades del proveedor de sugerencias. |
|
sourceFields |
string[] |
Lista de nombres de campo a los que se aplica el proveedor de sugerencias. Cada campo debe ser buscable. |
SuggesterSearchMode
Valor que indica las funciones del proveedor de sugerencias.
Nombre | Tipo | Description |
---|---|---|
analyzingInfixMatching |
string |
Coincide con términos y prefijos enteros consecutivos en un campo. Por ejemplo, para el campo "El zorro marrón más rápido", las consultas "rápido" y "frente más rápida" coincidirían. |
SynonymTokenFilter
Coincide con sinónimos de una o varias palabras en una secuencia de tokens. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
expand |
boolean |
True |
Valor que indica si todas las palabras de la lista de sinónimos (si => notación no se usa) se asignarán entre sí. Si es true, todas las palabras de la lista de sinónimos (si => notación no se usa) se asignarán entre sí. La siguiente lista: increíble, increíble, fabuloso, increíble es equivalente a: increíble, increíble, fabuloso, increíble => increíble, increíble, fabuloso, fabuloso, increíble. Si es false, la siguiente lista: increíble, increíble, fabuloso, increíble será equivalente a: increíble, increíble, fabuloso, increíble => increíble. El valor predeterminado es true. |
ignoreCase |
boolean |
False |
Valor que indica si se va a plegar mayúsculas de minúsculas la entrada para la coincidencia. El valor predeterminado es False. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
synonyms |
string[] |
Una lista de sinónimos en uno de los dos formatos siguientes: 1. increíble, increíble, fabuloso => increíble - todos los términos en el lado izquierdo de => símbolo se reemplazarán por todos los términos en su lado derecho; 2. increíble, increíble, fabuloso, increíble - lista separada por comas de palabras equivalentes. Establezca la opción de expansión para cambiar cómo se interpreta esta lista. |
TagScoringFunction
Define una función que aumenta las puntuaciones de documentos con valores de cadena que coinciden con una lista determinada de etiquetas.
Nombre | Tipo | Description |
---|---|---|
boost |
number |
Multiplicador de la puntuación sin procesar. Debe ser un número positivo no igual a 1,0. |
fieldName |
string |
Nombre del campo utilizado como entrada para la función de puntuación. |
interpolation |
Valor que indica cómo se interpolará la potenciación entre las puntuaciones de documentos; el valor predeterminado es "Linear". |
|
tag |
Valores de parámetro para la función de puntuación de etiquetas. |
|
type |
string:
tag |
Indica el tipo de función que se usará. Entre los valores válidos se incluyen magnitud, índice de actualización, distancia y etiqueta. El tipo de función debe estar en minúsculas. |
TagScoringParameters
Proporciona valores de parámetro a una función de puntuación de etiquetas.
Nombre | Tipo | Description |
---|---|---|
tagsParameter |
string |
Nombre del parámetro pasado en las consultas de búsqueda para especificar la lista de etiquetas que se van a comparar con el campo de destino. |
TextWeights
Define pesos en los campos de índice para los que las coincidencias deben aumentar la puntuación en las consultas de búsqueda.
Nombre | Tipo | Description |
---|---|---|
weights |
object |
Diccionario de pesos por campo para aumentar la puntuación de documentos. Las claves son nombres de campo y los valores son los pesos de cada campo. |
TokenCharacterKind
Representa clases de caracteres en las que puede funcionar un filtro de token.
Nombre | Tipo | Description |
---|---|---|
digit |
string |
Mantiene los dígitos en tokens. |
letter |
string |
Mantiene letras en tokens. |
punctuation |
string |
Mantiene la puntuación en los tokens. |
symbol |
string |
Mantiene los símbolos en tokens. |
whitespace |
string |
Mantiene el espacio en blanco en los tokens. |
TokenFilterName
Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.
Nombre | Tipo | Description |
---|---|---|
apostrophe |
string |
Elimina todos los caracteres después de un apóstrofo (incluido el propio apóstrofo). Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html. |
arabic_normalization |
string |
Un filtro de token que aplica el normalizador de árabe para normalizar la ortografía. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html. |
asciifolding |
string |
Convierte caracteres alfabéticos, numéricos y simbólicos Unicode que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Básico latino") en sus equivalentes ASCII, si existen dichos equivalentes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html. |
cjk_bigram |
string |
Forma bigrams de términos de CJK que se generan a partir del tokenizador estándar. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html. |
cjk_width |
string |
Normaliza las diferencias de ancho de CJK. Dobla las variantes ASCII fullwidth en el equivalente latino básico y las variantes katakana de ancho medio en el kana equivalente. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html. |
classic |
string |
Quita los posesivos en inglés y los puntos de los acrónimos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html. |
common_grams |
string |
Construye bigramas para términos que se repiten con frecuencia durante la indexación. Los términos individuales también se indexan, con los bigramas superpuestos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html. |
edgeNGram_v2 |
string |
Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html. |
elision |
string |
Quita las elisiones. Por ejemplo, "l'avion" (el plano) se convertirá en "avion" (plano). Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html. |
german_normalization |
string |
Normaliza los caracteres alemanes según la heurística del algoritmo de bola de nieve alemán2. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html. |
hindi_normalization |
string |
Normaliza el texto en hindi para quitar algunas diferencias en las variaciones ortográficas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html. |
indic_normalization |
string |
Normaliza la representación Unicode de texto en las lenguas hindúes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html. |
keyword_repeat |
string |
Emite cada token entrante dos veces, una como palabra clave y una vez como no palabra clave. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html. |
kstem |
string |
Un filtro kstem de alto rendimiento para inglés. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html. |
length |
string |
Quita las palabras que son demasiado largas o demasiado cortas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html. |
limit |
string |
Limita el número de tokens durante la indexación. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html. |
lowercase |
string |
Normaliza el texto de token a minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm. |
nGram_v2 |
string |
Genera n-gramas de los tamaños dados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html. |
persian_normalization |
string |
Aplica la normalización para persa. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html. |
phonetic |
string |
Crea tokens para coincidencias fonéticas. Consulta https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html. |
porter_stem |
string |
Usa el algoritmo de lematización de Porter para transformar el flujo de tokens. Consulta http://tartarus.org/~martin/PorterStemmer. |
reverse |
string |
Invierte la cadena de token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html. |
scandinavian_folding |
string |
Pliega los caracteres escandinavos åÅäæÄÆ->a y öÖøØ->o. También discrimina el uso de las vocales dobles aa, ae, ao, oe y oo, dejando solo la primera de ellas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html. |
scandinavian_normalization |
string |
Normaliza el uso de los caracteres de escandinavo intercambiables. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html. |
shingle |
string |
Crea combinaciones de tokens como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html. |
snowball |
string |
Filtro que deriva las palabras mediante un lematizador generado por Snowball. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html. |
sorani_normalization |
string |
Normaliza la representación de Unicode de texto del idioma sorani. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html. |
stemmer |
string |
Filtro de lematización específico del idioma. Consulta https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters. |
stopwords |
string |
Quita las palabras irrelevantes de una secuencia de tokens. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html. |
trim |
string |
Recorta el espacio en blanco inicial y final de los tokens. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html. |
truncate |
string |
Trunca los términos a una longitud específica. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html. |
unique |
string |
Filtra los tokens con el mismo texto que el token anterior. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html. |
uppercase |
string |
Normaliza el texto de token a mayúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html. |
word_delimiter |
string |
Divide palabras en subpalabras y realiza transformaciones opcionales en los grupos de subpalabras. |
TruncateTokenFilter
Trunca los términos a una longitud específica. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
length |
integer |
300 |
Longitud a la que se truncarán los términos. El valor predeterminado y máximo es 300. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
UaxUrlEmailTokenizer
Tokeniza las direcciones URL y los correos electrónicos como un token. Este tokenizador se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de tokenizador. |
|
maxTokenLength |
integer |
255 |
Longitud máxima del token. El valor predeterminado es 255. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres. |
name |
string |
Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
UniqueTokenFilter
Filtra los tokens con el mismo texto que el token anterior. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
onlyOnSamePosition |
boolean |
False |
Valor que indica si se van a quitar duplicados solo en la misma posición. El valor predeterminado es False. |
VectorSearch
Contiene opciones de configuración relacionadas con la búsqueda vectorial.
Nombre | Tipo | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Contiene opciones de configuración específicas del algoritmo utilizado durante la indexación o consulta. |
profiles |
Define combinaciones de configuraciones que se usarán con la búsqueda vectorial. |
VectorSearchAlgorithmKind
Algoritmo utilizado para la indexación y la consulta.
Nombre | Tipo | Description |
---|---|---|
exhaustiveKnn |
string |
Algoritmo KNN exhaustivo que realizará la búsqueda por fuerza bruta. |
hnsw |
string |
HNSW (Jerárquico Navegable Pequeño Mundo), un tipo de algoritmo de vecinos más cercano aproximado. |
VectorSearchAlgorithmMetric
Métrica de similitud que se va a usar para comparaciones de vectores.
Nombre | Tipo | Description |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
Define una combinación de configuraciones que se van a usar con la búsqueda vectorial.
Nombre | Tipo | Description |
---|---|---|
algorithm |
string |
Nombre de la configuración del algoritmo de búsqueda vectorial que especifica el algoritmo y los parámetros opcionales. |
name |
string |
Nombre que se va a asociar a este perfil de búsqueda vectorial determinado. |
WordDelimiterTokenFilter
Divide palabras en subpalabras y realiza transformaciones opcionales en los grupos de subpalabras. Este filtro de token se implementa mediante Apache Lucene.
Nombre | Tipo | Valor predeterminado | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de filtro de token. |
|
catenateAll |
boolean |
False |
Valor que indica si todas las partes de subword se clasificarán. Por ejemplo, si se establece en true, "Azure-Search-1" se convierte en "AzureSearch1". El valor predeterminado es False. |
catenateNumbers |
boolean |
False |
Valor que indica si se clasificarán las ejecuciones máximas de partes de número. Por ejemplo, si se establece en true, "1-2" se convierte en "12". El valor predeterminado es False. |
catenateWords |
boolean |
False |
Valor que indica si se clasificarán las ejecuciones máximas de partes de palabras. Por ejemplo, si se establece en true, "Azure-Search" se convierte en "AzureSearch". El valor predeterminado es False. |
generateNumberParts |
boolean |
True |
Valor que indica si se van a generar subtareas de número. El valor predeterminado es true. |
generateWordParts |
boolean |
True |
Valor que indica si se van a generar palabras de elemento. Si se establece, hace que se generen partes de palabras; por ejemplo, "AzureSearch" se convierte en "Azure" "Search". El valor predeterminado es true. |
name |
string |
Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres. |
|
preserveOriginal |
boolean |
False |
Valor que indica si se conservarán las palabras originales y se agregarán a la lista de subwords. El valor predeterminado es False. |
protectedWords |
string[] |
Lista de tokens que se van a proteger de delimitados. |
|
splitOnCaseChange |
boolean |
True |
Valor que indica si se van a dividir palabras en caseChange. Por ejemplo, si se establece en true, "AzureSearch" se convierte en "Azure" "Search". El valor predeterminado es true. |
splitOnNumerics |
boolean |
True |
Valor que indica si se va a dividir en números. Por ejemplo, si se establece en true, "Azure1Search" se convierte en "Azure" "1" "Search". El valor predeterminado es true. |
stemEnglishPossessive |
boolean |
True |
Valor que indica si se van a quitar los "'s" finales de cada subword. El valor predeterminado es true. |