Indexes - Create

Crea un nuevo índice de búsqueda.

POST {endpoint}/indexes?api-version=2023-11-01

Parámetros de identificador URI

Nombre En Requerido Tipo Description
endpoint
path True

string

Dirección URL del punto de conexión del servicio de búsqueda.

api-version
query True

string

Versión de api de cliente.

Encabezado de la solicitud

Nombre Requerido Tipo Description
x-ms-client-request-id

string

uuid

Identificador de seguimiento enviado con la solicitud para ayudar con la depuración.

Cuerpo de la solicitud

Nombre Requerido Tipo Description
fields True

SearchField[]

Campos del índice.

name True

string

El nombre del índice.

@odata.etag

string

ETag del índice.

analyzers LexicalAnalyzer[]:

Analizadores del índice.

charFilters CharFilter[]:

Filtros de caracteres para el índice.

corsOptions

CorsOptions

Opciones para controlar el uso compartido de recursos entre orígenes (CORS) para el índice.

defaultScoringProfile

string

Nombre del perfil de puntuación que se va a usar si no se especifica ninguno en la consulta. Si esta propiedad no está establecida y no se especifica ningún perfil de puntuación en la consulta, se usará la puntuación predeterminada (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Descripción de una clave de cifrado que se crea en Azure Key Vault. Esta clave se usa para proporcionar un nivel adicional de cifrado en reposo para los datos cuando desee asegurarse de que nadie, ni siquiera Microsoft, puede descifrar los datos. Una vez que haya cifrado los datos, siempre permanecerá cifrado. El servicio de búsqueda omitirá los intentos de establecer esta propiedad en null. Puede cambiar esta propiedad según sea necesario si desea rotar la clave de cifrado; Los datos no se verán afectados. El cifrado con claves administradas por el cliente no está disponible para los servicios de búsqueda gratuitos y solo está disponible para los servicios de pago creados el 1 de enero de 2019 o después.

scoringProfiles

ScoringProfile[]

Perfiles de puntuación para el índice.

semantic

SemanticSettings

Define parámetros para un índice de búsqueda que influye en las funcionalidades semánticas.

similarity Similarity:

Tipo de algoritmo de similitud que se va a usar al puntuar y clasificar los documentos que coinciden con una consulta de búsqueda. El algoritmo de similitud solo se puede definir en el momento de la creación del índice y no se puede modificar en índices existentes. Si es null, se usa el algoritmo ClassicSimilarity.

suggesters

Suggester[]

Los proveedores de sugerencias para el índice.

tokenFilters TokenFilter[]:

El token filtra el índice.

tokenizers LexicalTokenizer[]:

Tokenizadores para el índice.

vectorSearch

VectorSearch

Contiene opciones de configuración relacionadas con la búsqueda de vectores.

Respuestas

Nombre Tipo Description
201 Created

SearchIndex

Other Status Codes

SearchError

Respuesta de error.

Ejemplos

SearchServiceCreateIndex

Sample Request

POST https://myservice.search.windows.net/indexes?api-version=2023-11-01

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "key": true,
      "searchable": false
    },
    {
      "name": "baseRate",
      "type": "Edm.Double"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile"
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false,
      "analyzer": "fr.lucene"
    },
    {
      "name": "hotelName",
      "type": "Edm.String"
    },
    {
      "name": "category",
      "type": "Edm.String"
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "analyzer": "tagsAnalyzer"
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean"
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean"
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset"
    },
    {
      "name": "rating",
      "type": "Edm.Int32"
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint"
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": "<applicationSecret>"
    }
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "b": 0.5,
    "k1": 1.3
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ],
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "m": 4,
          "metric": "cosine"
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ]
  }
}

Sample Response

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "fieldName": "location",
          "interpolation": "logarithmic",
          "type": "distance",
          "boost": 5,
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenFilters": [],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": null
    }
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "b": 0.5,
    "k1": 1.3
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ]
  }
}

Definiciones

Nombre Description
AsciiFoldingTokenFilter

Convierte caracteres alfabéticos, numéricos y simbólicos Unicode que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Básico latino") en sus equivalentes ASCII, si existen dichos equivalentes. Este filtro de token se implementa mediante Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Credenciales de una aplicación registrada creada para el servicio de búsqueda, que se usa para el acceso autenticado a las claves de cifrado almacenadas en Azure Key Vault.

BM25Similarity

Función de clasificación basada en el algoritmo de similitud Okapi BM25. BM25 es un algoritmo similar a TF-IDF que incluye la normalización de longitud (controlada por el parámetro 'b'), así como la saturación de la frecuencia de términos (controlada por el parámetro 'k1').

CharFilterName

Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.

CjkBigramTokenFilter

Forma bigrams de términos de CJK que se generan a partir del tokenizador estándar. Este filtro de token se implementa mediante Apache Lucene.

CjkBigramTokenFilterScripts

Scripts que CjkBigramTokenFilter puede omitir.

ClassicSimilarity

Algoritmo de similitud heredado que usa la implementación de TFIDFSimilarity de Lucene de TF-IDF. Esta variación de TF-IDF presenta la normalización estática de la longitud del documento, así como factores de coordinación que penalizan los documentos que solo coinciden parcialmente con las consultas buscadas.

ClassicTokenizer

Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Este tokenizador se implementa mediante Apache Lucene.

CommonGramTokenFilter

Construye bigramas para términos que se repiten con frecuencia durante la indexación. Los términos individuales también se indexan, con los bigramas superpuestos. Este filtro de token se implementa mediante Apache Lucene.

CorsOptions

Define opciones para controlar el uso compartido de recursos entre orígenes (CORS) para un índice.

CustomAnalyzer

Permite tomar el control sobre el proceso de conversión de texto en tokens indexables o buscables. Se trata de una configuración definida por el usuario que consta de un único tokenizador predefinido y uno o varios filtros. El tokenizador es responsable de dividir texto en tokens y los filtros para modificar los tokens emitidos por el tokenizador.

DictionaryDecompounderTokenFilter

Descompone las palabras compuestas que se encuentran en muchas lenguas germánicas. Este filtro de token se implementa mediante Apache Lucene.

DistanceScoringFunction

Define una función que aumenta las puntuaciones en función de la distancia desde una ubicación geográfica.

DistanceScoringParameters

Proporciona valores de parámetro a una función de puntuación de distancia.

EdgeNGramTokenFilter

Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Este filtro de token se implementa mediante Apache Lucene.

EdgeNGramTokenFilterSide

Especifica a qué lado de la entrada se debe generar un n-grama.

EdgeNGramTokenFilterV2

Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Este filtro de token se implementa mediante Apache Lucene.

EdgeNGramTokenizer

Tokeniza la entrada de un borde en n-gramas de los tamaños especificados. Este tokenizador se implementa mediante Apache Lucene.

ElisionTokenFilter

Quita las elisiones. Por ejemplo, "l'avion" (el plano) se convertirá en "avion" (plano). Este filtro de token se implementa mediante Apache Lucene.

ExhaustiveKnnParameters

Contiene los parámetros específicos del algoritmo KNN exhaustivo.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Contiene opciones de configuración específicas del algoritmo KNN exhaustivo utilizado durante la consulta, que realizará la búsqueda por fuerza bruta en todo el índice vectorial.

FreshnessScoringFunction

Define una función que aumenta las puntuaciones en función del valor de un campo de fecha y hora.

FreshnessScoringParameters

Proporciona valores de parámetro a una función de puntuación de actualización.

HnswParameters

Contiene los parámetros específicos del algoritmo HNSW.

HnswVectorSearchAlgorithmConfiguration

Contiene opciones de configuración específicas del algoritmo de vecinos más cercano aproximado de HNSW que se usan durante la indexación y la consulta. El algoritmo HNSW ofrece un equilibrio ajustable entre la velocidad de búsqueda y la precisión.

KeepTokenFilter

Filtro de token que solo mantiene los tokens con texto contenido en una lista especificada de palabras. Este filtro de token se implementa mediante Apache Lucene.

KeywordMarkerTokenFilter

Marca los términos como palabras clave. Este filtro de token se implementa mediante Apache Lucene.

KeywordTokenizer

Emite la entrada completa como un solo token. Este tokenizador se implementa mediante Apache Lucene.

KeywordTokenizerV2

Emite la entrada completa como un solo token. Este tokenizador se implementa mediante Apache Lucene.

LengthTokenFilter

Quita las palabras que son demasiado largas o demasiado cortas. Este filtro de token se implementa mediante Apache Lucene.

LexicalAnalyzerName

Define los nombres de todos los analizadores de texto admitidos por el motor de búsqueda.

LexicalTokenizerName

Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.

LimitTokenFilter

Limita el número de tokens durante la indexación. Este filtro de token se implementa mediante Apache Lucene.

LuceneStandardAnalyzer

Analizador estándar de Apache Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop.

LuceneStandardTokenizer

Divide el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene.

LuceneStandardTokenizerV2

Divide el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene.

MagnitudeScoringFunction

Define una función que aumenta las puntuaciones en función de la magnitud de un campo numérico.

MagnitudeScoringParameters

Proporciona valores de parámetro a una función de puntuación de magnitud.

MappingCharFilter

Filtro de caracteres que aplica asignaciones definidas con la opción asignaciones. La coincidencia es ambiciosa (la mayor coincidencia de patrones en un momento dado gana). Se permite que la sustitución sea una cadena vacía. Este filtro de caracteres se implementa mediante Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base.

MicrosoftLanguageTokenizer

Divide el texto mediante reglas específicas del idioma.

MicrosoftStemmingTokenizerLanguage

Listas los idiomas admitidos por el tokenizador de lematización de idioma de Microsoft.

MicrosoftTokenizerLanguage

Listas los idiomas admitidos por el tokenizador de idioma de Microsoft.

NGramTokenFilter

Genera n-gramas de los tamaños dados. Este filtro de token se implementa mediante Apache Lucene.

NGramTokenFilterV2

Genera n-gramas de los tamaños dados. Este filtro de token se implementa mediante Apache Lucene.

NGramTokenizer

Tokeniza la entrada en n-gramas de tamaños dados. Este tokenizador se implementa mediante Apache Lucene.

PathHierarchyTokenizerV2

Tokenizador para las jerarquías parecidas a rutas de acceso. Este tokenizador se implementa mediante Apache Lucene.

PatternAnalyzer

Separa el texto de manera flexible en términos a través de un patrón de expresión regular. Este analizador se implementa mediante Apache Lucene.

PatternCaptureTokenFilter

Usa expresiones regulares de Java para emitir varios tokens: uno para cada grupo de capturas en uno o varios patrones. Este filtro de token se implementa mediante Apache Lucene.

PatternReplaceCharFilter

Filtro de caracteres que reemplaza los caracteres de la cadena de entrada. Usa una expresión regular para identificar las secuencias de caracteres que se desean conservar y un patrón de reemplazo para identificar los caracteres que se desean reemplazar. Por ejemplo, dado el texto de entrada "aa bb aa bb", el patrón "(aa)\s+(bb)" y el reemplazo "$1#$2", el resultado sería "aa#bb aa#bb". Este filtro de caracteres se implementa mediante Apache Lucene.

PatternReplaceTokenFilter

Filtro de caracteres que reemplaza los caracteres de la cadena de entrada. Usa una expresión regular para identificar las secuencias de caracteres que se desean conservar y un patrón de reemplazo para identificar los caracteres que se desean reemplazar. Por ejemplo, dado el texto de entrada "aa bb aa bb", el patrón "(aa)\s+(bb)" y el reemplazo "$1#$2", el resultado sería "aa#bb aa#bb". Este filtro de token se implementa mediante Apache Lucene.

PatternTokenizer

Tokenizador que usa la coincidencia de patrones regex para construir tokens distintos. Este tokenizador se implementa mediante Apache Lucene.

PhoneticEncoder

Identifica el tipo de codificador fonético que se va a usar con un PhoneticTokenFilter.

PhoneticTokenFilter

Crea tokens para coincidencias fonéticas. Este filtro de token se implementa mediante Apache Lucene.

PrioritizedFields

Describe los campos título, contenido y palabras clave que se usarán para la clasificación semántica, los títulos, los resaltados y las respuestas.

RegexFlags

Define marcas que se pueden combinar para controlar cómo se usan las expresiones regulares en el analizador de patrones y el tokenizador de patrones.

ScoringFunctionAggregation

Define la función de agregación usada para combinar los resultados de todas las funciones de puntuación de un perfil de puntuación.

ScoringFunctionInterpolation

Define la función que se usa para interpolar la potenciación de la puntuación en un intervalo de documentos.

ScoringProfile

Define parámetros para un índice de búsqueda que influye en la puntuación en las consultas de búsqueda.

SearchError

Describe una condición de error para la API.

SearchField

Representa un campo en una definición de índice, que describe el nombre, el tipo de datos y el comportamiento de búsqueda de un campo.

SearchFieldDataType

Define el tipo de datos de un campo en un índice de búsqueda.

SearchIndex

Representa una definición de índice de búsqueda, que describe los campos y el comportamiento de búsqueda de un índice.

SearchResourceEncryptionKey

Una clave de cifrado administrada por el cliente en Azure Key Vault. Las claves que cree y administre se pueden usar para cifrar o descifrar datos en reposo en el servicio de búsqueda, como índices y mapas de sinónimos.

SemanticConfiguration

Define una configuración específica que se usará en el contexto de las funcionalidades semánticas.

SemanticField

Campo que se usa como parte de la configuración semántica.

SemanticSettings

Define parámetros para un índice de búsqueda que influye en las funcionalidades semánticas.

ShingleTokenFilter

Crea combinaciones de tokens como un solo token. Este filtro de token se implementa mediante Apache Lucene.

SnowballTokenFilter

Filtro que deriva palabras mediante un lematizador generado por Snowball. Este filtro de token se implementa mediante Apache Lucene.

SnowballTokenFilterLanguage

Idioma que se va a usar para un filtro de token de Snowball.

StemmerOverrideTokenFilter

Proporciona la capacidad de invalidar otros filtros de lematización con lematización personalizada basada en diccionarios. Los términos con lematización del diccionario se marcarán como palabras clave para que no se lematice con lematizadores hacia abajo de la cadena. Se debe colocar antes de los filtros de lematización. Este filtro de token se implementa mediante Apache Lucene.

StemmerTokenFilter

Filtro de lematización específico del idioma. Este filtro de token se implementa mediante Apache Lucene.

StemmerTokenFilterLanguage

Idioma que se va a usar para un filtro de token de lematizador.

StopAnalyzer

Divide el texto en letras no letras; Aplica los filtros de token en minúsculas y palabra irrelevantes. Este analizador se implementa mediante Apache Lucene.

StopwordsList

Identifica una lista predefinida de palabras irrelevantes específicas del lenguaje.

StopwordsTokenFilter

Quita las palabras irrelevantes de una secuencia de tokens. Este filtro de token se implementa mediante Apache Lucene.

Suggester

Define cómo debe aplicarse la API suggest a un grupo de campos del índice.

SuggesterSearchMode

Valor que indica las funciones del proveedor de sugerencias.

SynonymTokenFilter

Coincide con sinónimos de una o varias palabras en una secuencia de tokens. Este filtro de token se implementa mediante Apache Lucene.

TagScoringFunction

Define una función que aumenta las puntuaciones de documentos con valores de cadena que coinciden con una lista determinada de etiquetas.

TagScoringParameters

Proporciona valores de parámetro a una función de puntuación de etiquetas.

TextWeights

Define pesos en los campos de índice para los que las coincidencias deben aumentar la puntuación en las consultas de búsqueda.

TokenCharacterKind

Representa clases de caracteres en las que puede funcionar un filtro de token.

TokenFilterName

Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.

TruncateTokenFilter

Trunca los términos en una longitud específica. Este filtro de token se implementa mediante Apache Lucene.

UaxUrlEmailTokenizer

Tokeniza las direcciones URL y los correos electrónicos como un token. Este tokenizador se implementa mediante Apache Lucene.

UniqueTokenFilter

Filtra los tokens con el mismo texto que el token anterior. Este filtro de token se implementa mediante Apache Lucene.

VectorSearch

Contiene opciones de configuración relacionadas con la búsqueda de vectores.

VectorSearchAlgorithmKind

Algoritmo utilizado para la indexación y la consulta.

VectorSearchAlgorithmMetric

Métrica de similitud que se va a usar para comparaciones de vectores.

VectorSearchProfile

Define una combinación de configuraciones que se usarán con la búsqueda vectorial.

WordDelimiterTokenFilter

Divide palabras en subpalabras y realiza transformaciones opcionales en los grupos de subpalabras. Este filtro de token se implementa mediante Apache Lucene.

AsciiFoldingTokenFilter

Convierte caracteres alfabéticos, numéricos y simbólicos Unicode que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Básico latino") en sus equivalentes ASCII, si existen dichos equivalentes. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

preserveOriginal

boolean

False

Valor que indica si se conservará el token original. El valor predeterminado es False.

AzureActiveDirectoryApplicationCredentials

Credenciales de una aplicación registrada creada para el servicio de búsqueda, que se usa para el acceso autenticado a las claves de cifrado almacenadas en Azure Key Vault.

Nombre Tipo Description
applicationId

string

Un identificador de aplicación de AAD al que se concedieron los permisos de acceso necesarios a la Key Vault de Azure que se va a usar al cifrar los datos en reposo. El identificador de aplicación no debe confundirse con el id. de objeto de la aplicación de AAD.

applicationSecret

string

Clave de autenticación de la aplicación de AAD especificada.

BM25Similarity

Función de clasificación basada en el algoritmo de similitud Okapi BM25. BM25 es un algoritmo similar a TF-IDF que incluye la normalización de longitud (controlada por el parámetro 'b'), así como la saturación de la frecuencia de términos (controlada por el parámetro 'k1').

Nombre Tipo Description
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

Esta propiedad controla cómo afecta la longitud de un documento a la puntuación de relevancia. De forma predeterminada, se usa un valor de 0,75. Un valor de 0,0 significa que no se aplica ninguna normalización de longitud, mientras que un valor de 1,0 significa que la puntuación está totalmente normalizada por la longitud del documento.

k1

number

Esta propiedad controla la función de escalado entre la frecuencia de término de cada término coincidente y la puntuación de relevancia final de un par de consulta de documentos. De forma predeterminada, se usa un valor de 1.2. Un valor de 0,0 significa que la puntuación no se escala con un aumento en la frecuencia de términos.

CharFilterName

Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.

Nombre Tipo Description
html_strip

string

Filtro de caracteres que intenta quitar construcciones HTML. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html.

CjkBigramTokenFilter

Forma bigrams de términos de CJK que se generan a partir del tokenizador estándar. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

ignoreScripts

CjkBigramTokenFilterScripts[]

Los scripts que se van a omitir.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

outputUnigrams

boolean

False

Valor que indica si se van a generar unigramas y bigrams (si es true) o solo bigrams (si es false). El valor predeterminado es False.

CjkBigramTokenFilterScripts

Scripts que CjkBigramTokenFilter puede omitir.

Nombre Tipo Description
han

string

Omita el script han al formar bigrams de términos de CJK.

hangul

string

Omita el script de Hangul al formar bigrams de términos de CJK.

hiragana

string

Omita el script hiragana al formar bigrams de términos de CJK.

katakana

string

Omita el script katakana al formar bigrams de términos de CJK.

ClassicSimilarity

Algoritmo de similitud heredado que usa la implementación de TFIDFSimilarity de Lucene de TF-IDF. Esta variación de TF-IDF presenta la normalización estática de la longitud del documento, así como factores de coordinación que penalizan los documentos que solo coinciden parcialmente con las consultas buscadas.

Nombre Tipo Description
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Este tokenizador se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Fragmento de URI que especifica el tipo de tokenizador.

maxTokenLength

integer

255

Longitud máxima del token. El valor predeterminado es 255. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres.

name

string

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

CommonGramTokenFilter

Construye bigramas para términos que se repiten con frecuencia durante la indexación. Los términos individuales también se indexan, con los bigramas superpuestos. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

commonWords

string[]

Conjunto de palabras comunes.

ignoreCase

boolean

False

Valor que indica si las palabras comunes que coinciden no distinguen mayúsculas de minúsculas. El valor predeterminado es False.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

queryMode

boolean

False

Valor que indica si el filtro de token está en modo de consulta. Cuando está en modo de consulta, el filtro de token genera bigrams y, a continuación, quita palabras comunes y términos únicos seguidos de una palabra común. El valor predeterminado es False.

CorsOptions

Define opciones para controlar el uso compartido de recursos entre orígenes (CORS) para un índice.

Nombre Tipo Description
allowedOrigins

string[]

La lista de orígenes desde los que se concederá acceso al código JavaScript al índice. Puede contener una lista de hosts con el formato {protocol}://{nombre-dominio-completo}[:{puerto#}], o un único * para permitir todos los orígenes (no recomendado).

maxAgeInSeconds

integer

Duración para la que los exploradores deben almacenar en caché las respuestas previas de CORS. El valor predeterminado es de 5 minutos.

CustomAnalyzer

Permite tomar el control sobre el proceso de conversión de texto en tokens indexables o buscables. Se trata de una configuración definida por el usuario que consta de un único tokenizador predefinido y uno o varios filtros. El tokenizador es responsable de dividir texto en tokens y los filtros para modificar los tokens emitidos por el tokenizador.

Nombre Tipo Description
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Fragmento de URI que especifica el tipo de analizador.

charFilters

CharFilterName[]

Lista de filtros de caracteres usados para preparar el texto de entrada antes de que el tokenizador lo procese. Por ejemplo, pueden reemplazar determinados caracteres o símbolos. Los filtros se ejecutan en el orden en que se muestran.

name

string

Nombre del analizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

tokenFilters

TokenFilterName[]

Lista de filtros de token usados para filtrar o modificar los tokens generados por un tokenizador. Por ejemplo, puede especificar un filtro en minúsculas que convierte todos los caracteres a minúsculas. Los filtros se ejecutan en el orden en que se muestran.

tokenizer

LexicalTokenizerName

Nombre del tokenizador que se va a usar para dividir el texto continuo en una secuencia de tokens, como dividir una frase en palabras.

DictionaryDecompounderTokenFilter

Descompone las palabras compuestas que se encuentran en muchas lenguas germánicas. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

maxSubwordSize

integer

15

Tamaño máximo de la subpalabra. Solo se generan subtareas más cortas que esta. El valor predeterminado es 15. El máximo es 300.

minSubwordSize

integer

2

Tamaño mínimo de la subpalabra. Solo se generan subtareas más largas de las que se generan. El valor predeterminado es 2. El máximo es 300.

minWordSize

integer

5

Tamaño mínimo de palabra. Solo se procesan las palabras más largas que esta. El valor predeterminado es 5. El máximo es 300.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

onlyLongestMatch

boolean

False

Valor que indica si se va a agregar solo la subword coincidente más larga a la salida. El valor predeterminado es False.

wordList

string[]

Lista de palabras con las que debe coincidir.

DistanceScoringFunction

Define una función que aumenta las puntuaciones en función de la distancia desde una ubicación geográfica.

Nombre Tipo Description
boost

number

Multiplicador de la puntuación sin procesar. Debe ser un número positivo no igual a 1,0.

distance

DistanceScoringParameters

Valores de parámetro para la función de puntuación de distancia.

fieldName

string

Nombre del campo utilizado como entrada para la función de puntuación.

interpolation

ScoringFunctionInterpolation

Valor que indica cómo se interpolará la potenciación entre puntuaciones de documentos; el valor predeterminado es "Linear".

type string:

distance

Indica el tipo de función que se usará. Entre los valores válidos se incluyen magnitud, índice de actualización, distancia y etiqueta. El tipo de función debe estar en minúsculas.

DistanceScoringParameters

Proporciona valores de parámetro a una función de puntuación de distancia.

Nombre Tipo Description
boostingDistance

number

Distancia en kilómetros desde la ubicación de referencia donde finaliza el intervalo de potenciación.

referencePointParameter

string

Nombre del parámetro pasado en las consultas de búsqueda para especificar la ubicación de referencia.

EdgeNGramTokenFilter

Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

maxGram

integer

2

Longitud máxima de n-gramas. El valor predeterminado es 2.

minGram

integer

1

Longitud mínima de n-gramas. El valor predeterminado es 1. Debe ser menor que el valor de maxGram.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

side

EdgeNGramTokenFilterSide

front

Especifica a qué lado de la entrada se debe generar el n-grama. El valor predeterminado es "front".

EdgeNGramTokenFilterSide

Especifica a qué lado de la entrada se debe generar un n-grama.

Nombre Tipo Description
back

string

Especifica que el n-grama debe generarse a partir de la parte posterior de la entrada.

front

string

Especifica que se debe generar el n-grama desde la parte frontal de la entrada.

EdgeNGramTokenFilterV2

Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Fragmento de URI que especifica el tipo de filtro de token.

maxGram

integer

2

Longitud máxima de n-gramas. El valor predeterminado es 2. El máximo es 300.

minGram

integer

1

Longitud mínima de n-gramas. El valor predeterminado es 1. El máximo es 300. Debe ser menor que el valor de maxGram.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

side

EdgeNGramTokenFilterSide

front

Especifica a qué lado de la entrada se debe generar el n-grama. El valor predeterminado es "front".

EdgeNGramTokenizer

Tokeniza la entrada de un borde en n-gramas de los tamaños especificados. Este tokenizador se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Fragmento de URI que especifica el tipo de tokenizador.

maxGram

integer

2

Longitud máxima de n-gramas. El valor predeterminado es 2. El máximo es 300.

minGram

integer

1

Longitud mínima de n-gramas. El valor predeterminado es 1. El máximo es 300. Debe ser menor que el valor de maxGram.

name

string

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

tokenChars

TokenCharacterKind[]

Clases de caracteres que se mantendrán en los tokens.

ElisionTokenFilter

Quita las elisiones. Por ejemplo, "l'avion" (el plano) se convertirá en "avion" (plano). Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Description
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

articles

string[]

Conjunto de artículos que se van a quitar.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

ExhaustiveKnnParameters

Contiene los parámetros específicos del algoritmo KNN exhaustivo.

Nombre Tipo Description
metric

VectorSearchAlgorithmMetric

Métrica de similitud que se va a usar para comparaciones de vectores.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Contiene opciones de configuración específicas del algoritmo KNN exhaustivo utilizado durante la consulta, que realizará la búsqueda por fuerza bruta en todo el índice vectorial.

Nombre Tipo Description
exhaustiveKnnParameters

ExhaustiveKnnParameters

Contiene los parámetros específicos del algoritmo KNN exhaustivo.

kind string:

exhaustiveKnn

Nombre del tipo de algoritmo que se va a configurar para su uso con la búsqueda vectorial.

name

string

Nombre que se va a asociar a esta configuración determinada.

FreshnessScoringFunction

Define una función que aumenta las puntuaciones en función del valor de un campo de fecha y hora.

Nombre Tipo Description
boost

number

Multiplicador de la puntuación sin procesar. Debe ser un número positivo no igual a 1,0.

fieldName

string

Nombre del campo utilizado como entrada para la función de puntuación.

freshness

FreshnessScoringParameters

Valores de parámetro para la función de puntuación de actualización.

interpolation

ScoringFunctionInterpolation

Valor que indica cómo se interpolará la potenciación entre puntuaciones de documentos; el valor predeterminado es "Linear".

type string:

freshness

Indica el tipo de función que se usará. Entre los valores válidos se incluyen magnitud, índice de actualización, distancia y etiqueta. El tipo de función debe estar en minúsculas.

FreshnessScoringParameters

Proporciona valores de parámetro a una función de puntuación de actualización.

Nombre Tipo Description
boostingDuration

string

Período de expiración después del cual la mejora se detendrá para un documento determinado.

HnswParameters

Contiene los parámetros específicos del algoritmo HNSW.

Nombre Tipo Valor predeterminado Description
efConstruction

integer

400

Tamaño de la lista dinámica que contiene los vecinos más cercanos, que se usan durante el tiempo de índice. Aumentar este parámetro puede mejorar la calidad del índice, a costa del aumento del tiempo de indexación. En un momento determinado, aumentar este parámetro conduce a la disminución de los retornos.

efSearch

integer

500

Tamaño de la lista dinámica que contiene los vecinos más cercanos, que se usan durante el tiempo de búsqueda. Aumentar este parámetro puede mejorar los resultados de búsqueda, a costa de una búsqueda más lenta. En un momento determinado, aumentar este parámetro conduce a la disminución de los retornos.

m

integer

4

Número de vínculos bidireccionales creados para cada nuevo elemento durante la construcción. Aumentar este valor de parámetro puede mejorar la recuperación y reducir los tiempos de recuperación de los conjuntos de datos con una alta dimensionalidad intrínseca a costa del aumento del consumo de memoria y el tiempo de indexación más largo.

metric

VectorSearchAlgorithmMetric

Métrica de similitud que se va a usar para comparaciones de vectores.

HnswVectorSearchAlgorithmConfiguration

Contiene opciones de configuración específicas del algoritmo de vecinos más cercano aproximado de HNSW que se usan durante la indexación y la consulta. El algoritmo HNSW ofrece un equilibrio ajustable entre la velocidad de búsqueda y la precisión.

Nombre Tipo Description
hnswParameters

HnswParameters

Contiene los parámetros específicos del algoritmo HNSW.

kind string:

hnsw

Nombre del tipo de algoritmo que se va a configurar para su uso con la búsqueda vectorial.

name

string

Nombre que se va a asociar a esta configuración determinada.

KeepTokenFilter

Filtro de token que solo mantiene los tokens con texto contenido en una lista especificada de palabras. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

keepWords

string[]

Lista de palabras que se van a conservar.

keepWordsCase

boolean

False

Valor que indica si se deben minúsculas todas las palabras en primer lugar. El valor predeterminado es False.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

KeywordMarkerTokenFilter

Marca los términos como palabras clave. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

ignoreCase

boolean

False

Valor que indica si se omitirán mayúsculas y minúsculas. Si es true, todas las palabras se convierten en minúsculas en primer lugar. El valor predeterminado es False.

keywords

string[]

Lista de palabras que se van a marcar como palabras clave.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

KeywordTokenizer

Emite la entrada completa como un solo token. Este tokenizador se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Fragmento de URI que especifica el tipo de tokenizador.

bufferSize

integer

256

Tamaño del búfer de lectura en bytes. El valor predeterminado es 256.

name

string

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

KeywordTokenizerV2

Emite la entrada completa como un solo token. Este tokenizador se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Fragmento de URI que especifica el tipo de tokenizador.

maxTokenLength

integer

256

Longitud máxima del token. El valor predeterminado es 256. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres.

name

string

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

LengthTokenFilter

Quita las palabras que son demasiado largas o demasiado cortas. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

max

integer

300

Longitud máxima en caracteres. El valor predeterminado y máximo es 300.

min

integer

0

Longitud mínima en caracteres. El valor predeterminado es 0. El máximo es 300. Debe ser menor que el valor de max.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

LexicalAnalyzerName

Define los nombres de todos los analizadores de texto admitidos por el motor de búsqueda.

Nombre Tipo Description
ar.lucene

string

Analizador de Lucene para árabe.

ar.microsoft

string

Analizador de Microsoft para árabe.

bg.lucene

string

Analizador de Lucene para búlgaro.

bg.microsoft

string

Analizador de Microsoft para búlgaro.

bn.microsoft

string

Analizador de Microsoft para Bangla.

ca.lucene

string

Analizador de Lucene para catalán.

ca.microsoft

string

Analizador de Microsoft para catalán.

cs.lucene

string

Analizador de Lucene para Checo.

cs.microsoft

string

Analizador de Microsoft para Checo.

da.lucene

string

Analizador de Lucene para danés.

da.microsoft

string

Analizador de Microsoft para danés.

de.lucene

string

Analizador de Lucene para alemán.

de.microsoft

string

Analizador de Microsoft para alemán.

el.lucene

string

Analizador de Lucene para griego.

el.microsoft

string

Analizador de Microsoft para griego.

en.lucene

string

Analizador de Lucene para inglés.

en.microsoft

string

Analizador de Microsoft para inglés.

es.lucene

string

Analizador de Lucene para español.

es.microsoft

string

Analizador de Microsoft para español.

et.microsoft

string

Analizador de Microsoft para Estonia.

eu.lucene

string

Analizador de Lucene para Euskera.

fa.lucene

string

Analizador de Lucene para persa.

fi.lucene

string

Analizador de Lucene para Finés.

fi.microsoft

string

Analizador de Microsoft para Finés.

fr.lucene

string

Analizador de Lucene para francés.

fr.microsoft

string

Analizador de Microsoft para francés.

ga.lucene

string

Analizador de Lucene para irlandés.

gl.lucene

string

Analizador de Lucene para Gallega.

gu.microsoft

string

Analizador de Microsoft para Gujarati.

he.microsoft

string

Analizador de Microsoft para hebreo.

hi.lucene

string

Analizador de Lucene para hindi.

hi.microsoft

string

Analizador de Microsoft para hindi.

hr.microsoft

string

Analizador de Microsoft para croata.

hu.lucene

string

Analizador de Lucene para húngaro.

hu.microsoft

string

Analizador de Microsoft para húngaro.

hy.lucene

string

Analizador de Lucene para armenio.

id.lucene

string

Analizador de Lucene para indonesia.

id.microsoft

string

Analizador de Microsoft para Indonesia (Bahasa).

is.microsoft

string

Analizador de Microsoft para Islandés.

it.lucene

string

Analizador de Lucene para italiano.

it.microsoft

string

Analizador de Microsoft para italiano.

ja.lucene

string

Analizador de Lucene para japonés.

ja.microsoft

string

Analizador de Microsoft para japonés.

keyword

string

Trata todo el contenido de un campo como un solo token. Esto es útil para los datos tipo código postal, identificador y algunos nombres de producto. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html.

kn.microsoft

string

Analizador de Microsoft para Kannada.

ko.lucene

string

Analizador de Lucene para coreano.

ko.microsoft

string

Analizador de Microsoft para coreano.

lt.microsoft

string

Analizador de Microsoft para Lituano.

lv.lucene

string

Analizador de Lucene para letón.

lv.microsoft

string

Analizador de Microsoft para Letón.

ml.microsoft

string

Analizador de Microsoft para Malayalam.

mr.microsoft

string

Analizador de Microsoft para Marathi.

ms.microsoft

string

Analizador de Microsoft para Malayo (latino).

nb.microsoft

string

Analizador de Microsoft para Noruego (Bokmål).

nl.lucene

string

Analizador de Lucene para neerlandés.

nl.microsoft

string

Analizador de Microsoft para neerlandés.

no.lucene

string

Analizador de Lucene para noruego.

pa.microsoft

string

Analizador de Microsoft para Punjabi.

pattern

string

Separa el texto de manera flexible en términos a través de un patrón de expresión regular. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html.

pl.lucene

string

Analizador de Lucene para polaco.

pl.microsoft

string

Analizador de Microsoft para polaco.

pt-BR.lucene

string

Analizador de Lucene para portugués (Brasil).

pt-BR.microsoft

string

Analizador de Microsoft para portugués (Brasil).

pt-PT.lucene

string

Analizador de Lucene para portugués (Portugal).

pt-PT.microsoft

string

Analizador de Microsoft para portugués (Portugal).

ro.lucene

string

Analizador de Lucene para rumano.

ro.microsoft

string

Analizador de Microsoft para rumano.

ru.lucene

string

Analizador de Lucene para ruso.

ru.microsoft

string

Analizador de Microsoft para ruso.

simple

string

Divide el texto por donde no hay letras y lo convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html.

sk.microsoft

string

Analizador de Microsoft para eslovaco.

sl.microsoft

string

Analizador de Microsoft para Eslovenia.

sr-cyrillic.microsoft

string

Analizador de Microsoft para serbio (cirílico).

sr-latin.microsoft

string

Analizador de Microsoft para serbio (latino).

standard.lucene

string

Analizador estándar de Lucene.

standardasciifolding.lucene

string

Analizador de Lucene plegado ASCII estándar. Consulta https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers.

stop

string

Divide el texto en letras no letras; Aplica los filtros de token en minúsculas y palabra irrelevantes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html.

sv.lucene

string

Analizador de Lucene para sueco.

sv.microsoft

string

Analizador de Microsoft para sueco.

ta.microsoft

string

Analizador de Microsoft para Tamil.

te.microsoft

string

Analizador de Microsoft para Telugu.

th.lucene

string

Analizador de Lucene para tailandés.

th.microsoft

string

Analizador de Microsoft para tailandés.

tr.lucene

string

Analizador de Lucene para turco.

tr.microsoft

string

Analizador de Microsoft para turco.

uk.microsoft

string

Analizador de Microsoft para ucraniano.

ur.microsoft

string

Analizador de Microsoft para Urdu.

vi.microsoft

string

Analizador de Microsoft para vietnamita.

whitespace

string

Un analizador que usa el tokenizador whitespace. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html.

zh-Hans.lucene

string

Analizador de Lucene para chino (simplificado).

zh-Hans.microsoft

string

Analizador de Microsoft para chino (simplificado).

zh-Hant.lucene

string

Analizador de Lucene para chino (tradicional).

zh-Hant.microsoft

string

Analizador de Microsoft para chino (tradicional).

LexicalTokenizerName

Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.

Nombre Tipo Description
classic

string

Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.

edgeNGram

string

Tokeniza la entrada de un borde en n-gramas de los tamaños especificados. Consulta https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.

keyword_v2

string

Emite la entrada completa como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.

letter

string

Divide el texto por donde no hay letras. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.

lowercase

string

Divide el texto por donde no hay letras y lo convierte en minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.

microsoft_language_stemming_tokenizer

string

Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base.

microsoft_language_tokenizer

string

Divide el texto mediante reglas específicas del idioma.

nGram

string

Tokeniza la entrada en n-gramas de tamaños dados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.

path_hierarchy_v2

string

Tokenizador para las jerarquías parecidas a rutas de acceso. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.

pattern

string

Tokenizador que usa la coincidencia de patrones regex para construir tokens distintos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.

standard_v2

string

Analizador estándar de Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.

uax_url_email

string

Tokeniza las direcciones URL y los correos electrónicos como un token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.

whitespace

string

Divide el texto por los espacios en blanco. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

LimitTokenFilter

Limita el número de tokens durante la indexación. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

consumeAllTokens

boolean

False

Valor que indica si se deben consumir todos los tokens de la entrada incluso si se alcanza maxTokenCount. El valor predeterminado es False.

maxTokenCount

integer

1

Número máximo de tokens que se van a generar. El valor predeterminado es 1.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

LuceneStandardAnalyzer

Analizador estándar de Apache Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Fragmento de URI que especifica el tipo de analizador.

maxTokenLength

integer

255

Longitud máxima del token. El valor predeterminado es 255. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres.

name

string

Nombre del analizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

stopwords

string[]

Lista de palabras irrelevantes.

LuceneStandardTokenizer

Divide el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Fragmento de URI que especifica el tipo de tokenizador.

maxTokenLength

integer

255

Longitud máxima del token. El valor predeterminado es 255. Los tokens que sobrepasen la longitud máxima se dividen.

name

string

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

LuceneStandardTokenizerV2

Divide el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Fragmento de URI que especifica el tipo de tokenizador.

maxTokenLength

integer

255

Longitud máxima del token. El valor predeterminado es 255. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres.

name

string

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

MagnitudeScoringFunction

Define una función que aumenta las puntuaciones en función de la magnitud de un campo numérico.

Nombre Tipo Description
boost

number

Multiplicador de la puntuación sin procesar. Debe ser un número positivo no igual a 1,0.

fieldName

string

Nombre del campo utilizado como entrada para la función de puntuación.

interpolation

ScoringFunctionInterpolation

Valor que indica cómo se interpolará la potenciación entre puntuaciones de documentos; el valor predeterminado es "Linear".

magnitude

MagnitudeScoringParameters

Valores de parámetro para la función de puntuación de magnitud.

type string:

magnitude

Indica el tipo de función que se usará. Entre los valores válidos se incluyen magnitud, índice de actualización, distancia y etiqueta. El tipo de función debe estar en minúsculas.

MagnitudeScoringParameters

Proporciona valores de parámetro a una función de puntuación de magnitud.

Nombre Tipo Description
boostingRangeEnd

number

Valor de campo en el que finaliza la potenciación.

boostingRangeStart

number

Valor de campo en el que se inicia la potenciación.

constantBoostBeyondRange

boolean

Valor que indica si se debe aplicar un aumento constante para los valores de campo más allá del valor final del intervalo; el valor predeterminado es false.

MappingCharFilter

Filtro de caracteres que aplica asignaciones definidas con la opción asignaciones. La coincidencia es ambiciosa (la mayor coincidencia de patrones en un momento dado gana). Se permite que la sustitución sea una cadena vacía. Este filtro de caracteres se implementa mediante Apache Lucene.

Nombre Tipo Description
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Fragmento de URI que especifica el tipo de filtro char.

mappings

string[]

Lista de asignaciones con el formato siguiente: "a=>b" (todas las apariciones del carácter "a" se reemplazarán por el carácter "b").

name

string

Nombre del filtro char. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

MicrosoftLanguageStemmingTokenizer

Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Fragmento de URI que especifica el tipo de tokenizador.

isSearchTokenizer

boolean

False

Valor que indica cómo se usa el tokenizador. Se establece en true si se usa como tokenizador de búsqueda, establecido en false si se usa como tokenizador de indexación. El valor predeterminado es False.

language

MicrosoftStemmingTokenizerLanguage

Idioma que se va a usar. El valor predeterminado es inglés.

maxTokenLength

integer

255

Longitud máxima del token. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es 300 caracteres. Los tokens de más de 300 caracteres se dividen primero en tokens de longitud 300 y, a continuación, cada uno de esos tokens se divide en función del conjunto de longitud máxima del token. El valor predeterminado es 255.

name

string

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

MicrosoftLanguageTokenizer

Divide el texto mediante reglas específicas del idioma.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Fragmento de URI que especifica el tipo de tokenizador.

isSearchTokenizer

boolean

False

Valor que indica cómo se usa el tokenizador. Se establece en true si se usa como tokenizador de búsqueda, establecido en false si se usa como tokenizador de indexación. El valor predeterminado es False.

language

MicrosoftTokenizerLanguage

Idioma que se va a usar. El valor predeterminado es inglés.

maxTokenLength

integer

255

Longitud máxima del token. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es 300 caracteres. Los tokens de más de 300 caracteres se dividen primero en tokens de longitud 300 y, a continuación, cada uno de esos tokens se divide en función del conjunto de longitud máxima del token. El valor predeterminado es 255.

name

string

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

MicrosoftStemmingTokenizerLanguage

Listas los idiomas admitidos por el tokenizador de lematización de idioma de Microsoft.

Nombre Tipo Description
arabic

string

Selecciona el tokenizador de lematización de Microsoft para árabe.

bangla

string

Selecciona el tokenizador de lematización de Microsoft para Bangla.

bulgarian

string

Selecciona el tokenizador de lematización de Microsoft para búlgaro.

catalan

string

Selecciona el tokenizador de lematización de Microsoft para Catalán.

croatian

string

Selecciona el tokenizador de lematización de Microsoft para croata.

czech

string

Selecciona el tokenizador de lematización de Microsoft para Checo.

danish

string

Selecciona el tokenizador de lematización de Microsoft para danés.

dutch

string

Selecciona el tokenizador de lematización de Microsoft para neerlandés.

english

string

Selecciona el tokenizador de lematización de Microsoft para inglés.

estonian

string

Selecciona el tokenizador de lematización de Microsoft para estonio.

finnish

string

Selecciona el tokenizador de lematización de Microsoft para finés.

french

string

Selecciona el tokenizador de lematización de Microsoft para francés.

german

string

Selecciona el tokenizador de lematización de Microsoft para alemán.

greek

string

Selecciona el tokenizador de lematización de Microsoft para griego.

gujarati

string

Selecciona el tokenizador de lematización de Microsoft para Gujarati.

hebrew

string

Selecciona el tokenizador de lematización de Microsoft para hebreo.

hindi

string

Selecciona el tokenizador de lematización de Microsoft para Hindi.

hungarian

string

Selecciona el tokenizador de lematización de Microsoft para húngaro.

icelandic

string

Selecciona el tokenizador de lematización de Microsoft para Islandés.

indonesian

string

Selecciona el tokenizador de lematización de Microsoft para Indonesia.

italian

string

Selecciona el tokenizador de lematización de Microsoft para italiano.

kannada

string

Selecciona el tokenizador de lematización de Microsoft para Kannada.

latvian

string

Selecciona el tokenizador de lematización de Microsoft para letón.

lithuanian

string

Selecciona el tokenizador de lematización de Microsoft para lituano.

malay

string

Selecciona el tokenizador de lematización de Microsoft para Malay.

malayalam

string

Selecciona el tokenizador de lematización de Microsoft para Malayalam.

marathi

string

Selecciona el tokenizador de lematización de Microsoft para Marathi.

norwegianBokmaal

string

Selecciona el tokenizador de lematización de Microsoft para Noruego (Bokmål).

polish

string

Selecciona el tokenizador de lematización de Microsoft para Polaco.

portuguese

string

Selecciona el tokenizador de lematización de Microsoft para portugués.

portugueseBrazilian

string

Selecciona el tokenizador de lematización de Microsoft para portugués (Brasil).

punjabi

string

Selecciona el tokenizador de lematización de Microsoft para Punjabi.

romanian

string

Selecciona el tokenizador de lematización de Microsoft para rumano.

russian

string

Selecciona el tokenizador de lematización de Microsoft para ruso.

serbianCyrillic

string

Selecciona el tokenizador de lematización de Microsoft para serbio (cirílico).

serbianLatin

string

Selecciona el tokenizador de lematización de Microsoft para serbio (latino).

slovak

string

Selecciona el tokenizador de lematización de Microsoft para Eslovaco.

slovenian

string

Selecciona el tokenizador de lematización de Microsoft para esloveno.

spanish

string

Selecciona el tokenizador de lematización de Microsoft para español.

swedish

string

Selecciona el tokenizador de lematización de Microsoft para sueco.

tamil

string

Selecciona el tokenizador de lematización de Microsoft para Tamil.

telugu

string

Selecciona el tokenizador de lematización de Microsoft para Telugu.

turkish

string

Selecciona el tokenizador de lematización de Microsoft para turco.

ukrainian

string

Selecciona el tokenizador de lematización de Microsoft para ucraniano.

urdu

string

Selecciona el tokenizador de lematización de Microsoft para Urdu.

MicrosoftTokenizerLanguage

Listas los idiomas admitidos por el tokenizador de idioma de Microsoft.

Nombre Tipo Description
bangla

string

Selecciona el tokenizador de Microsoft para Bangla.

bulgarian

string

Selecciona el tokenizador de Microsoft para búlgaro.

catalan

string

Selecciona el tokenizador de Microsoft para catalán.

chineseSimplified

string

Selecciona el tokenizador de Microsoft para chino (simplificado).

chineseTraditional

string

Selecciona el tokenizador de Microsoft para chino (tradicional).

croatian

string

Selecciona el tokenizador de Microsoft para croata.

czech

string

Selecciona el tokenizador de Microsoft para Checo.

danish

string

Selecciona el tokenizador de Microsoft para danés.

dutch

string

Selecciona el tokenizador de Microsoft para neerlandés.

english

string

Selecciona el tokenizador de Microsoft para inglés.

french

string

Selecciona el tokenizador de Microsoft para francés.

german

string

Selecciona el tokenizador de Microsoft para alemán.

greek

string

Selecciona el tokenizador de Microsoft para griego.

gujarati

string

Selecciona el tokenizador de Microsoft para Gujarati.

hindi

string

Selecciona el tokenizador de Microsoft para Hindi.

icelandic

string

Selecciona el tokenizador de Microsoft para Islandés.

indonesian

string

Selecciona el tokenizador de Microsoft para Indonesia.

italian

string

Selecciona el tokenizador de Microsoft para italiano.

japanese

string

Selecciona el tokenizador de Microsoft para japonés.

kannada

string

Selecciona el tokenizador de Microsoft para Kannada.

korean

string

Selecciona el tokenizador de Microsoft para coreano.

malay

string

Selecciona el tokenizador de Microsoft para Malayo.

malayalam

string

Selecciona el tokenizador de Microsoft para Malayalam.

marathi

string

Selecciona el tokenizador de Microsoft para Marathi.

norwegianBokmaal

string

Selecciona el tokenizador de Microsoft para Noruego (Bokmål).

polish

string

Selecciona el tokenizador de Microsoft para Polaco.

portuguese

string

Selecciona el tokenizador de Microsoft para portugués.

portugueseBrazilian

string

Selecciona el tokenizador de Microsoft para portugués (Brasil).

punjabi

string

Selecciona el tokenizer de Microsoft para Punjabi.

romanian

string

Selecciona el tokenizador de Microsoft para rumano.

russian

string

Selecciona el tokenizador de Microsoft para ruso.

serbianCyrillic

string

Selecciona el tokenizador de Microsoft para serbio (cirílico).

serbianLatin

string

Selecciona el tokenizador de Microsoft para serbio (latino).

slovenian

string

Selecciona el tokenizador de Microsoft para esloveno.

spanish

string

Selecciona el tokenizador de Microsoft para español.

swedish

string

Selecciona el tokenizador de Microsoft para sueco.

tamil

string

Selecciona el tokenizador de Microsoft para Tamil.

telugu

string

Selecciona el tokenizador de Microsoft para Telugu.

thai

string

Selecciona el tokenizador de Microsoft para tailandés.

ukrainian

string

Selecciona el tokenizador de Microsoft para ucraniano.

urdu

string

Selecciona el tokenizador de Microsoft para Urdu.

vietnamese

string

Selecciona el tokenizador de Microsoft para vietnamita.

NGramTokenFilter

Genera n-gramas de los tamaños dados. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

maxGram

integer

2

Longitud máxima de n-gramas. El valor predeterminado es 2.

minGram

integer

1

Longitud mínima de n-gramas. El valor predeterminado es 1. Debe ser menor que el valor de maxGram.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

NGramTokenFilterV2

Genera n-gramas de los tamaños dados. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Fragmento de URI que especifica el tipo de filtro de token.

maxGram

integer

2

Longitud máxima de n-gramas. El valor predeterminado es 2. El máximo es 300.

minGram

integer

1

Longitud mínima de n-gramas. El valor predeterminado es 1. El máximo es 300. Debe ser menor que el valor de maxGram.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

NGramTokenizer

Tokeniza la entrada en n-gramas de tamaños dados. Este tokenizador se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Fragmento de URI que especifica el tipo de tokenizador.

maxGram

integer

2

Longitud máxima de n-gramas. El valor predeterminado es 2. El máximo es 300.

minGram

integer

1

Longitud mínima de n-gramas. El valor predeterminado es 1. El máximo es 300. Debe ser menor que el valor de maxGram.

name

string

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

tokenChars

TokenCharacterKind[]

Clases de caracteres que se mantendrán en los tokens.

PathHierarchyTokenizerV2

Tokenizador para las jerarquías parecidas a rutas de acceso. Este tokenizador se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Fragmento de URI que especifica el tipo de tokenizador.

delimiter

string

/

Carácter delimitador que se va a usar. El valor predeterminado es "/".

maxTokenLength

integer

300

Longitud máxima del token. El valor predeterminado y máximo es 300.

name

string

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

replacement

string

/

Valor que, si se establece, reemplaza el carácter delimitador. El valor predeterminado es "/".

reverse

boolean

False

Valor que indica si se van a generar tokens en orden inverso. El valor predeterminado es False.

skip

integer

0

Número de tokens iniciales que se van a omitir. El valor predeterminado es 0.

PatternAnalyzer

Separa el texto de manera flexible en términos a través de un patrón de expresión regular. Este analizador se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Fragmento de URI que especifica el tipo de analizador.

flags

RegexFlags

Marcas de expresión regular.

lowercase

boolean

True

Valor que indica si los términos deben estar en minúsculas. El valor predeterminado es true.

name

string

Nombre del analizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

pattern

string

\W+

Patrón de expresión regular para buscar coincidencias con separadores de token. El valor predeterminado es una expresión que coincide con uno o varios caracteres que no son de palabra.

stopwords

string[]

Lista de palabras irrelevantes.

PatternCaptureTokenFilter

Usa expresiones regulares de Java para emitir varios tokens: uno para cada grupo de capturas en uno o varios patrones. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

patterns

string[]

Lista de patrones que se van a comparar con cada token.

preserveOriginal

boolean

True

Valor que indica si se va a devolver el token original incluso si uno de los patrones coincide. El valor predeterminado es true.

PatternReplaceCharFilter

Filtro de caracteres que reemplaza los caracteres de la cadena de entrada. Usa una expresión regular para identificar las secuencias de caracteres que se desean conservar y un patrón de reemplazo para identificar los caracteres que se desean reemplazar. Por ejemplo, dado el texto de entrada "aa bb aa bb", el patrón "(aa)\s+(bb)" y el reemplazo "$1#$2", el resultado sería "aa#bb aa#bb". Este filtro de caracteres se implementa mediante Apache Lucene.

Nombre Tipo Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Fragmento de URI que especifica el tipo de filtro char.

name

string

Nombre del filtro char. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

pattern

string

Patrón de expresión regular.

replacement

string

Texto de sustitución.

PatternReplaceTokenFilter

Filtro de caracteres que reemplaza los caracteres de la cadena de entrada. Usa una expresión regular para identificar las secuencias de caracteres que se desean conservar y un patrón de reemplazo para identificar los caracteres que se desean reemplazar. Por ejemplo, dado el texto de entrada "aa bb aa bb", el patrón "(aa)\s+(bb)" y el reemplazo "$1#$2", el resultado sería "aa#bb aa#bb". Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

pattern

string

Patrón de expresión regular.

replacement

string

Texto de sustitución.

PatternTokenizer

Tokenizador que usa la coincidencia de patrones regex para construir tokens distintos. Este tokenizador se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Fragmento de URI que especifica el tipo de tokenizador.

flags

RegexFlags

Marcas de expresión regular.

group

integer

-1

Ordinal de base cero del grupo coincidente en el patrón de expresión regular que se va a extraer en tokens. Use -1 si desea usar todo el patrón para dividir la entrada en tokens, independientemente de los grupos coincidentes. El valor predeterminado es -1.

name

string

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

pattern

string

\W+

Patrón de expresión regular para buscar coincidencias con separadores de token. El valor predeterminado es una expresión que coincide con uno o varios caracteres que no son de palabra.

PhoneticEncoder

Identifica el tipo de codificador fonético que se va a usar con un PhoneticTokenFilter.

Nombre Tipo Description
beiderMorse

string

Codifica un token en un valor de Beider-Morse.

caverphone1

string

Codifica un token en un valor caverphone 1.0.

caverphone2

string

Codifica un token en un valor caverphone 2.0.

cologne

string

Codifica un token en un valor fonético de Colonia.

doubleMetaphone

string

Codifica un token en un valor de metaphone doble.

haasePhonetik

string

Codifica un token mediante el refinamiento haase del algoritmo Kölner Phonetik.

koelnerPhonetik

string

Codifica un token mediante el algoritmo Kölner Phonetik.

metaphone

string

Codifica un token en un valor de Metaphone.

nysiis

string

Codifica un token en un valor NYSIIS.

refinedSoundex

string

Codifica un token en un valor de Soundex refinado.

soundex

string

Codifica un token en un valor Soundex.

PhoneticTokenFilter

Crea tokens para coincidencias fonéticas. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

encoder

PhoneticEncoder

metaphone

Codificador fonético que se va a usar. El valor predeterminado es "metaphone".

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

replace

boolean

True

Valor que indica si los tokens codificados deben reemplazar los tokens originales. Si es false, los tokens codificados se agregan como sinónimos. El valor predeterminado es true.

PrioritizedFields

Describe los campos título, contenido y palabras clave que se usarán para la clasificación semántica, los títulos, los resaltados y las respuestas.

Nombre Tipo Description
prioritizedContentFields

SemanticField[]

Define los campos de contenido que se usarán para la clasificación semántica, los subtítulos, los resaltados y las respuestas. Para obtener el mejor resultado, los campos seleccionados deben contener texto en formato de lenguaje natural. El orden de los campos de la matriz representa su prioridad. Los campos con prioridad inferior se pueden truncar si el contenido es largo.

prioritizedKeywordsFields

SemanticField[]

Define los campos de palabra clave que se usarán para la clasificación semántica, los títulos, los resaltados y las respuestas. Para obtener el mejor resultado, los campos seleccionados deben contener una lista de palabras clave. El orden de los campos de la matriz representa su prioridad. Los campos con prioridad inferior se pueden truncar si el contenido es largo.

titleField

SemanticField

Define el campo de título que se usará para la clasificación semántica, los títulos, los resaltados y las respuestas. Si no tiene un campo de título en el índice, déjelo en blanco.

RegexFlags

Define marcas que se pueden combinar para controlar cómo se usan las expresiones regulares en el analizador de patrones y el tokenizador de patrones.

Nombre Tipo Description
CANON_EQ

string

Habilita la equivalencia canónica.

CASE_INSENSITIVE

string

Habilita la coincidencia sin distinción entre mayúsculas y minúsculas.

COMMENTS

string

Permite espacios en blanco y comentarios en el patrón.

DOTALL

string

Habilita el modo dotall.

LITERAL

string

Habilita el análisis literal del patrón.

MULTILINE

string

Habilita el modo multilínea.

UNICODE_CASE

string

Habilita el plegado de mayúsculas y minúsculas compatibles con Unicode.

UNIX_LINES

string

Habilita el modo de líneas unix.

ScoringFunctionAggregation

Define la función de agregación usada para combinar los resultados de todas las funciones de puntuación de un perfil de puntuación.

Nombre Tipo Description
average

string

Aumente las puntuaciones según el promedio de todos los resultados de la función de puntuación.

firstMatching

string

Aumente las puntuaciones con la primera función de puntuación aplicable en el perfil de puntuación.

maximum

string

Aumente las puntuaciones por el máximo de todos los resultados de la función de puntuación.

minimum

string

Aumente las puntuaciones por el mínimo de todos los resultados de la función de puntuación.

sum

string

Aumente las puntuaciones por la suma de todos los resultados de la función de puntuación.

ScoringFunctionInterpolation

Define la función que se usa para interpolar la potenciación de la puntuación en un intervalo de documentos.

Nombre Tipo Description
constant

string

Aumenta las puntuaciones por un factor constante.

linear

string

Aumenta las puntuaciones por una cantidad decreciente linealmente. Esta es la interpolación predeterminada para las funciones de puntuación.

logarithmic

string

Aumenta las puntuaciones por una cantidad que disminuye logarítmicamente. Aumenta rápidamente para obtener puntuaciones más altas y, más lentamente, a medida que se reducen las puntuaciones. Esta opción de interpolación no se permite en funciones de puntuación de etiquetas.

quadratic

string

Aumenta las puntuaciones por una cantidad que disminuye cuadráticamente. Los aumentos reducen lentamente las puntuaciones más altas y, más rápidamente, a medida que se reducen las puntuaciones. Esta opción de interpolación no se permite en funciones de puntuación de etiquetas.

ScoringProfile

Define parámetros para un índice de búsqueda que influye en la puntuación en las consultas de búsqueda.

Nombre Tipo Description
functionAggregation

ScoringFunctionAggregation

Valor que indica cómo se deben combinar los resultados de las funciones de puntuación individuales. El valor predeterminado es "Sum". Se omite si no hay funciones de puntuación.

functions ScoringFunction[]:

Colección de funciones que influyen en la puntuación de los documentos.

name

string

Nombre del perfil de puntuación.

text

TextWeights

Parámetros que aumentan la puntuación en función de las coincidencias de texto en determinados campos de índice.

SearchError

Describe una condición de error para la API.

Nombre Tipo Description
code

string

Uno de los conjuntos de códigos de error definidos por el servidor.

details

SearchError[]

Matriz de detalles sobre errores específicos que llevaron a este error notificado.

message

string

Representación legible del error.

SearchField

Representa un campo en una definición de índice, que describe el nombre, el tipo de datos y el comportamiento de búsqueda de un campo.

Nombre Tipo Description
analyzer

LexicalAnalyzerName

Nombre del analizador que se va a usar para el campo. Esta opción puede utilizarse solo con campos habilitados para la búsqueda y no se puede establecer junto con searchAnalyzer ni indexAnalyzer. Una vez que se elige el analizador, no se podrá cambiar para el campo. Debe ser null para campos complejos.

dimensions

integer

Dimensionalidad del campo vectorial.

facetable

boolean

Valor que indica si se va a permitir que se haga referencia al campo en las consultas de faceta. Normalmente se usa en una presentación de resultados de búsqueda que incluye el recuento de llamadas por categoría (por ejemplo, buscar cámaras digitales y ver visitas por marca, por megapíxeles, por precio, etc.). Esta propiedad debe ser null para campos complejos. Los campos de tipo Edm.GeographyPoint o Collection(Edm.GeographyPoint) no pueden ser facetables. El valor predeterminado es true para todos los demás campos simples.

fields

SearchField[]

Lista de subcampos si se trata de un campo de tipo Edm.ComplexType o Collection(Edm.ComplexType). Debe ser null o estar vacío para campos simples.

filterable

boolean

Valor que indica si se debe hacer referencia al campo en $filter consultas. filterable difiere de lo que se puede buscar en cómo se controlan las cadenas. Los campos de tipo Edm.String o Collection(Edm.String) que se pueden filtrar no se someten a separación de palabras, por lo que las comparaciones son solo para coincidencias exactas. Por ejemplo, si establece este campo f en "sunny day", $filter=f eq "sunny" no encontrará coincidencias, pero $filter=f eq "sunny day". Esta propiedad debe ser null para campos complejos. El valor predeterminado es true para campos simples y null para campos complejos.

indexAnalyzer

LexicalAnalyzerName

Nombre del analizador usado en el momento de la indexación del campo. Esta opción solo se puede usar con campos que se pueden buscar. Debe establecerse junto con searchAnalyzer y no se puede establecer junto con la opción del analizador. Esta propiedad no se puede establecer en el nombre de un analizador de idioma; Use la propiedad analyzer en su lugar si necesita un analizador de lenguaje. Una vez que se elige el analizador, no se podrá cambiar para el campo. Debe ser null para campos complejos.

key

boolean

Valor que indica si el campo identifica de forma única documentos en el índice. Se debe elegir exactamente un campo de nivel superior en cada índice como campo clave y debe ser de tipo Edm.String. Los campos clave se pueden usar para buscar documentos directamente y actualizar o eliminar documentos específicos. El valor predeterminado es false para campos simples y null para campos complejos.

name

string

Nombre del campo, que debe ser único dentro de la colección de campos del índice o el campo primario.

retrievable

boolean

Valor que indica si el campo se puede devolver en un resultado de búsqueda. Puede deshabilitar esta opción si desea usar un campo (por ejemplo, margen) como filtro, ordenación o mecanismo de puntuación, pero no desea que el campo sea visible para el usuario final. Esta propiedad debe ser true para los campos de clave y debe ser null para campos complejos. Esta propiedad se puede cambiar en campos existentes. La habilitación de esta propiedad no provoca ningún aumento en los requisitos de almacenamiento de índices. El valor predeterminado es true para campos simples y null para campos complejos.

searchAnalyzer

LexicalAnalyzerName

Nombre del analizador usado en el momento de la búsqueda del campo. Esta opción solo se puede usar con campos que se pueden buscar. Debe establecerse junto con indexAnalyzer y no se puede establecer junto con la opción del analizador. Esta propiedad no se puede establecer en el nombre de un analizador de idioma; Use la propiedad analyzer en su lugar si necesita un analizador de lenguaje. Este analizador se puede actualizar en un campo existente. Debe ser null para campos complejos.

searchable

boolean

Valor que indica si el campo es de texto completo que se puede buscar. Esto significa que se someterá a análisis como la separación de palabras durante la indexación. Si establece un campo buscable en un valor como "día soleado", internamente se dividirá en los tokens individuales "soleado" y "día". Esto permite realizar búsquedas de texto completo de estos términos. Los campos de tipo Edm.String o Collection(Edm.String) se pueden buscar de forma predeterminada. Esta propiedad debe ser false para campos simples de otros tipos de datos que no son de cadena y debe ser null para campos complejos. Nota: Los campos que se pueden buscar consumen espacio adicional en el índice para dar cabida a versiones tokenizadas adicionales del valor del campo para las búsquedas de texto completo. Si desea ahorrar espacio en el índice y no necesita incluir un campo en las búsquedas, establezca searchable en false.

sortable

boolean

Valor que indica si se debe hacer referencia al campo en $orderby expresiones. De forma predeterminada, el motor de búsqueda ordena los resultados por puntuación, pero en muchas experiencias los usuarios querrán ordenar por campos de los documentos. Un campo simple solo se puede ordenar si es de un solo valor (tiene un único valor en el ámbito del documento primario). Los campos de colección simples no se pueden ordenar, ya que son multivalor. Los subcarpetas simples de colecciones complejas también tienen varios valores y, por tanto, no se pueden ordenar. Esto es cierto si es un campo primario inmediato o un campo antecesor, que es la colección compleja. Los campos complejos no se pueden ordenar y la propiedad ordenable debe ser null para dichos campos. El valor predeterminado para ordenar es true para los campos simples con un solo valor, false para los campos simples con varios valores y null para campos complejos.

synonymMaps

string[]

Lista de los nombres de los mapas de sinónimos que se van a asociar a este campo. Esta opción solo se puede usar con campos que se pueden buscar. Actualmente solo se admite un mapa de sinónimos por campo. La asignación de un mapa de sinónimos a un campo garantiza que los términos de consulta destinados a ese campo se expanden en tiempo de consulta mediante las reglas del mapa de sinónimos. Este atributo se puede cambiar en los campos existentes. Debe ser null o una colección vacía para campos complejos.

type

SearchFieldDataType

Tipo de datos del campo.

vectorSearchProfile

string

Nombre del perfil de búsqueda vectorial que especifica el algoritmo que se va a usar al buscar en el campo vectorial.

SearchFieldDataType

Define el tipo de datos de un campo en un índice de búsqueda.

Nombre Tipo Description
Edm.Boolean

string

Indica que un campo contiene un valor booleano (true o false).

Edm.ComplexType

string

Indica que un campo contiene uno o varios objetos complejos que, a su vez, tienen subcampos de otros tipos.

Edm.DateTimeOffset

string

Indica que un campo contiene un valor de fecha y hora, incluida la información de zona horaria.

Edm.Double

string

Indica que un campo contiene un número de punto flotante de precisión doble IEEE.

Edm.GeographyPoint

string

Indica que un campo contiene una ubicación geográfica en términos de longitud y latitud.

Edm.Int32

string

Indica que un campo contiene un entero de 32 bits con signo.

Edm.Int64

string

Indica que un campo contiene un entero de 64 bits con signo.

Edm.Single

string

Indica que un campo contiene un número de punto flotante de precisión sencilla. Esto solo es válido cuando se usa con Collection(Edm.Single).

Edm.String

string

Indica que un campo contiene una cadena.

SearchIndex

Representa una definición de índice de búsqueda, que describe los campos y el comportamiento de búsqueda de un índice.

Nombre Tipo Description
@odata.etag

string

ETag del índice.

analyzers LexicalAnalyzer[]:

Analizadores del índice.

charFilters CharFilter[]:

Los filtros de caracteres para el índice.

corsOptions

CorsOptions

Opciones para controlar el uso compartido de recursos entre orígenes (CORS) para el índice.

defaultScoringProfile

string

Nombre del perfil de puntuación que se va a usar si no se especifica ninguno en la consulta. Si no se establece esta propiedad y no se especifica ningún perfil de puntuación en la consulta, se usará la puntuación predeterminada (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Descripción de una clave de cifrado que se crea en Azure Key Vault. Esta clave se usa para proporcionar un nivel adicional de cifrado en reposo para los datos cuando desee asegurarse de que nadie, ni siquiera Microsoft, puede descifrar los datos. Una vez que haya cifrado los datos, siempre permanecerá cifrado. El servicio de búsqueda omitirá los intentos de establecer esta propiedad en null. Puede cambiar esta propiedad según sea necesario si desea rotar la clave de cifrado; Los datos no se verán afectados. El cifrado con claves administradas por el cliente no está disponible para los servicios de búsqueda gratuitos y solo está disponible para los servicios de pago creados el 1 de enero de 2019 o después.

fields

SearchField[]

Campos del índice.

name

string

El nombre del índice.

scoringProfiles

ScoringProfile[]

Perfiles de puntuación para el índice.

semantic

SemanticSettings

Define parámetros para un índice de búsqueda que influye en las funcionalidades semánticas.

similarity Similarity:

Tipo de algoritmo de similitud que se va a usar al puntuar y clasificar los documentos que coinciden con una consulta de búsqueda. El algoritmo de similitud solo se puede definir en el momento de la creación del índice y no se puede modificar en índices existentes. Si es null, se usa el algoritmo ClassicSimilarity.

suggesters

Suggester[]

Proveedores de sugerencias para el índice.

tokenFilters TokenFilter[]:

El token filtra el índice.

tokenizers LexicalTokenizer[]:

Tokenizadores para el índice.

vectorSearch

VectorSearch

Contiene opciones de configuración relacionadas con la búsqueda vectorial.

SearchResourceEncryptionKey

Una clave de cifrado administrada por el cliente en Azure Key Vault. Las claves que cree y administre se pueden usar para cifrar o descifrar datos en reposo en el servicio de búsqueda, como índices y mapas de sinónimos.

Nombre Tipo Description
accessCredentials

AzureActiveDirectoryApplicationCredentials

Credenciales opcionales de Azure Active Directory usadas para acceder a azure Key Vault. No es necesario si se usa la identidad administrada en su lugar.

keyVaultKeyName

string

Nombre de la clave de Azure Key Vault que se usará para cifrar los datos en reposo.

keyVaultKeyVersion

string

La versión de la clave de Azure Key Vault que se usará para cifrar los datos en reposo.

keyVaultUri

string

El URI de azure Key Vault, también denominado nombre DNS, que contiene la clave que se va a usar para cifrar los datos en reposo. Un identificador URI de ejemplo podría ser https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Define una configuración específica que se usará en el contexto de las funcionalidades semánticas.

Nombre Tipo Description
name

string

Nombre de la configuración semántica.

prioritizedFields

PrioritizedFields

Describe los campos de título, contenido y palabra clave que se usarán para la clasificación semántica, los subtítulos, los resaltados y las respuestas. Es necesario establecer al menos una de las tres subpropiedades (titleField, prioritizedKeywordsFields y prioritizedContentFields).

SemanticField

Campo que se usa como parte de la configuración semántica.

Nombre Tipo Description
fieldName

string

SemanticSettings

Define parámetros para un índice de búsqueda que influye en las funcionalidades semánticas.

Nombre Tipo Description
configurations

SemanticConfiguration[]

Configuraciones semánticas para el índice.

defaultConfiguration

string

Permite establecer el nombre de una configuración semántica predeterminada en el índice, lo que lo convierte en opcional para pasarlo como parámetro de consulta cada vez.

ShingleTokenFilter

Crea combinaciones de tokens como un solo token. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

filterToken

string

_

Cadena que se va a insertar para cada posición en la que no hay ningún token. El valor predeterminado es un carácter de subrayado ("_").

maxShingleSize

integer

2

Tamaño máximo del shingle. El valor predeterminado y mínimo es 2.

minShingleSize

integer

2

Tamaño mínimo del shingle. El valor predeterminado y mínimo es 2. Debe ser menor que el valor de maxShingleSize.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

outputUnigrams

boolean

True

Valor que indica si el flujo de salida contendrá los tokens de entrada (unigramas), así como las tejas. El valor predeterminado es true.

outputUnigramsIfNoShingles

boolean

False

Valor que indica si se van a generar unigramas para esos momentos en los que no hay ningún shingle disponible. Esta propiedad tiene prioridad cuando outputUnigrams se establece en false. El valor predeterminado es False.

tokenSeparator

string

Cadena que se va a usar al unir tokens adyacentes para formar un shingle. El valor predeterminado es un espacio único (" ").

SnowballTokenFilter

Filtro que deriva palabras mediante un lematizador generado por Snowball. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Description
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

language

SnowballTokenFilterLanguage

Idioma que se va a usar.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

SnowballTokenFilterLanguage

Idioma que se va a usar para un filtro de token de Snowball.

Nombre Tipo Description
armenian

string

Selecciona el tokenizador de lematización de Lucene Snowball para Armenio.

basque

string

Selecciona el tokenizador de lematización de Lucene Snowball para Euskera.

catalan

string

Selecciona el tokenizador de lematización lucene Snowball para catalán.

danish

string

Selecciona el tokenizador de lematización de Lucene Snowball para danés.

dutch

string

Selecciona el tokenizador de lematización de Lucene Snowball para neerlandés.

english

string

Selecciona el tokenizador de lematización de Lucene Snowball para inglés.

finnish

string

Selecciona el tokenizador de lematización de Lucene Snowball para Finnish.

french

string

Selecciona el tokenizador de lematización de Lucene Snowball para francés.

german

string

Selecciona el tokenizador de lematización de Lucene Snowball para alemán.

german2

string

Selecciona el tokenizador de lematización de Lucene Snowball que usa el algoritmo de variante alemán.

hungarian

string

Selecciona el tokenizador de lematización de Lucene Snowball para húngaro.

italian

string

Selecciona el tokenizador de lematización de Lucene Snowball para italiano.

kp

string

Selecciona el tokenizador de lematización de Lucene Snowball para neerlandés que usa el algoritmo de lematización Kraaij-Pohlmann.

lovins

string

Selecciona el tokenizador de lematización de Lucene Snowball para inglés que usa el algoritmo de lematización de Lovins.

norwegian

string

Selecciona el tokenizador de lematización de Lucene Snowball para noruego.

porter

string

Selecciona el tokenizador de lematización de Lucene Snowball para inglés que usa el algoritmo de lematización porter.

portuguese

string

Selecciona el tokenizador de lematización de Lucene Snowball para portugués.

romanian

string

Selecciona el tokenizador de lematización de Lucene Snowball para rumano.

russian

string

Selecciona el tokenizador de lematización de Lucene Snowball para ruso.

spanish

string

Selecciona el tokenizador de lematización de Lucene Snowball para español.

swedish

string

Selecciona el tokenizador de lematización de Lucene Snowball para sueco.

turkish

string

Selecciona el tokenizador de lematización de Lucene Snowball para turco.

StemmerOverrideTokenFilter

Proporciona la capacidad de invalidar otros filtros de lematización con lematización personalizada basada en diccionarios. Los términos con lematización del diccionario se marcarán como palabras clave para que no se lematice con lematizadores hacia abajo de la cadena. Se debe colocar antes de los filtros de lematización. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Description
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

rules

string[]

Lista de reglas de lematización con el siguiente formato: "word => stem", por ejemplo: "ran => run".

StemmerTokenFilter

Filtro de lematización específico del idioma. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Description
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

language

StemmerTokenFilterLanguage

Idioma que se va a usar.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

StemmerTokenFilterLanguage

Idioma que se va a usar para un filtro de token de lematizador.

Nombre Tipo Description
arabic

string

Selecciona el tokenizador de lematización de Lucene para árabe.

armenian

string

Selecciona el tokenizador de lematización lucene para armenio.

basque

string

Selecciona el tokenizador de lematización de Lucene para Euskera.

brazilian

string

Selecciona el tokenizador de lematización de Lucene para portugués (Brasil).

bulgarian

string

Selecciona el tokenizador de lematización de Lucene para búlgaro.

catalan

string

Selecciona el tokenizador de lematización lucene para catalán.

czech

string

Selecciona el tokenizador de lematización de Lucene para Checo.

danish

string

Selecciona el tokenizador de lematización de Lucene para danés.

dutch

string

Selecciona el tokenizador de lematización de Lucene para holandés.

dutchKp

string

Selecciona el tokenizador de lematización de Lucene para neerlandés que usa el algoritmo de lematización Kraaij-Pohlmann.

english

string

Selecciona el tokenizador de lematización de Lucene para inglés.

finnish

string

Selecciona el tokenizador de lematización de Lucene para finés.

french

string

Selecciona el tokenizador de lematización de Lucene para francés.

galician

string

Selecciona el tokenizador de lematización de Lucene para Gallega.

german

string

Selecciona el tokenizador de lematización de Lucene para alemán.

german2

string

Selecciona el tokenizador de lematización de Lucene que usa el algoritmo de variante alemán.

greek

string

Selecciona el tokenizador de lematización de Lucene para griego.

hindi

string

Selecciona el tokenizador de lematización de Lucene para hindi.

hungarian

string

Selecciona el tokenizador de lematización de Lucene para húngaro.

indonesian

string

Selecciona el tokenizador de lematización de Lucene para Indonesia.

irish

string

Selecciona el tokenizador de lematización de Lucene para irlandés.

italian

string

Selecciona el tokenizador de lematización de Lucene para italiano.

latvian

string

Selecciona el tokenizador de lematización de Lucene para letón.

lightEnglish

string

Selecciona el tokenizador de lematización de Lucene para inglés que realiza lematización ligera.

lightFinnish

string

Selecciona el tokenizador de lematización de Lucene para finés que realiza lematización ligera.

lightFrench

string

Selecciona el tokenizador de lematización de Lucene para francés que realiza lematización ligera.

lightGerman

string

Selecciona el tokenizador de lematización de Lucene para alemán que realiza lematización ligera.

lightHungarian

string

Selecciona el tokenizador de lematización de Lucene para húngaro que realiza lematización ligera.

lightItalian

string

Selecciona el tokenizador de lematización de Lucene para italiano que realiza lematización ligera.

lightNorwegian

string

Selecciona el tokenizador de lematización de Lucene para noruego (Bokmål) que realiza lematización ligera.

lightNynorsk

string

Selecciona el tokenizador de lematización de Lucene para noruego (Nynorsk) que realiza lematización ligera.

lightPortuguese

string

Selecciona el tokenizador de lematización de Lucene para portugués que realiza lematización ligera.

lightRussian

string

Selecciona el tokenizador de lematización de Lucene para ruso que realiza lematización ligera.

lightSpanish

string

Selecciona el tokenizador de lematización de Lucene para español que realiza lematización ligera.

lightSwedish

string

Selecciona el tokenizador de lematización lucene para sueco que realiza lematización ligera.

lovins

string

Selecciona el tokenizador de lematización de Lucene para inglés que usa el algoritmo de lematización de Lovins.

minimalEnglish

string

Selecciona el tokenizador de lematización de Lucene para inglés que realiza una lematización mínima.

minimalFrench

string

Selecciona el tokenizador de lematización de Lucene para francés que realiza una lematización mínima.

minimalGalician

string

Selecciona el tokenizador de lematización lucene para gallega que realiza una lematización mínima.

minimalGerman

string

Selecciona el tokenizador de lematización de Lucene para alemán que realiza una lematización mínima.

minimalNorwegian

string

Selecciona el tokenizador de lematización de Lucene para noruego (Bokmål) que realiza una lematización mínima.

minimalNynorsk

string

Selecciona el tokenizador de lematización de Lucene para noruego (Nynorsk) que realiza una lematización mínima.

minimalPortuguese

string

Selecciona el tokenizador de lematización de Lucene para portugués que realiza una lematización mínima.

norwegian

string

Selecciona el tokenizador de lematización lucene para noruego (Bokmål).

porter2

string

Selecciona el tokenizador de lematización de Lucene para inglés que usa el algoritmo de lematización porter2.

portuguese

string

Selecciona el tokenizador de lematización de Lucene para portugués.

portugueseRslp

string

Selecciona el tokenizador de lematización de Lucene para portugués que usa el algoritmo de lematización RSLP.

possessiveEnglish

string

Selecciona el tokenizador de lematización de Lucene para inglés que quita los posesivos finales de las palabras.

romanian

string

Selecciona el tokenizador de lematización de Lucene para rumano.

russian

string

Selecciona el tokenizador de lematización de Lucene para ruso.

sorani

string

Selecciona el tokenizador de lematización de Lucene para Sorani.

spanish

string

Selecciona el tokenizador de lematización de Lucene para español.

swedish

string

Selecciona el tokenizador de lematización de Lucene para sueco.

turkish

string

Selecciona el tokenizador de lematización de Lucene para turco.

StopAnalyzer

Divide el texto en letras no letras; Aplica los filtros de token en minúsculas y palabra irrelevantes. Este analizador se implementa mediante Apache Lucene.

Nombre Tipo Description
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Fragmento de URI que especifica el tipo de analizador.

name

string

Nombre del analizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

stopwords

string[]

Lista de palabras irrelevantes.

StopwordsList

Identifica una lista predefinida de palabras irrelevantes específicas del lenguaje.

Nombre Tipo Description
arabic

string

Selecciona la lista de palabras irrelevantes para árabe.

armenian

string

Selecciona la lista de palabras irrelevantes de Armenia.

basque

string

Selecciona la lista de palabras irrelevantes de Basque.

brazilian

string

Selecciona la lista de palabras irrelevantes para portugués (Brasil).

bulgarian

string

Selecciona la lista de palabras irrelevantes para búlgaro.

catalan

string

Selecciona la lista de palabras irrelevantes para catalán.

czech

string

Selecciona la lista de palabras irrelevantes para Checo.

danish

string

Selecciona la lista de palabras irrelevantes para danés.

dutch

string

Selecciona la lista de palabras irrelevantes para neerlandés.

english

string

Selecciona la lista de palabras irrelevantes para inglés.

finnish

string

Selecciona la lista de palabras irrelevantes para Finnish.

french

string

Selecciona la lista de palabras irrelevantes para francés.

galician

string

Selecciona la lista de palabras irrelevantes de Gallega.

german

string

Selecciona la lista de palabras irrelevantes para alemán.

greek

string

Selecciona la lista de palabras irrelevantes para griego.

hindi

string

Selecciona la lista de palabras irrelevantes para hindi.

hungarian

string

Selecciona la lista de palabras irrelevantes para húngaro.

indonesian

string

Selecciona la lista de palabras irrelevantes de Indonesia.

irish

string

Selecciona la lista de palabras irrelevantes para irlandés.

italian

string

Selecciona la lista de palabras irrelevantes para italiano.

latvian

string

Selecciona la lista de palabras irrelevantes para letón.

norwegian

string

Selecciona la lista de palabras irrelevantes para Noruego.

persian

string

Selecciona la lista de palabras irrelevantes para Persa.

portuguese

string

Selecciona la lista de palabras irrelevantes para portugués.

romanian

string

Selecciona la lista de palabras irrelevantes para rumano.

russian

string

Selecciona la lista de palabras irrelevantes para ruso.

sorani

string

Selecciona la lista de palabras irrelevantes de Sorani.

spanish

string

Selecciona la lista de palabras irrelevantes para español.

swedish

string

Selecciona la lista de palabras irrelevantes para sueco.

thai

string

Selecciona la lista de palabras irrelevantes de Thai.

turkish

string

Selecciona la lista de palabras irrelevantes para Turco.

StopwordsTokenFilter

Quita las palabras irrelevantes de una secuencia de tokens. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

ignoreCase

boolean

False

Valor que indica si se omitirán mayúsculas y minúsculas. Si es true, todas las palabras se convierten en minúsculas en primer lugar. El valor predeterminado es False.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

removeTrailing

boolean

True

Valor que indica si se omitirá el último término de búsqueda si es una palabra irrelevante. El valor predeterminado es true.

stopwords

string[]

Lista de palabras irrelevantes. Esta propiedad y la propiedad de lista de palabras irrelevantes no se pueden establecer.

stopwordsList

StopwordsList

english

Lista predefinida de palabras irrelevantes que se van a usar. Esta propiedad y la propiedad stopwords no se pueden establecer. El valor predeterminado es inglés.

Suggester

Define cómo debe aplicarse la API suggest a un grupo de campos del índice.

Nombre Tipo Description
name

string

El nombre del proveedor de sugerencias.

searchMode

SuggesterSearchMode

Valor que indica las funciones del proveedor de sugerencias.

sourceFields

string[]

Lista de nombres de campo a los que se aplica el proveedor de sugerencias. Cada campo debe ser buscable.

SuggesterSearchMode

Valor que indica las funciones del proveedor de sugerencias.

Nombre Tipo Description
analyzingInfixMatching

string

Coincide con términos y prefijos enteros consecutivos en un campo. Por ejemplo, para el campo "El zorro marrón más rápido", las consultas "rápido" y "frente más rápida" coincidirían.

SynonymTokenFilter

Coincide con sinónimos de una o varias palabras en una secuencia de tokens. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

expand

boolean

True

Valor que indica si todas las palabras de la lista de sinónimos (si no se usa notación => ) se asignarán entre sí. Si es true, todas las palabras de la lista de sinónimos (si no se usa la notación => ) se asignarán entre sí. La siguiente lista: increíble, increíble, fabulosa, increíble es equivalente a: increíble, increíble, fabuloso, increíble => increíble, increíble, fabuloso, fabuloso, increíble. Si es false, la siguiente lista: increíble, increíble, fabulosa, increíble será equivalente a: increíble, increíble, fabuloso, increíble => increíble. El valor predeterminado es true.

ignoreCase

boolean

False

Valor que indica si se debe plegar mayúsculas y minúsculas para buscar coincidencias. El valor predeterminado es False.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

synonyms

string[]

Una lista de sinónimos en uno de los dos formatos siguientes: 1. increíble, increíble, fabuloso => increíble - todos los términos en el lado izquierdo de => símbolo se reemplazarán por todos los términos en su lado derecho; 2. increíble, increíble, fabuloso, increíble - lista separada por comas de palabras equivalentes. Establezca la opción de expansión para cambiar cómo se interpreta esta lista.

TagScoringFunction

Define una función que aumenta las puntuaciones de documentos con valores de cadena que coinciden con una lista determinada de etiquetas.

Nombre Tipo Description
boost

number

Multiplicador de la puntuación sin procesar. Debe ser un número positivo no igual a 1,0.

fieldName

string

Nombre del campo utilizado como entrada para la función de puntuación.

interpolation

ScoringFunctionInterpolation

Valor que indica cómo se interpolará la potenciación entre puntuaciones de documentos; el valor predeterminado es "Linear".

tag

TagScoringParameters

Valores de parámetro para la función de puntuación de etiquetas.

type string:

tag

Indica el tipo de función que se usará. Entre los valores válidos se incluyen magnitud, índice de actualización, distancia y etiqueta. El tipo de función debe estar en minúsculas.

TagScoringParameters

Proporciona valores de parámetro a una función de puntuación de etiquetas.

Nombre Tipo Description
tagsParameter

string

Nombre del parámetro pasado en las consultas de búsqueda para especificar la lista de etiquetas que se van a comparar con el campo de destino.

TextWeights

Define pesos en los campos de índice para los que las coincidencias deben aumentar la puntuación en las consultas de búsqueda.

Nombre Tipo Description
weights

object

Diccionario de pesos por campo para aumentar la puntuación de documentos. Las claves son nombres de campo y los valores son los pesos de cada campo.

TokenCharacterKind

Representa clases de caracteres en las que puede funcionar un filtro de token.

Nombre Tipo Description
digit

string

Mantiene los dígitos en tokens.

letter

string

Mantiene letras en tokens.

punctuation

string

Mantiene la puntuación en los tokens.

symbol

string

Mantiene los símbolos en tokens.

whitespace

string

Mantiene el espacio en blanco en los tokens.

TokenFilterName

Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.

Nombre Tipo Description
apostrophe

string

Elimina todos los caracteres después de un apóstrofo (incluido el propio apóstrofo). Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.

arabic_normalization

string

Un filtro de token que aplica el normalizador de árabe para normalizar la ortografía. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.

asciifolding

string

Convierte caracteres alfabéticos, numéricos y simbólicos Unicode que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Básico latino") en sus equivalentes ASCII, si existen dichos equivalentes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

cjk_bigram

string

Forma bigrams de términos de CJK que se generan a partir del tokenizador estándar. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.

cjk_width

string

Normaliza las diferencias de ancho de CJK. Dobla las variantes ASCII fullwidth en el equivalente latino básico y las variantes katakana de ancho medio en el kana equivalente. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.

classic

string

Quita los posesivos en inglés y los puntos de los acrónimos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.

common_grams

string

Construye bigramas para términos que se repiten con frecuencia durante la indexación. Los términos individuales también se indexan, con los bigramas superpuestos. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.

edgeNGram_v2

string

Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.

elision

string

Quita las elisiones. Por ejemplo, "l'avion" (el plano) se convertirá en "avion" (plano). Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

german_normalization

string

Normaliza los caracteres alemanes según la heurística del algoritmo de bola de nieve alemán2. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.

hindi_normalization

string

Normaliza el texto en hindi para quitar algunas diferencias en las variaciones ortográficas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.

indic_normalization

string

Normaliza la representación Unicode de texto en las lenguas hindúes. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.

keyword_repeat

string

Emite cada token entrante dos veces, una como palabra clave y una vez como no palabra clave. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.

kstem

string

Un filtro kstem de alto rendimiento para inglés. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.

length

string

Quita las palabras que son demasiado largas o demasiado cortas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.

limit

string

Limita el número de tokens durante la indexación. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.

lowercase

string

Normaliza el texto de token a minúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm.

nGram_v2

string

Genera n-gramas de los tamaños dados. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.

persian_normalization

string

Aplica la normalización para persa. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.

phonetic

string

Crea tokens para coincidencias fonéticas. Consulta https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.

porter_stem

string

Usa el algoritmo de lematización de Porter para transformar el flujo de tokens. Consulta http://tartarus.org/~martin/PorterStemmer.

reverse

string

Invierte la cadena de token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

scandinavian_folding

string

Pliega los caracteres escandinavos åÅäæÄÆ->a y öÖøØ->o. También discrimina el uso de las vocales dobles aa, ae, ao, oe y oo, dejando solo la primera de ellas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.

scandinavian_normalization

string

Normaliza el uso de los caracteres de escandinavo intercambiables. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.

shingle

string

Crea combinaciones de tokens como un solo token. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.

snowball

string

Filtro que deriva las palabras mediante un lematizador generado por Snowball. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.

sorani_normalization

string

Normaliza la representación de Unicode de texto del idioma sorani. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.

stemmer

string

Filtro de lematización específico del idioma. Consulta https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.

stopwords

string

Quita las palabras irrelevantes de una secuencia de tokens. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.

trim

string

Recorta el espacio en blanco inicial y final de los tokens. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.

truncate

string

Trunca los términos a una longitud específica. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.

unique

string

Filtra los tokens con el mismo texto que el token anterior. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.

uppercase

string

Normaliza el texto de token a mayúsculas. Consulta http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

word_delimiter

string

Divide palabras en subpalabras y realiza transformaciones opcionales en los grupos de subpalabras.

TruncateTokenFilter

Trunca los términos en una longitud específica. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

length

integer

300

Longitud en la que se truncarán los términos. El valor predeterminado y máximo es 300.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

UaxUrlEmailTokenizer

Tokeniza las direcciones URL y los correos electrónicos como un token. Este tokenizador se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Fragmento de URI que especifica el tipo de tokenizador.

maxTokenLength

integer

255

Longitud máxima del token. El valor predeterminado es 255. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres.

name

string

Nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

UniqueTokenFilter

Filtra los tokens con el mismo texto que el token anterior. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

onlyOnSamePosition

boolean

False

Valor que indica si se van a quitar duplicados solo en la misma posición. El valor predeterminado es False.

VectorSearch

Contiene opciones de configuración relacionadas con la búsqueda de vectores.

Nombre Tipo Description
algorithms VectorSearchAlgorithmConfiguration[]:

Contiene opciones de configuración específicas del algoritmo utilizado durante la indexación o consulta.

profiles

VectorSearchProfile[]

Define combinaciones de configuraciones que se van a usar con la búsqueda vectorial.

VectorSearchAlgorithmKind

Algoritmo utilizado para la indexación y la consulta.

Nombre Tipo Description
exhaustiveKnn

string

Algoritmo KNN exhaustivo que realizará la búsqueda por fuerza bruta.

hnsw

string

HNSW (Jerárquico Navegable Pequeño Mundo), un tipo de algoritmo de vecinos más cercano aproximado.

VectorSearchAlgorithmMetric

Métrica de similitud que se va a usar para comparaciones de vectores.

Nombre Tipo Description
cosine

string

dotProduct

string

euclidean

string

VectorSearchProfile

Define una combinación de configuraciones que se usarán con la búsqueda vectorial.

Nombre Tipo Description
algorithm

string

Nombre de la configuración del algoritmo de búsqueda vectorial que especifica el algoritmo y los parámetros opcionales.

name

string

Nombre que se va a asociar a este perfil de búsqueda vectorial concreto.

WordDelimiterTokenFilter

Divide palabras en subpalabras y realiza transformaciones opcionales en los grupos de subpalabras. Este filtro de token se implementa mediante Apache Lucene.

Nombre Tipo Valor predeterminado Description
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Fragmento de URI que especifica el tipo de filtro de token.

catenateAll

boolean

False

Valor que indica si todas las partes de subword se clasificarán. Por ejemplo, si se establece en true, "Azure-Search-1" se convierte en "AzureSearch1". El valor predeterminado es False.

catenateNumbers

boolean

False

Valor que indica si se clasificarán las ejecuciones máximas de partes numéricas. Por ejemplo, si se establece en true, "1-2" se convierte en "12". El valor predeterminado es False.

catenateWords

boolean

False

Valor que indica si se clasificarán las ejecuciones máximas de elementos de palabras. Por ejemplo, si se establece en true, "Azure-Search" se convierte en "AzureSearch". El valor predeterminado es False.

generateNumberParts

boolean

True

Valor que indica si se van a generar subpalabras numéricas. El valor predeterminado es true.

generateWordParts

boolean

True

Valor que indica si se van a generar palabras de parte. Si se establece, hace que se generen partes de palabras; por ejemplo, "AzureSearch" se convierte en "Azure" "Search". El valor predeterminado es true.

name

string

Nombre del filtro de token. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

preserveOriginal

boolean

False

Valor que indica si se conservarán las palabras originales y se agregarán a la lista de subwords. El valor predeterminado es False.

protectedWords

string[]

Lista de tokens que se van a proteger frente a delimitados.

splitOnCaseChange

boolean

True

Valor que indica si se van a dividir palabras en caseChange. Por ejemplo, si se establece en true, "AzureSearch" se convierte en "Azure" "Search". El valor predeterminado es true.

splitOnNumerics

boolean

True

Valor que indica si se va a dividir en números. Por ejemplo, si se establece en true, "Azure1Search" se convierte en "Azure" "1" "Search". El valor predeterminado es true.

stemEnglishPossessive

boolean

True

Valor que indica si se va a quitar "'s" final para cada subword. El valor predeterminado es true.