Almacén de vectores integrado en Azure DocumentDB

Use la base de datos vectorial integrada en Azure DocumentDB para conectar sin problemas las aplicaciones basadas en inteligencia artificial con los datos almacenados en Azure DocumentDB. Esta integración puede incluir aplicaciones compiladas mediante Incrustaciones de Azure OpenAI. La base de datos vectorial integrada de forma nativa permite almacenar, indexar y consultar de forma eficaz los datos vectoriales de alta dimensión almacenados directamente en Azure DocumentDB, junto con los datos originales de los que se crean los datos vectoriales. Elimina la necesidad de transferir los datos a almacenes de vectores alternativos y conlleva costos adicionales.

¿Qué es un almacén de vectores?

Un almacén de vectores o una base de datos vectorial es una base de datos diseñada para almacenar y administrar incrustaciones vectoriales, que son representaciones matemáticas de datos en un espacio dimensional. En este espacio, cada dimensión corresponde a una característica de los datos y es posible que se usen decenas de miles de dimensiones para representar datos sofisticados. La posición de un vector en este espacio representa sus características. Se pueden vectorizar palabras, frases o documentos completos e imágenes, audio y otros tipos de datos.

¿Cómo funciona un almacén de vectores?

En un almacén de vectores, los algoritmos de búsqueda vectorial se usan para indexar e insertar consultas. Entre algunos algoritmos de vector de búsqueda conocidos se incluyen pequeño mundo navegable jerarquizado (HNSW), archivo invertido (IVF) y DiskANN. La búsqueda vectorial es un método que ayuda a encontrar elementos similares en función de sus características de datos en lugar de coincidencias exactas en un campo de propiedad. Esta técnica es útil en aplicaciones como la búsqueda de texto similar, la búsqueda de imágenes relacionadas, la realización de recomendaciones o incluso la detección de anomalías. Se usa para consultar las incrustaciones vectoriales (listas de números) de los datos que has creado mediante un modelo de aprendizaje automático utilizando una API de incrustaciones. Algunos ejemplos de API de inserción podrían ser Inserciones de Azure OpenAI o Hugging Face en Azure. El vector de búsqueda mide la distancia entre los vectores de datos y el vector de consulta. Los vectores de datos más cercanos al vector de consulta son los más similares semánticamente.

En la base de datos vectorial integrada de Azure DocumentDB, puede almacenar, indexar e insertar consultas junto con los datos originales. Este enfoque elimina el coste adicional de replicar datos en una base de datos de vectores pura independiente. Además, esta arquitectura mantiene juntas las incrustaciones vectoriales y los datos originales, lo que facilita mejor las operaciones de datos incrementales y permite una mayor coherencia, escala y rendimiento de los datos.

Casos de uso de las base de datos vectoriales

Las bases de datos vectoriales se usan en muchas áreas de inteligencia artificial y análisis de datos. Ayudan con tareas como la comprensión del lenguaje natural, el reconocimiento de imágenes y vídeos, la creación de sistemas de recomendación y la potenciación de las características de búsqueda. Puede encontrarlos en aplicaciones de inteligencia artificial analítica y de inteligencia artificial generativa.

Por ejemplo, puede usar una base de datos vectorial para:

Identifique imágenes, documentos y canciones similares en función de su contenido, temas, opiniones y estilos.
Identifique productos similares en función de sus características, funcionalidades y grupos de usuarios.
Recomendar contenido, productos o servicios en función de las preferencias de las personas.
Recomendar contenido, productos o servicios en función de las similitudes de los grupos de usuarios.
Identifique las opciones potenciales más adecuadas de un gran grupo de opciones para satisfacer los requisitos complejos.
Identifique anomalías de datos o actividades fraudulentas que no son similares a los patrones predominantes o normales.
Implemente la memoria persistente para los agentes de IA.
Habilite la generación aumentada mediante recuperación (RAG).

Base de datos vectorial integrada frente a base de datos vectorial pura

Existen dos tipos comunes de implementaciones de base de datos vectoriales: base de datos vectorial pura y base de datos vectorial integrada en una base de datos NoSQL o relacional.

Una base de datos vectorial pura almacena y administra eficazmente las incrustaciones de vectores junto con una pequeña cantidad de metadatos. Es independiente del origen de datos del que se derivan las incrustaciones.

Una base de datos vectorial que se integra en una base de datos NoSQL o relacional altamente eficaz proporciona funcionalidades adicionales. La base de datos vectorial integrada en una base de datos noSQL o relacional puede almacenar, indexar e insertar consultas junto con los datos originales correspondientes. Este enfoque elimina el coste adicional de replicar datos en una base de datos de vectores pura independiente. Además, mantener juntos las incrustaciones de vectores y los datos originales facilita mejor las operaciones de datos incrementales y permite una mayor coherencia, escala y rendimiento de los datos.

Bases de datos vectoriales de código abierto

Cuando los desarrolladores seleccionan bases de datos vectoriales, las opciones de código abierto proporcionan numerosas ventajas. Código abierto significa que el código fuente del software está disponible libremente, lo que permite a los usuarios personalizar la base de datos según sus necesidades específicas. Esta flexibilidad es beneficiosa para las organizaciones que están sujetas a requisitos normativos únicos para los datos, como las empresas del sector de servicios financieros.

Otra ventaja de las bases de datos vectoriales de código abierto es el fuerte apoyo de la comunidad del que gozan. Las comunidades de usuarios activas suelen contribuir al desarrollo de estas bases de datos, proporcionan ayuda y comparten procedimientos recomendados, lo que promueve la innovación.

Algunas personas optan por bases de datos vectoriales de código abierto porque son "gratuitas", lo que significa que no hay ningún costo para adquirir o usar el software. Una alternativa consiste en usar los niveles gratuitos ofrecidos por los servicios de bases de datos vectoriales administradas. Estos servicios administrados no solo proporcionan acceso gratuito hasta un determinado límite de uso, sino que también simplifican la carga operativa al gestionar el mantenimiento, las actualizaciones y la escalabilidad. Por lo tanto, mediante el nivel gratuito de servicios de base de datos vectoriales administrados, puede ahorrar costos al reducir la sobrecarga de administración. Este enfoque le permite centrarse más en las actividades principales en lugar de en la administración de bases de datos.

Selección de la mejor base de datos de vectores de código abierto

La elección de la mejor base de datos vectorial de código abierto requiere tener en cuenta varios factores. El rendimiento y la escalabilidad de la base de datos son cruciales, ya que afectan a si la base de datos puede controlar los requisitos específicos de la carga de trabajo. Las bases de datos con funcionalidades eficaces de indexación y consulta suelen ofrecer un rendimiento óptimo. Otro factor es la ayuda de la comunidad y la documentación disponibles para la base de datos. Una sólida comunidad y una amplia documentación pueden proporcionar ayuda valiosa. Por ejemplo, DocumentDB es una base de datos vectorial de código abierto popular:

Es posible que la opción más popular no sea la mejor opción para usted. Por lo tanto, debe comparar diferentes opciones en función de las características, los tipos de datos admitidos y la compatibilidad con las herramientas y marcos existentes que use. También debe tener en cuenta los desafíos de las bases de datos vectoriales de código abierto.

Desafíos de las bases de datos vectoriales de código abierto

La mayoría de las bases de datos vectoriales de código abierto, incluidas las enumeradas anteriormente, son bases de datos vectoriales puras. En otras palabras, están diseñados para almacenar y administrar incrustaciones de vectores solo, junto con una pequeña cantidad de metadatos. Dado que funcionan por separado de los datos originales, debe mover datos entre distintos servicios. Esta complejidad agrega costos adicionales, hace que las cosas sean más complejas y pueden ralentizar los sistemas de producción.

También plantean los desafíos típicos de las bases de datos de código abierto:

Instalación: necesita conocimientos detallados para instalar, configurar y operar la base de datos, especialmente para implementaciones complejas. Optimizar los recursos y la configuración y, al mismo tiempo, ampliar su funcionamiento, requiere supervisión y ajustes continuos.
Mantenimiento: debe administrar sus propias actualizaciones, revisiones y mantenimiento. La experiencia en aprendizaje automático no es suficiente; También debe tener una amplia experiencia en la administración de bases de datos.
Soporte técnico: el soporte técnico oficial puede ser limitado en comparación con los servicios administrados, por lo que se recurre más a la ayuda de la comunidad.

Por tanto, aunque gratuitas al principio, las bases de datos vectoriales de código abierto incurren en costos significativos cuando se amplían. La expansión de las operaciones requiere más hardware, personal de TI cualificado y administración avanzada de la infraestructura, lo que conduce a mayores gastos en hardware, personal y costos operativos. El escalado de las bases de datos vectoriales de código abierto puede ser financieramente exigente a pesar de la falta de tarifas de licencia.

Cómo abordar los desafíos de las bases de datos vectoriales de código abierto

Una base de datos vectorial totalmente administrada que se integra en una base de datos NoSQL o relacional altamente eficaz evita el costo adicional y la complejidad de las bases de datos vectoriales de código abierto. Esta base de datos almacena, indexa y consulta inserciones junto con los datos originales correspondientes. Este enfoque elimina el coste adicional de replicar datos en una base de datos de vectores pura independiente. Además, mantener las incrustaciones de vectores y los datos originales juntos facilita mejor las operaciones de datos incrementales y permite una mayor coherencia, escala y rendimiento de los datos. Mientras tanto, el servicio totalmente administrado ayuda a los desarrolladores a evitar las molestias de configurar y mantener una base de datos vectorial de código abierto y de recurrir a la ayuda de la comunidad cuando hay problemas. Además, algunos servicios de base de datos vectoriales administrados ofrecen un nivel de servicio gratuito de por vida.

Un ejemplo es la base de datos vectorial integrada en Azure DocumentDB. Esta configuración permite a los desarrolladores ahorrar dinero como lo harían con bases de datos vectoriales de código abierto. Pero a diferencia de las opciones de código abierto, el proveedor de servicios se encarga del mantenimiento, las actualizaciones y el escalado automáticamente. La actualización es rápida y sencilla, al tiempo que mantiene un bajo costo total de propiedad (TCO) cuando es el momento de escalar verticalmente las operaciones. También puede usar este servicio para escalar convenientemente aplicaciones de MongoDB que ya están en producción.

Realizar búsqueda de similitud vectorial

Azure DocumentDB proporciona funcionalidades de búsqueda vectorial sólidas, lo que le permite realizar búsquedas de similitud de alta velocidad en conjuntos de datos complejos. Para realizar la búsqueda de vectores en Azure DocumentDB, primero debe crear un índice vectorial. Aunque Azure DocumentDB ofrece varias opciones, estas son algunas directrices generales que le ayudarán a empezar a trabajar en función del tamaño del conjunto de datos:

	FIV	HNSW	DiskANN (recomendado)
Descripción	Un índice OBJECTFlat divide los vectores en listas y, a continuación, busca en un subconjunto más cercano al vector de consulta.	Un índice HNSW crea un gráfico multicapa.	DiskANN es un algoritmo de búsqueda vecino más cercano aproximado diseñado para una búsqueda vectorial eficaz a cualquier escala.
Ventajas clave	Pros: Tiempos de compilación más rápidos, menor uso de memoria. Contras: Rendimiento reducido de las consultas (en términos de compensación entre velocidad y recuperación).	Pros: Se puede crear un mejor rendimiento de las consultas (en términos de equilibrio de velocidad y recuperación) en una tabla vacía. Contras: Tiempos de compilación más lentos, mayor uso de memoria.	Pros: Eficiente a cualquier escala, recuperación alta, alto rendimiento, baja latencia.
Recuento de vectores	Menos de 10 000	Hasta 50 000	Hasta 500 000+
Nivel de clúster recomendado	M10 o M20	M30 y versiones posteriores	M30 y versiones posteriores

Puede usar índices DiskANN en M30 y niveles superiores. Para crear el índice DiskANN, establezca el parámetro "kind" en "vector-diskann" siguiendo esta plantilla:

{ 
    "createIndexes": "<collection_name>",
    "indexes": [
        {
            "name": "<index_name>",
            "key": {
                "<path_to_property>": "cosmosSearch"
            },
            "cosmosSearchOptions": { 
                "kind": "vector-diskann", 
                "dimensions": <integer_value>,
                "similarity": <string_value>,
                "maxDegree" : <integer_value>, 
                "lBuild" : <integer_value>, 
            } 
        } 
    ] 
}

Campo	Tipo	Description
`index_name`	cuerda / cadena	Nombre único del índice.
`path_to_property`	cuerda / cadena	Ruta de acceso a la propiedad que contiene el vector. Esta ruta de acceso puede ser una propiedad de nivel superior o una ruta de acceso de notación de puntos a la propiedad. Los vectores deben ser un `number[]` para indexarse y usarse en los resultados de búsqueda vectorial. Un vector que usa otro tipo, como `double[]`, impide que el documento se indexe. Los documentos no indexados no se devuelven en el resultado de una búsqueda vectorial.
`kind`	cuerda / cadena	Tipo de índice vectorial que se va a crear. Las opciones son `vector-ivf`, `vector-hnsw`, y `vector-diskann`.
`dimensions`	entero	Número de dimensiones para la similitud vectorial. DiskANN admite hasta 16.000 dimensiones (con cuantificación del producto), con una compatibilidad futura planeada para 40.000+.
`similarity`	cuerda / cadena	Métrica de similitud que se va a usar con el índice. Las opciones posibles son `COS` (distancia coseno), `L2` (distancia euclidiana)y `IP` (producto interno).
`maxDegree`	entero	Número máximo de bordes por nodo en el gráfico. Este parámetro oscila entre 20 y 2048 (el valor predeterminado es 32). Un `maxDegree` mayor es adecuado para conjuntos de datos con requisitos de alta dimensionalidad o alta precisión.
`lBuild`	entero	Establece el número de vecinos candidatos evaluados durante la construcción del índice DiskANN. Este parámetro, que oscila entre 10 y 500 (el valor predeterminado es 50), equilibra la precisión y la sobrecarga computacional: los valores más altos mejoran la calidad y la precisión del índice, pero aumentan el tiempo de compilación

Realización de una vector de búsqueda con DiskANN

Para hacer una búsqueda vectorial, use la fase de canalización de agregación $search de la consulta con el operador cosmosSearch. DiskANN permite búsquedas de alto rendimiento en conjuntos de datos masivos con filtrado opcional , como filtros geoespaciales o basados en texto.

{
  "$search": {
    "cosmosSearch": {
      "path": "<path_to_property>",
      "query": "<query_vector>",  
      "k": <num_results_to_return>,  
      "filter": {"$and": [
        { "<attribute_1>": { "$eq": <value> } },
        {"<location_attribute>": {"$geoWithin": {"$centerSphere":[[<longitude_integer_value>, <latitude_integer_value>], <radius>]}}}
      ]}
    }
  }
},

Campo	Tipo	Description
`lSearch`	entero	Especifica el tamaño de la lista de candidatos dinámicos para la búsqueda. El valor predeterminado es 40, con un intervalo configurable de 10 a 1000. Aumentar el valor mejora la recuperación, pero puede reducir la velocidad de búsqueda.
`k`	entero	Define el número de resultados de búsqueda que se van a devolver. El valor de `k` debe ser menor o igual que `lSearch`.

Ejemplo de uso de un índice DiskANN con filtrado

Agregar vectores a la base de datos

Para usar la búsqueda vectorial con filtros geoespaciales, agregue documentos que incluyan incrustaciones vectoriales y coordenadas de ubicación. Puede crear las incrustaciones mediante su propio modelo, incrustaciones de Azure OpenAI o una API como Hugging Face en Azure.

from pymongo import MongoClient

client = MongoClient("<your_connection_string>")
db = client["test"]
collection = db["testCollection"]

documents = [
    {"name": "Eugenia Lopez", "bio": "CEO of AdventureWorks", "is_open": 1, "location": [-118.9865, 34.0145], "contentVector": [0.52, 0.20, 0.23]},
    {"name": "Cameron Baker", "bio": "CFO of AdventureWorks", "is_open": 1, "location": [-0.1278, 51.5074], "contentVector": [0.55, 0.89, 0.44]},
    {"name": "Jessie Irwin", "bio": "Director of Our Planet initiative", "is_open": 0, "location": [-118.9865, 33.9855], "contentVector": [0.13, 0.92, 0.85]},
    {"name": "Rory Nguyen", "bio": "President of Our Planet initiative", "is_open": 1, "location": [-119.0000, 33.9855], "contentVector": [0.91, 0.76, 0.83]}
]

collection.insert_many(documents)

Creación de un índice de vector DiskANN

En el ejemplo siguiente se muestra cómo configurar un índice de vector DiskANN con funcionalidades de filtrado. En este ejemplo se incluye la creación del índice vectorial para la búsqueda de similitud, la adición de documentos con propiedades vectoriales y geoespaciales y campos de indexación para obtener más filtrados.

db.command({
    "createIndexes": "testCollection",
    "indexes": [
        {
            "name": "DiskANNVectorIndex",
            "key": {
                "contentVector": "cosmosSearch"
            },
            "cosmosSearchOptions": {
                "kind": "vector-diskann",
                "dimensions": 3,
                "similarity": "COS",
                "maxDegree": 32,
                "lBuild": 64
            }
        },
        { 
            "name": "is_open",
            "key": { 
                "is_open": 1 
            }      
        },
        {
            "name": "locationIndex",
            "key": {
                "location": 1
            }
        }
    ]
})

Este comando crea un índice vectorial DiskANN en el campo contentVector en exampleCollection, lo que permite búsquedas de similitud. También agrega:

Índice en el is_open campo, por lo que puede filtrar los resultados en función de si las empresas están abiertas.
Índice geoespacial del campo location para filtrar por proximidad geográfica.

Realizar una búsqueda de vectores

Para buscar documentos con vectores similares dentro de un radio geográfico específico, especifique el queryVector para la búsqueda de similitud e incluya un filtro geoespacial.

query_vector = [0.52, 0.28, 0.12]
pipeline = [
    {
        "$search": {
            "cosmosSearch": {
                "path": "contentVector",
                "vector": query_vector,
                "k": 5,
                "filter": {
                    "$and": [
                        {"is_open": {"$eq": 1}},
                        {"location": {"$geoWithin": {"$centerSphere": [[-119.7192861804, 34.4102485028], 100 / 3963.2]}}}
                    ]
                }
            }
        }
    }
]

results = list(collection.aggregate(pipeline))
for result in results:
    print(result)

En este ejemplo, la búsqueda de similitud de vectores devuelve los vectores más cercanos k principales en función de la métrica de similitud COS especificada, mientras que el filtrado de resultados para incluir solo empresas abiertas dentro de un radio de 100 millas.

[
  {
    similarityScore: 0.9745354109084544,
    document: {
      _id: ObjectId("645acb54413be5502badff94"),
      name: 'Eugenia Lopez',
      bio: 'CEO of AdventureWorks',
      is_open: 1,
      location: [-118.9865, 34.0145],
      contentVector: [0.52, 0.20, 0.23]
    }
  },
  {
    similarityScore: 0.9006955671333992,
    document: {
      _id: ObjectId("645acb54413be5502badff97"),
      name: 'Rory Nguyen',
      bio: 'President of Our Planet initiative',
      is_open: 1,
      location: [-119.7302, 34.4005],
      contentVector: [0.91, 0.76, 0.83]
    }
  }
]

Este resultado muestra los documentos más similares a queryVector; restringidos a un radio de 100 millas y a las empresas abiertas. Cada resultado incluye la puntuación de similitud y los metadatos, que muestran cómo DiskANN en Azure DocumentDB admite consultas vectoriales y geoespaciales combinadas para experiencias de búsqueda enriquecidas y sensibles a la ubicación.

Puede crear índices HNSW en niveles de clúster M30 y superiores. Para crear el índice jerárquico de pequeños mundos navegables (HNSW), debe crear un índice vectorial, estableciendo el parámetro "kind" en "vector-hnsw" siguiendo esta plantilla:

{ 
    "createIndexes": "<collection_name>",
    "indexes": [
        {
            "name": "<index_name>",
            "key": {
                "<path_to_property>": "cosmosSearch"
            },
            "cosmosSearchOptions": { 
                "kind": "vector-hnsw", 
                "m": <integer_value>, 
                "efConstruction": <integer_value>, 
                "similarity": "<string_value>", 
                "dimensions": <integer_value> 
            } 
        } 
    ] 
}

Campo	Tipo	Description
`m`	entero	El número máximo de conexiones por capa (16 de forma predeterminada, el valor mínimo es 2, el valor máximo es 100). Un m mayor es adecuado para conjuntos de datos con requisitos de alta dimensionalidad o alta precisión.
`efConstruction`	entero	el tamaño de la lista de candidatos dinámicos para construir el gráfico (64 de forma predeterminada, el valor mínimo es 4, el valor máximo es 1000). Un valor más alto de `efConstruction` resulta en una mejor calidad del índice y una mayor precisión, pero también aumenta el tiempo necesario para construir el índice. `efConstruction` tiene que ser al menos `2 * m`

Hacer una búsqueda de vectores con HNSW

Para realizar una búsqueda vectorial, use la etapa de canalización de agregación $search y el operador cosmosSearch.

{
    "$search": {
        "cosmosSearch": {
            "vector": <query_vector>,
            "path": "<path_to_property>",
            "k": <num_results_to_return>,
            "efSearch": <integer_value>
        },
    }
}

Campo	Tipo	Description
`efSearch`	entero	Tamaño de la lista de candidatos dinámicos para la búsqueda (40 de forma predeterminada). Un valor más alto proporciona una mejor recuperación a costa de velocidad.

Nota:

La creación de un índice HNSW con grandes conjuntos de datos puede dar lugar a que el recurso de Azure DocumentDB se queden sin memoria, o puede limitar el rendimiento de otras operaciones que se ejecutan en la base de datos. Si encuentra estos problemas, escale el recurso a un nivel de clúster superior o cree un nuevo índice de vector diskANN.

Ejemplo de uso de un índice HNSW

En los ejemplos siguientes se muestra cómo indexar vectores, agregar documentos que tienen propiedades vectoriales, realizar una vector de búsqueda y recuperar la configuración del índice.

use test;

db.createCollection("exampleCollection");

db.runCommand({ 
    "createIndexes": "exampleCollection",
    "indexes": [
        {
            "name": "VectorSearchIndex",
            "key": {
                "contentVector": "cosmosSearch"
            },
            "cosmosSearchOptions": { 
                "kind": "vector-hnsw", 
                "m": 16, 
                "efConstruction": 64, 
                "similarity": "COS", 
                "dimensions": 3
            } 
        } 
    ] 
});

Este comando crea un índice HNSW con la propiedad contentVector en los documentos almacenados en la colección especificada, exampleCollection. La propiedad cosmosSearchOptions especifica los parámetros del índice vectorial HNSW. Si el documento tiene el vector almacenado en una propiedad anidada, puede establecer esta propiedad mediante una ruta de acceso de notación de puntos. Por ejemplo, puede usar text.contentVector si contentVector es una subpropiedad de text.

Agregar vectores a la base de datos

Para agregar vectores a la colección de la base de datos, primero debe crear las inserciones mediante su propio modelo, las inserciones de Azure OpenAI o una API como Hugging Face en Azure. En este ejemplo, agregará nuevos documentos a través de incrustaciones de ejemplo:

db.exampleCollection.insertMany([
  {name: "Eugenia Lopez", bio: "Eugenia is the CEO of AdvenureWorks.", contentVector: [0.51, 0.12, 0.23]},
  {name: "Cameron Baker", bio: "Cameron Baker CFO of AdvenureWorks.", contentVector: [0.55, 0.89, 0.44]},
  {name: "Jessie Irwin", bio: "Jessie Irwin is the former CEO of AdventureWorks and now the director of the Our Planet initiative.", contentVector: [0.13, 0.92, 0.85]},
  {name: "Rory Nguyen", bio: "Rory Nguyen is the founder of AdventureWorks and the president of the Our Planet initiative.", contentVector: [0.91, 0.76, 0.83]},
]);

Realizar una búsqueda de vectores

Siguiendo con el último ejemplo, cree otro vector, queryVector. La búsqueda vectorial mide la distancia entre queryVector y los vectores en la ruta de acceso contentVector de los documentos. Puede establecer el número de resultados que devuelve la búsqueda estableciendo el parámetro k, que se establece en 2 aquí. También puede establecer efSearch, que es un entero que controla el tamaño de la lista de vectores candidatos. Un valor mayor podría mejorar la precisión, pero la búsqueda es más lenta como resultado. Este parámetro es opcional con un valor predeterminado de 40.

const queryVector = [0.52, 0.28, 0.12];
db.exampleCollection.aggregate([
  {
    "$search": {
        "cosmosSearch": {
            "vector": queryVector,
            "path": "contentVector",
            "k": 2,
            "efSearch": 40
        },
    }
  }
}
]);

En este ejemplo, se realiza una búsqueda vectorial mediante queryVector como entrada a través del shell de Mongo. El resultado de la búsqueda es una lista de dos elementos que son más similares al vector de consulta, ordenados por sus puntuaciones de similitud.

[
  {
    similarityScore: 0.9465376,
    document: {
      _id: ObjectId("645acb54413be5502badff94"),
      name: 'Eugenia Lopez',
      bio: 'Eugenia is the CEO of AdvenureWorks.',
      vectorContent: [ 0.51, 0.12, 0.23 ]
    }
  },
  {
    similarityScore: 0.9006955,
    document: {
      _id: ObjectId("645acb54413be5502badff97"),
      name: 'Rory Nguyen',
      bio: 'Rory Nguyen is the founder of AdventureWorks and the president of the Our Planet initiative.',
      vectorContent: [ 0.91, 0.76, 0.83 ]
    }
  }
]

Para crear un índice vectorial mediante el algoritmo IVF, utilice la siguiente createIndexes plantilla y establezca el "kind" parámetro "vector-ivf" en:

{
  "createIndexes": "<collection_name>",
  "indexes": [
    {
      "name": "<index_name>",
      "key": {
        "<path_to_property>": "cosmosSearch"
      },
      "cosmosSearchOptions": {
        "kind": "vector-ivf",
        "numLists": <integer_value>,
        "similarity": "<string_value>",
        "dimensions": <integer_value>
      }
    }
  ]
}

Campo	Tipo	Description
`numLists`	entero	Este entero es el número de clústeres que usa el índice IVF para agrupar los datos vectoriales. Establecer `numLists` en `documentCount/1000` para hasta 1 millón de documentos y en `sqrt(documentCount)` para más de 1 millón de documentos. Utilizar un valor de 1 es similar a realizar una búsqueda por fuerza bruta, que tiene un rendimiento limitado.

Importante

Establecer el numLists parámetro correctamente es importante para lograr una buena precisión y rendimiento. Configure numLists en documentCount/1000 para hasta 1 millón de documentos. Para más de 1 millón de documentos, use el índice vectorial DiskANN para obtener resultados óptimos.

A medida que crece el número de elementos de la base de datos, debe ajustarse numLists para que sea mayor para lograr un buen rendimiento de latencia para la búsqueda de vectores.

Si está experimentando con un escenario nuevo o creando una demostración pequeña, puede empezar con numLists establecido en 1 para realizar una búsqueda por fuerza bruta en todos los vectores. Esta configuración proporciona los resultados más precisos de la búsqueda vectorial, pero la velocidad y la latencia de búsqueda son más lentas. Después de la configuración inicial, ajuste el numLists parámetro mediante las instrucciones anteriores.

Realización de una búsqueda de vectores con IVF

Para realizar una búsqueda vectorial, use la fase de canalización de agregación $search en una consulta de MongoDB. Para usar el cosmosSearch índice, use el operador nuevocosmosSearch.

{
  {
  "$search": {
    "cosmosSearch": {
        "vector": <query_vector>,
        "path": "<path_to_property>",
        "k": <num_results_to_return>,
      },
      "returnStoredSource": True }},
  {
    "$project": { "<custom_name_for_similarity_score>": {
           "$meta": "searchScore" },
            "document" : "$$ROOT"
        }
  }
}

Para recuperar la puntuación de similitud (searchScore) junto con los documentos encontrados por la búsqueda vectorial, use el $project operador de inclusión searchScore y cámbiele el nombre por <custom_name_for_similarity_score> en los resultados. A continuación, el documento también se proyecta como objeto anidado. La puntuación de similitud se calcula mediante la métrica definida en el índice vectorial.

Importante

Los vectores deben ser number[] para indexarse. Un vector que usa otro tipo, como double[], impide que el documento se indexe. Los documentos no indexados no se devuelven en el resultado de una búsqueda vectorial.

Ejemplo de utilización de un índice IVF

La indexación de archivo invertido (IVF) es un método que organiza los vectores en clústeres. Durante un vector de búsqueda, el vector de consulta se compara en primer lugar con los centros de estos clústeres. Luego, la búsqueda se realiza en el clúster cuyo centro está más cercano al vector de consulta.

El numLists parámetro determina el número de clústeres que se van a crear. Un único clúster implica que la búsqueda se realiza en todos los vectores de la base de datos; como una búsqueda por fuerza bruta o kNN. Esta configuración proporciona la máxima precisión, pero también la mayor latencia.

El resultado del aumento del valor numLists es un aumento de clústeres y que cada uno de ellos contenga menos vectores. Por ejemplo, si numLists=2, cada clúster contiene más vectores que si numLists=3, etc. Menos vectores por clúster aceleran la búsqueda (menor latencia, consultas más altas por segundo). Sin embargo, esto aumenta la probabilidad de que falte el vector más similar de la base de datos al vector de consulta. Este problema se debe a la naturaleza imperfecta de la agrupación en clústeres, donde la búsqueda podría centrarse en un clúster mientras el vector "más cercano" real reside en un clúster diferente.

El nProbes parámetro controla el número de clústeres que se van a buscar. De forma predeterminada, el valor es 1, lo que significa que busca solo el clúster con el centro más cercano al vector de consulta. Aumentar este valor permite que la búsqueda cubra más clústeres, lo que mejora la precisión, pero también aumenta la latencia (y por consiguiente, reduce el número de consultas por segundo) a medida que se realicen búsquedas en más clústeres y vectores.

En los ejemplos siguientes se muestra cómo indexar vectores, agregar documentos que tienen propiedades vectoriales, realizar una vector de búsqueda y recuperar la configuración del índice.

Crear un índice vectorial

use test;

db.createCollection("exampleCollection");

db.runCommand({
  createIndexes: 'exampleCollection',
  indexes: [
    {
      name: 'vectorSearchIndex',
      key: {
        "vectorContent": "cosmosSearch"
      },
      cosmosSearchOptions: {
        kind: 'vector-ivf',
        numLists: 3,
        similarity: 'COS',
        dimensions: 3
      }
    }
  ]
});

Este comando crea un índice de vector-ivf con la propiedad vectorContent en los documentos almacenados en la colección especificada, exampleCollection. La propiedad cosmosSearchOptions especifica los parámetros para el índice de vector IVF. Si el documento tiene el vector almacenado en una propiedad anidada, puede establecer esta propiedad mediante una ruta de acceso de notación de puntos. Por ejemplo, puede usar text.vectorContent si vectorContent es una subpropiedad de text.

Agregar vectores a la base de datos

db.exampleCollection.insertMany([
  {name: "Eugenia Lopez", bio: "Eugenia is the CEO of AdvenureWorks.", vectorContent: [0.51, 0.12, 0.23]},
  {name: "Cameron Baker", bio: "Cameron Baker CFO of AdvenureWorks.", vectorContent: [0.55, 0.89, 0.44]},
  {name: "Jessie Irwin", bio: "Jessie Irwin is the former CEO of AdventureWorks and now the director of the Our Planet initiative.", vectorContent: [0.13, 0.92, 0.85]},
  {name: "Rory Nguyen", bio: "Rory Nguyen is the founder of AdventureWorks and the president of the Our Planet initiative.", vectorContent: [0.91, 0.76, 0.83]},
]);

Realizar una búsqueda de vectores

Para realizar una búsqueda vectorial, use la fase de canalización de agregación $search en una consulta de MongoDB. Para usar el cosmosSearch índice, use el operador nuevocosmosSearch.

{
  {
  "$search": {
    "cosmosSearch": {
        "vector": <vector_to_search>,
        "path": "<path_to_property>",
        "k": <num_results_to_return>,
      },
      "returnStoredSource": True }},
  {
    "$project": { "<custom_name_for_similarity_score>": {
           "$meta": "searchScore" },
            "document" : "$$ROOT"
        }
  }
}

Consultar vectores y distancias vectoriales (puntuaciones de similitud) mediante $search

Siguiendo con el último ejemplo, cree otro vector, queryVector. La búsqueda vectorial mide la distancia entre queryVector y los vectores en la ruta de acceso vectorContent de los documentos. Puede establecer el número de resultados que devuelve la búsqueda estableciendo el parámetro k, que se establece en 2 aquí. También puede establecer nProbes, que es un entero que controla el número de clústeres cercanos que se inspeccionan en cada búsqueda. Un valor mayor podría mejorar la precisión, pero la búsqueda es más lenta como resultado. Este parámetro es opcional con un valor predeterminado de 1 y no puede ser mayor que el numLists valor especificado en el índice vectorial.

const queryVector = [0.52, 0.28, 0.12];
db.exampleCollection.aggregate([
  {
    $search: {
      "cosmosSearch": {
        "vector": queryVector,
        "path": "vectorContent",
        "k": 2
      },
    "returnStoredSource": true }},
  {
    "$project": { "similarityScore": {
           "$meta": "searchScore" },
            "document" : "$$ROOT"
        }
  }
]);

[
  {
    similarityScore: 0.9465376,
    document: {
      _id: ObjectId("645acb54413be5502badff94"),
      name: 'Eugenia Lopez',
      bio: 'Eugenia is the CEO of AdvenureWorks.',
      vectorContent: [ 0.51, 0.12, 0.23 ]
    }
  },
  {
    similarityScore: 0.9006955,
    document: {
      _id: ObjectId("645acb54413be5502badff97"),
      name: 'Rory Nguyen',
      bio: 'Rory Nguyen is the founder of AdventureWorks and the president of the Our Planet initiative.',
      vectorContent: [ 0.91, 0.76, 0.83 ]
    }
  }
]

Obtener definiciones de índice vectorial

Para recuperar la definición del índice vectorial de la colección, use el listIndexes comando:

db.exampleCollection.getIndexes();

En este ejemplo, vectorIndex se devuelve con todos los cosmosSearch parámetros que se usaron para crear el índice:

[
  { v: 2, key: { _id: 1 }, name: '_id_', ns: 'test.exampleCollection' },
  {
    v: 2,
    key: { vectorContent: 'cosmosSearch' },
    name: 'vectorSearchIndex',
    cosmosSearch: {
      kind: <index_type>, // options are `vector-ivf`, `vector-hnsw`, and `vector-diskann`
      numLists: 3,
      similarity: 'COS',
      dimensions: 3
    },
    ns: 'test.exampleCollection'
  }
]

Búsqueda de vectores filtrados

Ahora puede ejecutar búsquedas de vectores con cualquier filtro de consulta compatible, como $lt, $lte, $eq, $neq, $gte, $gt, $in, $nin y $regex.

Para usar el prefiltro, primero debe definir un índice estándar en la propiedad por la que desea filtrar, además del índice vectorial. Este es un ejemplo de creación de un índice de filtro:

db.runCommand({
  "createIndexes": "<collection_name>",
  "indexes": [ {
    "key": {
      "<property_to_filter>": 1
    },
    "name": "<name_of_filter_index>"
  }
  ]
});

Una vez implementado el índice de filtro, puede agregar la cláusula directamente a la "filter" consulta de búsqueda vectorial. En este ejemplo se muestra cómo filtrar los resultados en los que el valor de la "title" propiedad no está presente en la lista proporcionada:

db.exampleCollection.aggregate([
  {
    '$search': {
      "cosmosSearch": {
        "vector": "<query_vector>",
        "path": <path_to_vector>,
        "k": num_results,
        "filter": {<property_to_filter>: {"$nin": ["not in this text", "or this text"]}}
      },
      "returnStoredSource": True }},
  {'$project': { 'similarityScore': { '$meta': 'searchScore' }, 'document' : '$$ROOT' }
}
]);

Importante

Para optimizar el rendimiento y la precisión de las búsquedas vectoriales prefiltradas, considere la posibilidad de ajustar los parámetros del índice vectorial. En el caso de los índices DiskANN , aumentar maxDegree o lBuild podría producir mejores resultados. En el caso de los índices de HNSW , experimentar con valores más altos para m, efConstructiono efSearch puede mejorar el rendimiento. Del mismo modo, para los índices IVF, la optimización de numLists o nProbes podría dar lugar a resultados más satisfactorios. Es fundamental probar la configuración específica con los datos para asegurarse de que los resultados cumplen sus requisitos. Estos parámetros influyen en la estructura del índice y el comportamiento de búsqueda, y los valores óptimos pueden variar en función de las características de los datos y los patrones de consulta.

Uso de herramientas de orquestación del modelo de lenguaje grande (LLM)

Uso como base de datos vectorial con Semantic Kernel

Utilice el Kernel Semántico para orquestar la recuperación de información de Azure DocumentDB y LLM. Para más información, consulte el repositorio de GitHub.

Uso como base de datos vectorial con LangChain

Usa LangChain para orquestar la recuperación de información de Azure DocumentDB y el LLM. Para más información, consulte Integraciones de LangChain para Azure DocumentDB.

Uso como caché semántica con LangChain

Use LangChain y Azure DocumentDB para orquestar el almacenamiento en caché semántico, mediante respuestas LLM grabadas anteriormente que pueden ahorrar costos de la API de LLM y reducir la latencia de las respuestas. Para más información, consulte Integración de LangChain con Azure DocumentDB.

Características y limitaciones

Métricas de distancia admitidas: L2 (euclidiano), producto interno y coseno.
Métodos de indexación admitidos: IVFFLAT, HNSW y DiskANN.
Con DiskANN y la cuantificación de productos, puede indexar vectores hasta 16 000 dimensiones.
El uso de HNSW o IVF con media precisión permite la indexación de vectores de hasta 4.000 dimensiones.
Sin ninguna compresión, la dimensión de vector máxima predeterminada para la indexación es de 2000.
La indexación solo se aplica a un vector por ruta de acceso.
Puede crear un solo índice por ruta de acceso vectorial.

Resumen

En esta guía se muestra cómo crear un índice vectorial, agregar documentos que tienen datos vectoriales, realizar una búsqueda de similitud y recuperar la definición del índice. Mediante el uso de nuestra base de datos vectorial integrada, puede almacenar, indexar y consultar datos vectoriales de alta dimensión de forma eficaz directamente en Azure DocumentDB. Le permite desbloquear todo el potencial de los datos con incrustaciones vectoriales y le capacita para crear aplicaciones más precisas, potentes y eficaces.

Paso siguiente

Crear un clúster de nivel gratuito de por vida para Azure DocumentDB

Comentarios

¿Le resultó útil esta página?

Last updated on 2025-11-19

Compartir vía

Almacén de vectores integrado en Azure DocumentDB

¿Qué es un almacén de vectores?

¿Cómo funciona un almacén de vectores?

Casos de uso de las base de datos vectoriales

Base de datos vectorial integrada frente a base de datos vectorial pura

Bases de datos vectoriales de código abierto

Selección de la mejor base de datos de vectores de código abierto

Desafíos de las bases de datos vectoriales de código abierto

Cómo abordar los desafíos de las bases de datos vectoriales de código abierto

Realizar búsqueda de similitud vectorial

Realización de una vector de búsqueda con DiskANN

Ejemplo de uso de un índice DiskANN con filtrado

Agregar vectores a la base de datos

Creación de un índice de vector DiskANN

Realizar una búsqueda de vectores

Obtener definiciones de índice vectorial

Búsqueda de vectores filtrados

Uso de herramientas de orquestación del modelo de lenguaje grande (LLM)

Uso como base de datos vectorial con Semantic Kernel

Uso como base de datos vectorial con LangChain

Uso como caché semántica con LangChain

Características y limitaciones

Resumen

Contenido relacionado

Paso siguiente

Comentarios

Recursos adicionales