Búsqueda vectorial en Azure Cosmos DB para NoSQL

2024-12-03
Se aplica a: ✅ NoSQL

Azure Cosmos DB for NoSQL ahora ofrece una indexación y búsqueda de vectores eficaces. Esta característica está diseñada para controlar vectores multi modales y de alta dimensión, lo que permite una búsqueda vectorial eficaz y precisa a cualquier escala. Ahora puede almacenar vectores directamente en los documentos junto con los datos. Cada documento de la base de datos puede contener no solo datos tradicionales sin esquemas, sino también vectores de alta dimensionalidad multi modales como otras propiedades de los documentos. Esta coubicación de datos y vectores permite una indexación y búsqueda eficaces, ya que los vectores se almacenan en la misma unidad lógica que los datos que representan. Mantener los vectores y los datos juntos simplifica la administración de datos, las arquitecturas de aplicaciones de IA y la eficacia de las operaciones basadas en vectores.

Azure Cosmos DB para NoSQL ofrece la flexibilidad que ofrece al elegir el método de indexación de vectores:

Una búsqueda exacta de vecinos "plana" o k-más cercana (a veces denominada fuerza bruta) puede proporcionar un 100 % de recuperación de recuperación para búsquedas vectoriales más pequeñas y centradas. especialmente cuando se combina con filtros de consulta y claves de partición.
Índice plano cuantificado que comprime vectores mediante métodos de cuantificación basados en DiskANN para mejorar la eficacia de la búsqueda kNN.
DiskANN, un conjunto de algoritmos de indexación de vectores de última generación desarrollados por Microsoft Research para mejorar la eficacia de la búsqueda de vectores multi modal de alta precisión a cualquier escala.

Más información sobre la indexación de vectores aquí

La búsqueda vectorial en Azure Cosmos DB se puede combinar con todos los demás filtros y índices de consulta NoSQL de Azure Cosmos DB compatibles mediante cláusulas WHERE. Esto permite que las búsquedas vectoriales sean los datos más relevantes para las aplicaciones.

Esta característica mejora las funcionalidades principales de Azure Cosmos DB, por lo que es más versátil para controlar los datos vectoriales y los requisitos de búsqueda en las aplicaciones de inteligencia artificial.

¿Qué es un almacén de vectores?

Un almacén de vectores o base de datos vectoriales es una base de datos diseñada para almacenar y administrar incrustaciones de vectores, que son representaciones matemáticas de datos en un espacio de alta dimensión. En este espacio, cada dimensión corresponde a una característica de los datos y es posible que se usen decenas de miles de dimensiones para representar datos sofisticados. La posición de un vector en este espacio representa sus características. Se pueden vectorizar palabras, frases o documentos completos e imágenes, audio y otros tipos de datos.

¿Cómo funciona un almacén de vectores?

En un almacén de vectores, los algoritmos de búsqueda vectorial se usan para indexar e insertar consultas. Algunos algoritmos de búsqueda de vectores bien conocidos incluyen el Hierarchical Navigable Small World (HNSW), el Inverted File (IVF), DiskANN, etc. La búsqueda vectorial es un método que ayuda a encontrar elementos similares en función de sus características de datos, en lugar de coincidencias exactas en un campo de propiedad. Esta técnica es útil en aplicaciones como la búsqueda de texto similar, la búsqueda de imágenes relacionadas, la realización de recomendaciones o incluso la detección de anomalías. Se utiliza para consultar las incrustaciones vectoriales de sus datos creadas mediante un modelo de aprendizaje automático utilizando una API de incrustaciones. Algunos ejemplos de API de inserción podrían ser Incrustaciones de OpenAI de Azure o Hugging Face en Azure. El vector de búsqueda mide la distancia entre los vectores de datos y el vector de consulta. Los vectores de datos más cercanos al vector de consulta son los más similares semánticamente.

En la base de datos vectorial integrada de Azure Cosmos DB para NoSQL, las incrustaciones se pueden almacenar, indexar y consultar junto con los datos originales. Este enfoque elimina el coste adicional de replicar datos en una base de datos de vectores pura independiente. Además, esta arquitectura reúne las inserciones vectoriales y los datos originales, lo que facilita aún más las operaciones de datos multimodales; también permite una mayor coherencia, escala y rendimiento de los datos.

Habilitar la función de indexación de vectores y búsqueda

La indexación de vectores y la búsqueda en Azure Cosmos DB for NoSQL requiere la habilitación en la página Características de Azure Cosmos DB. Siga los pasos siguientes para registrarse:

Vaya a la página de recursos de Azure Cosmos DB for NoSQL.
Seleccione el panel "Características" en el elemento de menú "Configuración".
Seleccione la función "Búsqueda de vectores en Azure Cosmos DB para NoSQL".
Lea la descripción de la característica para confirmar que desea habilitarla.
Seleccione "Habilitar" para activar la funcionalidad de indexación y búsqueda de vectores.
Sugerencia

Como alternativa, use la CLI de Azure para actualizar las funcionalidades de la cuenta para admitir la búsqueda de vectores NoSQL.
```
az cosmosdb update \
     --resource-group <resource-group-name> \
     --name <account-name> \
     --capabilities EnableNoSQLVectorSearch
```

Nota:

La solicitud de registro será autoaprobada; sin embargo, puede tardar 15 minutos en activarse completamente en la cuenta.

Directivas de vectores de contenedor

Para realizar la búsqueda de vectores con Azure Cosmos DB para NoSQL, es necesario definir una directiva de vectores para el contenedor. Esto proporciona información esencial para que el motor de base de datos realice una búsqueda eficaz de similitud para los vectores encontrados en los documentos del contenedor. Esto también informa a la directiva de indexación de vectores de la información necesaria, si decide especificar una. La siguiente información se incluye en la directiva de vectores contenida:

“path”: la propiedad que contiene el vector (obligatorio).
"datatype": el tipo de datos de la propiedad vectorial. Los tipos admitidos son float32 (valor predeterminado), int8y uint8. 
“dimensions”: La dimensionalidad o longitud de cada vector en la ruta. Todos los vectores de una ruta deben tener el mismo número de dimensiones. (valor predeterminado 1536).
"distanceFunction": La métrica usada para calcular la distancia/similitud. Las métricas admitidas son:
- coseno, que tiene valores de -1 (menos similares) a +1 (más similares).
- producto de punto, que tiene valores de -inf (menos similar) a +inf (más similar).
- euclideano, que tiene valores de 0 (más similares) a +inf) (menos similares).

Nota:

Ninguna de las rutas de acceso únicas puede tener más de una directiva. Sin embargo, se pueden especificar varias directivas siempre que tengan como destino una ruta de acceso diferente.

La directiva de vectores de contenedor se puede describir como objetos JSON. Estos son dos ejemplos de directivas de vectores de contenedor válidas:

Una directiva con una única trayectoria de vector

{
    "vectorEmbeddings": [
        {
            "path":"/vector1",
            "dataType":"float32",
            "distanceFunction":"cosine",
            "dimensions":1536
        }
    ]
}

Una directiva con dos rutas de acceso vectoriales

{
    "vectorEmbeddings": [
        {
            "path":"/vector1",
            "dataType":"float32",
            "distanceFunction":"cosine",
            "dimensions":1536
        },
        {
            "path":"/vector2",
            "dataType":"int8",
            "distanceFunction":"dotproduct",
            "dimensions":100
        }
    ]
}

Directivas de indexación de vectores

Los índices vectoriales aumentan la eficacia al realizar búsquedas vectoriales mediante la función del sistema VectorDistance. Las búsquedas de vectores tienen menor latencia, mayor rendimiento y menor consumo de RU cuando se usa un índice vectorial. Puede especificar los siguientes tipos de directivas de índice vectorial:

Tipo	Descripción	Dimensiones máximas
`flat`	Almacena vectores en el mismo índice que otras propiedades indexadas.	505
`quantizedFlat`	Cuantifica (comprime) vectores antes de almacenarlos en el índice. Esto puede mejorar la latencia y el rendimiento a costa de una pequeña cantidad de precisión.	4096
`diskANN`	Crea un índice basado en DiskANN para una búsqueda aproximada rápida y eficaz.	4096

Nota:

Los índices quantizedFlat y diskANN requieren que se inserte al menos 1000 vectores. Así se garantiza la precisión del proceso de cuantificación. Si hay menos de 1000 vectores, se ejecuta un examen completo en su lugar y provocará mayores cargos de RU para una consulta de vectores de búsqueda.

Algunos puntos a tener en cuenta:

Los tipos de índice flat y quantizedFlat usan el índice de Azure Cosmos DB para almacenar y leer cada vector al realizar un vector de búsqueda. Las búsquedas vectoriales con un índice de flat son búsquedas por fuerza bruta y producen una precisión o recuperación del 100 %. Es decir, se garantiza que se encuentren los vectores más similares en el conjunto de datos. Sin embargo, hay una limitación de 505 dimensiones para vectores de un índice plano.
El índice quantizedFlat almacena vectores cuantificados (comprimidos) en el índice. Las búsquedas de vectores con índices quantizedFlat también son búsquedas por fuerza bruta, pero su precisión podría ser ligeramente inferior al 100 %, ya que los vectores son cuantizados antes de agregarlos al índice. Sin embargo, las búsquedas vectoriales con quantized flat deben tener una latencia menor, un mayor rendimiento y un menor costo de RU que el vector de búsqueda en un índice flat. Esta es una buena opción para escenarios más pequeños o escenarios en los que se usan filtros de consulta para restringir el vector de búsqueda a un conjunto relativamente pequeño de vectores. quantizedFlat se recomienda cuando el número de vectores que se van a indexar es de aproximadamente 50 000 o menos por partición física. Sin embargo, esto es solo una guía general y el rendimiento real debe probarse, ya que cada escenario puede ser diferente.
El índice diskANN es un índice independiente definido específicamente para vectores que usan DiskANN, un conjunto de algoritmos de indexación de vectores de alto rendimiento desarrollados por Microsoft Research. Los índices diskANN pueden ofrecer algunas de las consultas de menor latencia, mayor rendimiento y costo de RU más bajo, a la vez que mantienen una alta precisión. En general, DiskANN es el más eficaz de todos los tipos de índice si hay más de 50 000 vectores por partición física.

Estos son ejemplos de directivas de índice vectorial válidas:

{
    "indexingMode": "consistent",
    "automatic": true,
    "includedPaths": [
        {
            "path": "/*"
        }
    ],
    "excludedPaths": [
        {
            "path": "/_etag/?"
        },
        {
            "path": "/vector1/*"
        }
    ],
    "vectorIndexes": [
        {
            "path": "/vector1",
            "type": "diskANN"
        }
    ]
}

{
    "indexingMode": "consistent",
    "automatic": true,
    "includedPaths": [
        {
            "path": "/*"
        }
    ],
    "excludedPaths": [
        {
            "path": "/_etag/?"
        },
        {
            "path": "/vector1/*",
        },
        {
            "path": "/vector2/*",
        }
    ],
    "vectorIndexes": [
        {
            "path": "/vector1",
            "type": "quantizedFlat"
        },
        {
            "path": "/vector2",
            "type": "diskANN"
        }
    ]
}

Importante

Ruta de acceso vectorial agregada a la sección "excludedPaths" de la directiva de indexación para garantizar un rendimiento optimizado para la inserción. Si no se agrega la ruta de acceso vectorial a "excludedPaths", se producirá una mayor carga de RU y latencia para las inserciones vectoriales.

Importante

Los caracteres comodín (*, []) no se admiten actualmente en la directiva de vectores o en el índice de vectores.

Realización de búsquedas vectoriales con consultas mediante VectorDistance()

Una vez que ha creado un contenedor con la directiva de vector deseada e insertado los datos vectoriales en el contenedor, puede realizar una búsqueda de vectores mediante la función del sistema distancia de vectores en una consulta. Un ejemplo de una consulta NoSQL que proyecta la puntuación de similitud como alias SimilarityScore y se ordena en orden de más similar a menos similar:

SELECT TOP 10 c.title, VectorDistance(c.contentVector, [1,2,3]) AS SimilarityScore   
FROM c  
ORDER BY VectorDistance(c.contentVector, [1,2,3])

Importante

Use siempre una cláusula TOP N en la instrucción SELECT de una consulta. De lo contrario, los vectores de búsqueda intentarán devolver demasiados resultados y la consulta costará más RU's y tendrá una latencia mayor de la necesaria.

Limitaciones actuales

La indexación de vectores y la búsqueda en Azure Cosmos DB for NoSQL tiene algunas limitaciones.

quantizedFlat y diskANN los índices requieren que se indicen al menos 1000 vectores para asegurarse de que la cuantificación es precisa. Si se indexan menos de 1000 vectores, se usa un examen completo en su lugar y los cargos de RU pueden ser mayores.
Los vectores indexados con el tipo de índice flat pueden ser como máximo 505 dimensiones. Los vectores indexados con el tipo de índice quantizedFlat o DiskANN pueden ser como máximo 4096 dimensiones.
La tasa de inserciones vectoriales debe ser limitada. La ingesta muy grande (más de 5 millones de vectores) puede requerir un tiempo de compilación de índice adicional.
La característica de vector de búsqueda no se admite actualmente en los contenedores existentes. Para usarla, se debe crear un nuevo contenedor y se debe especificar la directiva de inserción de vectores de nivel de contenedor.
Las bases de datos de rendimiento compartido no son compatibles.
En este momento, la indexación de vectores y la búsqueda no se admiten en cuentas con el almacén analítico (y Synapse Link) y el rendimiento compartido.
Una vez habilitada la indexación de vectores y la búsqueda en un contenedor, no se puede deshabilitar.

Paso siguiente

Usar el nivel gratuito de por vida de Azure Cosmos DB

Compartir a través de

Búsqueda vectorial en Azure Cosmos DB para NoSQL

¿Qué es un almacén de vectores?

¿Cómo funciona un almacén de vectores?

Habilitar la función de indexación de vectores y búsqueda

Directivas de vectores de contenedor

Una directiva con una única trayectoria de vector

Una directiva con dos rutas de acceso vectoriales

Directivas de indexación de vectores

Realización de búsquedas vectoriales con consultas mediante VectorDistance()

Limitaciones actuales

Contenido relacionado

Paso siguiente

Comentarios

Recursos adicionales