Procedimiento para habilitar y usar `pgvector` en Azure Cosmos DB for PostgreSQL

Se aplica a: ✅ PostgreSQL

Importante

Azure Cosmos DB for PostgreSQL ya no se admite para nuevos proyectos. No use este servicio para nuevos proyectos. En su lugar, use uno de estos dos servicios:

Use Azure Cosmos DB for NoSQL para una solución de base de datos distribuida diseñada para escenarios a gran escala con un Acuerdo de Nivel de Servicio (SLA) de disponibilidad del 99,999 %, escalabilidad automática instantánea y conmutación por error automática en varias regiones.
Utiliza la característica de Clústeres elásticos de Azure Database For PostgreSQL para PostgreSQL particionado utilizando la extensión Citus de código abierto.

La extensión pgvector agrega una búsqueda de similitud vectorial de código abierto a PostgreSQL.

En este artículo se presentan funcionalidades adicionales habilitadas por pgvector. Se describen los conceptos de similitud de vectores e inserciones, y se proporcionan instrucciones sobre cómo habilitar la extensión pgvector. Verá cómo crear, almacenar y consultar los vectores. Es posible que también quiera consultar el archivo LÉAME oficial del proyecto.

Habilitación de una extensión

Para poder usar las extensiones de PostgreSQL, es preciso habilitarlas en la base de datos. Para habilitar la extensión, ejecute el comando desde la herramienta psql para cargar los objetos empaquetados en la base de datos.

SELECT CREATE_EXTENSION('vector');

Nota:

Para deshabilitar una extensión, use drop_extension()

Conceptos

Similitud de vectores

La similitud de vectores es un método que se usa para medir la similitud de dos elementos mediante su representación como vectores, que son series de números. Los vectores se usan a menudo para representar puntos de datos, donde cada elemento del vector representa una característica o atributo del punto de datos.

La similitud de vectores se calcula normalmente mediante métricas de distancia, como la similitud de Euclidean distance o cosine. La distancia euclidiana mide la distancia en línea recta entre dos vectores en el espacio unidimensional, mientras que la similitud coseno mide el coseno del ángulo entre dos vectores. Los valores de las métricas de similitud suelen oscilar entre 0 y 1, con valores higher que indican una mayor similitud entre los vectores.

La similitud de vectores se usa ampliamente en varias aplicaciones, como las de sistemas de recomendación, clasificación de texto, reconocimiento de imágenes y agrupación en clústeres. Por ejemplo, en los sistemas de recomendaciones, la similitud vectorial se puede usar para identificar elementos similares en función de las preferencias del usuario. En la clasificación de texto, la similitud vectorial se puede usar para determinar la similitud entre dos documentos u oraciones en función de sus representaciones vectoriales.

Incrustaciones

Una inserción es una técnica para evaluar la "relación" de texto, imágenes, vídeos u otros tipos de información. La evaluación permite que los modelos de Machine Learning identifiquen eficazmente las relaciones y similitudes entre los datos, lo que permite a los algoritmos identificar patrones y realizar predicciones precisas. Por ejemplo, en una tarea de análisis de sentimiento, es posible que las palabras con inserciones similares tengan puntuaciones de opinión similares.

Introducción

Cree un tblvector de tabla con una columna embedding de tipo vector(3) que represente un vector tridimensional.

CREATE TABLE tblvector(
    id bigserial PRIMARY KEY,
    embedding vector(3)
    );

Una vez que haya generado una inserción mediante un servicio como la API de OpenAI, puede almacenar el vector resultante en la base de datos. La definición de un vector como vector(3) designa [x,y,z] coordinates en el plano tridimensional. El comando inserta cinco filas nuevas en la tabla tblvector con las inserciones proporcionadas.

INSERT INTO tblvector (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]'), (3, '[5,4,6]'), (4, '[3,5,7]'), (5, '[7,8,9]');

Al usar la instrucción INSERT INTO ... ON CONFLICT, puede especificar una acción alternativa, como actualizar registros que coincidan con los criterios. Le permite controlar posibles conflictos de una manera más eficaz.

INSERT INTO tblvector (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]')
ON CONFLICT (id) DO UPDATE SET embedding = EXCLUDED.embedding;

El comando DELETE quita las filas de una tabla especificada según las condiciones especificadas en la cláusula WHERE. Cuando la cláusula WHERE no está presente, se eliminan todas las filas de la tabla.

DELETE FROM tblvector WHERE id = 1;

Para recuperar vectores y calcular la similitud, use instrucciones SELECT y los operadores vectoriales integrados. Por ejemplo, la consulta calcula la distancia euclidiana (distancia L2) entre el vector especificado y los vectores almacenados en la tabla tblvector, ordena los resultados por la distancia calculada y devuelve los cinco elementos más similares más cercanos.

SELECT * FROM tblvector 
ORDER BY embedding <-> '[3,1,2]' 
LIMIT 5;

La consulta usa el operador "<->", que es el "operador de distancia" que se usa para calcular la distancia entre dos vectores en un espacio multidimensional. La consulta devuelve todas las filas con una distancia de menos de 6 con respecto al vector [3,1,2].

SELECT * FROM tblvector WHERE embedding <-> '[3,1,2]' < 6;

El comando recupera el valor medio de la columna "embedding" de la tabla "tblvector". Por ejemplo, si la columna "embedding" contiene inserciones de palabras para un modelo de lenguaje, el valor medio de estas inserciones se podría usar para representar toda la oración o documento.

SELECT AVG(embedding) FROM tblvector;

Operadores vectoriales

pgvector presenta seis nuevos operadores que se pueden usar en vectores:

Operator	Descripción
+	adición por elementos
-	resta por elementos
*	multiplicación por elementos
<->	Distancia euclidiana
<#>	producto interno negativo
<=>	distancia de coseno

Funciones vectoriales

`cosine_distance`

Calcula la distancia de coseno entre dos vectores.

cosine_distance(vector, vector)

Argumentos

`vector`

Primero vector.

`vector`

Segundo vector.

Tipo de valor devuelto

double precision como distancia entre los dos vectores proporcionados.

`inner_product`

Calcula el producto interno de dos vectores.

inner_product(vector, vector)

Argumentos

`vector`

Primero vector.

`vector`

Segundo vector

Tipo de valor devuelto

double precision como producto interno de los dos vectores.

`l2_distance`

Calcula la distancia euclidiana (también conocida como L2) entre dos vectores.

l2_distance(vector, vector)

Argumentos

`vector`

Primero vector.

`vector`

Segundo vector

Tipo de valor devuelto

double precision como la distancia euclidiana entre los dos vectores.

`l1_distance`

Calcula la distancia del taxista (también conocida como L1) entre dos vectores.

l1_distance(vector, vector)

Argumentos

`vector`

Primero vector.

`vector`

Segundo vector

Tipo de valor devuelto

double precision como la distancia del taxista entre los dos vectores.

`vector_dims(vector)`

Devuelve las dimensiones de un vector determinado.

Argumentos

`vector`

vector.

Tipo de valor devuelto

integer representa el número de dimensiones del vector especificado.

`vector_norms(vector)`

Calcula la norma euclidiana de un vector determinado.

Argumentos

`vector`

vector.

Tipo de valor devuelto

double precision representa la norma euclidiana del vector especificado.

Agregados vectoriales

`AVG`

Calcula el promedio de los vectores procesados.

Argumentos

`vector`

vector.

Tipo de valor devuelto

vector representa el promedio de vectores procesados.

`SUM`

Argumentos

`vector`

vector.

Tipo de valor devuelto

vector representa la suma de vectores procesados.

Pasos siguientes

Obtenga más información sobre el rendimiento, la indexación y las limitaciones con pgvector.

Optimización del rendimiento cuando se usa pgvector

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-10-31

Compartir a través de

Procedimiento para habilitar y usar pgvector en Azure Cosmos DB for PostgreSQL

Habilitación de una extensión

Conceptos

Similitud de vectores

Incrustaciones

Introducción

Operadores vectoriales

Funciones vectoriales

cosine_distance

Argumentos

vector

vector

Tipo de valor devuelto

inner_product

Argumentos

vector

vector

Tipo de valor devuelto

l2_distance

Argumentos

vector

vector

Tipo de valor devuelto

l1_distance

Argumentos

vector

vector

Tipo de valor devuelto

vector_dims(vector)

Argumentos

vector

Tipo de valor devuelto

vector_norms(vector)

Argumentos

vector

Tipo de valor devuelto

Agregados vectoriales

AVG

Argumentos

vector

Tipo de valor devuelto

SUM

Argumentos

vector

Tipo de valor devuelto

Pasos siguientes

Comentarios

Recursos adicionales

Procedimiento para habilitar y usar `pgvector` en Azure Cosmos DB for PostgreSQL

`cosine_distance`

`vector`

`vector`

`inner_product`

`vector`

`vector`

`l2_distance`

`vector`

`vector`

`l1_distance`

`vector`

`vector`

`vector_dims(vector)`

`vector`

`vector_norms(vector)`

`vector`

`AVG`

`vector`

`SUM`

`vector`