Como habilitar e usar `pgvector` no Azure Cosmos DB for PostgreSQL

2024-08-15

APLICA-SE A: Azure Cosmos DB for PostgreSQL (aproveitando a extensão de banco de dados Citus para PostgreSQL)

A extensão pgvector adiciona uma pesquisa de similaridade de vetor de código aberto ao PostgreSQL.

Este artigo nos apresenta recursos extras habilitados pelo pgvector. Ele aborda os conceitos de similaridade e inserções de vetores e fornece diretrizes sobre como habilitar a extensão pgvector. Aprendemos sobre como criar, armazenar e consultar os vetores. Talvez você também queira consultar o README oficial do projeto.

Habilitar extensão

As extensões PostgreSQL devem ser habilitadas no banco de dados para que você possa usá-las. Para habilitar a extensão, execute o comando da ferramenta psql para carregar os objetos empacotados em seu banco de dados.

SELECT CREATE_EXTENSION('vector');

Observação

Para desabilitar uma extensão, use drop_extension().

Conceitos

Similaridade de vetor

A similaridade de vetor é um método usado para medir o quão semelhantes são dois itens, representando-os como vetores, que são uma série de números. Os vetores geralmente são usados para representar pontos de dados, em que cada elemento do vetor representa um recurso ou atributo do ponto de dados.

A similaridade de vetor é comumente calculada usando métricas de distância, como similaridade de Euclidean distance ou cosine. A distância euclidiana mede a distância em linha reta entre dois vetores no espaço ndimensional, enquanto a similaridade de cosseno mede o cosseno do ângulo entre dois vetores. Os valores das métricas de similaridade normalmente variam entre 0 e 1, com valores higher que indicam maior semelhança entre os vetores.

A similaridade de vetor é amplamente usada em vários aplicativos, como sistemas de recomendação, classificação de texto, reconhecimento de imagem e clustering. Por exemplo, em sistemas de recomendação, a similaridade de vetor pode ser usada para identificar itens semelhantes com base nas preferências do usuário. Na classificação de texto, a similaridade de vetor pode ser usada para determinar a similaridade entre dois documentos ou frases com base em suas representações de vetor.

Inserções

Uma inserção é uma técnica de avaliação da "relação" de texto, imagens, vídeos ou outros tipos de informações. A avaliação permite que os modelos de machine learning identifiquem com eficiência as relações e as semelhanças entre os dados, permitindo que os algoritmos identifiquem padrões e façam previsões precisas. Por exemplo, em uma tarefa de análise de sentimento, palavras com inserções semelhantes podem ter pontuações de sentimento semelhantes.

Introdução

Crie uma tabela tblvector com uma coluna embedding do tipo vector(3) que representa um vetor tridimensional.

CREATE TABLE tblvector(
    id bigserial PRIMARY KEY,
    embedding vector(3)
    );

Depois de gerar uma inserção usando um serviço como a API do OpenAI, você poderá armazenar o vetor resultante em seu banco de dados. Definir um vetor como vector(3) designa [x,y,z] coordinates no plano tridimensional. O comando insere cinco novas linhas na tabela tblvector com as inserções fornecidas.

INSERT INTO tblvector (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]'), (3, '[5,4,6]'), (4, '[3,5,7]'), (5, '[7,8,9]');

Usando a instrução INSERT INTO ... ON CONFLICT, você pode especificar uma ação alternativa, como atualizar registros que correspondam aos critérios. Ele permite que você lide com possíveis conflitos de maneira mais efetiva e eficaz.

INSERT INTO tblvector (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]')
ON CONFLICT (id) DO UPDATE SET embedding = EXCLUDED.embedding;

O comando DELETE remove linhas de uma tabela especificada com base nas condições definidas na cláusula WHERE. Quando a cláusula WHERE não está presente, todas as linhas na tabela são excluídas.

DELETE FROM tblvector WHERE id = 1;

Para recuperar vetores e calcular a similaridade, use instruções SELECT e os operadores de vetor internos. Por exemplo, a consulta calcula a distância euclidiana (distância L2) entre o vetor especificado e os vetores armazenados na tabela tblvector, classifica os resultados pela distância calculada e retorna os cinco itens mais próximos mais semelhantes.

SELECT * FROM tblvector 
ORDER BY embedding <-> '[3,1,2]' 
LIMIT 5;

A consulta usa o operador "<->", que é o "operador de distância" usado para calcular a distância entre dois vetores em um espaço multidimensional. A consulta retorna todas as linhas com a distância inferior a 6 do vetor [3,1,2].

SELECT * FROM tblvector WHERE embedding <-> '[3,1,2]' < 6;

O comando recupera o valor médio da coluna "embedding" da tabela "tblvector". Por exemplo, se a coluna "embedding" contiver inserções de palavras de um modelo de linguagem, o valor médio dessas inserções poderá ser usado para representar a frase ou o documento todo.

SELECT AVG(embedding) FROM tblvector;

Operadores vetoriais

pgvector introduz seis novos operadores que podem ser usados em vetores:

Operador	Descrição
+	adição elemento a elemento
-	subtração elemento a elemento
*	multiplicação elemento a elemento
<->	Distância euclidiana
<#>	produto interno negativo
<=>	distância do cosseno

Funções vetoriais

`cosine_distance`

Calcula a distância do cosseno entre dois vetores.

cosine_distance(vector, vector)

Argumentos

`vector`

Primeiro vector.

`vector`

Segundo vector.

Tipo de retorno

double precision como distância entre os dois vetores fornecidos.

`inner_product`

Calcula o produto interno de dois vetores.

inner_product(vector, vector)

Argumentos

`vector`

Primeiro vector.

`vector`

Segundo vector

Tipo de retorno

double precision como produto interno dos dois vetores.

`l2_distance`

Calcula a distância euclidiana (também conhecida como L2) entre dois vetores.

l2_distance(vector, vector)

Argumentos

`vector`

Primeiro vector.

`vector`

Segundo vector

Tipo de retorno

double precision como a distância euclidiana entre os dois vetores.

`l1_distance`

Calcula a distância do táxi (também conhecido como L1) entre dois vetores.

l1_distance(vector, vector)

Argumentos

`vector`

Primeiro vector.

`vector`

Segundo vector

Tipo de retorno

double precision como a distância do táxi entre os dois vetores.

`vector_dims(vector)`

Retorna as dimensões de um determinado vetor.

Argumentos

`vector`

Um vector.

Tipo de retorno

integer que representa o número de dimensões do vetor dado.

`vector_norms(vector)`

Calcula a norma euclidiana de um dado vetor.

Argumentos

`vector`

Um vector.

Tipo de retorno

double precision representando a norma euclidiana do vetor dado.

Agregados vetoriais

`AVG`

Calcula a média dos vetores processados.

Argumentos

`vector`

Um vector.

Tipo de retorno

vector representando a média dos vetores processados.

`SUM`

Argumentos

`vector`

Um vector.

Tipo de retorno

vector representado a soma dos vetores processados.

Próximas etapas

Saiba mais sobre desempenho, indexação e limitações usando pgvector.

Otimizar o desempenho ao usar o pgvector

Compartilhar via

Como habilitar e usar pgvector no Azure Cosmos DB for PostgreSQL

Habilitar extensão

Conceitos

Similaridade de vetor

Inserções

Introdução

Operadores vetoriais

Funções vetoriais

cosine_distance

Argumentos

vector

vector

Tipo de retorno

inner_product

Argumentos

vector

vector

Tipo de retorno

l2_distance

Argumentos

vector

vector

Tipo de retorno

l1_distance

Argumentos

vector

vector

Tipo de retorno

vector_dims(vector)

Argumentos

vector

Tipo de retorno

vector_norms(vector)

Argumentos

vector

Tipo de retorno

Agregados vetoriais

AVG

Argumentos

vector

Tipo de retorno

SUM

Argumentos

vector

Tipo de retorno

Próximas etapas

Comentários

Recursos adicionais

Como habilitar e usar `pgvector` no Azure Cosmos DB for PostgreSQL

`cosine_distance`

`vector`

`vector`

`inner_product`

`vector`

`vector`

`l2_distance`

`vector`

`vector`

`l1_distance`

`vector`

`vector`

`vector_dims(vector)`

`vector`

`vector_norms(vector)`

`vector`

`AVG`

`vector`

`SUM`

`vector`