Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Os repositórios de vetores são usados em vários domínios e situações em IA analítica e gerativa, incluindo processamento de linguagem natural, reconhecimento de vídeo e imagem, sistemas de recomendação e pesquisa.
O que é um repositório de vetores?
Um repositório de vetores (também chamado de banco de dados vetor) é um banco de dados que armazena e gerencia inserções de vetor. As inserções de vetor são representações matemáticas de dados em um espaço de alta dimensão.
Nesse espaço, cada dimensão corresponde a um recurso dos dados. Dezenas de milhares de dimensões podem ser usadas para representar dados sofisticados. A posição de um vetor nesse espaço representa as características dele. Palavras, frases, documentos inteiros, imagens, áudio e outros tipos de dados podem ser vetorizados.
Como funciona um repositório de vetores?
Em um repositório de vetores, você usa algoritmos de pesquisa de vetor para indexar e consultar inserções. Os algoritmos de busca em vetores conhecidos incluem o DiskANN (Disco de Vizinho Mais Próximo), o HNSW (Disco de Vizinho Mais Próximo) e o IVFFlat (Arquivo Invertido com Compactação Simples).
A pesquisa vetorial é um método que ajuda a localizar itens semelhantes com base em suas características de dados, em vez de correspondências exatas em um campo de propriedade. Essa técnica é útil em usos como pesquisa de texto semelhante, localização de imagens relacionadas, recomendações ou até mesmo detecção de anomalias.
A pesquisa de vetor é usada para consultar as inserções de vetor dos dados que você criou usando um modelo de machine learning por meio de uma API de inserções. Entre os exemplos de APIs de inserções estão as Inserções do OpenAI do Azure e o Hugging Face no Azure.
A busca em vetores mede a distância entre os vetores de dados e o vetor de consulta. Os vetores de dados mais próximos do vetor de consulta são os mais semelhantes semanticamente.
Ao usar o Banco de Dados do Azure para PostgreSQL como um repositório de vetores, você pode armazenar, indexar e consultar inserções junto com os dados originais. Essa abordagem elimina o custo extra da replicação de dados em um banco de dados de vetor puro separado.
Essa arquitetura também mantém as inserções de vetor e os dados originais juntos. Manter os embeddings e os dados juntos facilita as operações multimodais de dados. Ele também permite maior consistência de dados, escala e desempenho.