Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Os repositórios vetoriais são usados em vários domínios e situações em IA analítica e generativa, incluindo processamento de linguagem natural, reconhecimento de vídeo e imagem, sistemas de recomendação e pesquisa.
O que é um repositório vetorial?
Um repositório vetorial (também chamado de banco de dados vetorial) é um banco de dados que armazena e gerencia incorporações vetoriais. Incorporações vetoriais são representações matemáticas de dados em um espaço de alta dimensão.
Neste espaço, cada dimensão corresponde a uma característica dos dados. Dezenas de milhares de dimensões podem ser usadas para representar dados sofisticados. A posição de um vetor neste espaço representa suas características. Palavras, frases, documentos inteiros, imagens, áudio e outros tipos de dados podem ser vetorizados.
Como funciona uma loja vetorial?
Em um repositório de vetores, você usa algoritmos de pesquisa vetorial para indexar e consultar incorporações. Algoritmos de pesquisa vetorial bem conhecidos incluem Disk Approximate Nearest Neighbor (DiskANN),Hierarchical Navigable Small World (HNSW) e Inverted File with Flat Compression (IVFFlat).
A pesquisa vetorial é um método que ajuda você a encontrar itens semelhantes com base em suas características de dados, em vez de correspondências exatas em um campo de propriedade. Esta técnica é útil em aplicações como procurar texto semelhante, encontrar imagens relacionadas, fazer recomendações ou até mesmo detetar anomalias.
A pesquisa vetorial é usada para consultar as incorporações vetoriais de seus dados que você criou usando um modelo de aprendizado de máquina, por meio de uma API de incorporação. Exemplos de APIs de incorporação são Azure OpenAI Embeddings e Hugging Face on Azure.
A pesquisa vetorial mede a distância entre os vetores de dados e o vetor de consulta. Os vetores de dados mais próximos do vetor de consulta são os mais semelhantes semanticamente.
Ao usar o Banco de Dados do Azure para PostgreSQL como um repositório de vetores, você pode armazenar, indexar e consultar incorporações ao lado dos dados originais. Essa abordagem elimina o custo extra de replicar dados em um banco de dados vetorial puro e separado.
Essa arquitetura também mantém as incorporações vetoriais e os dados originais juntos. Manter as incorporações e os dados juntos facilita melhor as operações de dados multimodais. Ele também permite maior consistência, escala e desempenho de dados.