Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Los almacenes de vectores se usan en numerosos dominios y situaciones en inteligencia artificial analítica y generativa, como el procesamiento de lenguaje natural, el reconocimiento de vídeo e imágenes, los sistemas de recomendaciones y la búsqueda.
¿Qué es un almacén de vectores?
Un almacén de vectores (también denominado base de datos vectorial) es una base de datos que almacena y administra las incrustaciones vectoriales. Las incrustaciones vectoriales son representaciones matemáticas de datos en un espacio de alta dimensión.
En este espacio, cada dimensión corresponde a una característica de los datos. Es posible que decenas de miles de dimensiones se usen para representar datos sofisticados. La posición de un vector en este espacio representa sus características. Las palabras, frases, documentos completos, imágenes, audio y otros tipos de datos se pueden vectorizar.
¿Cómo funciona un almacén de vectores?
En un almacén de vectores, se usan algoritmos de búsqueda vectorial para indexar e insertar consultas. Los bien conocidos algoritmos de búsqueda vectorial incluyen Disk Approximate Nearest Neighbor (DiskANN),Hierarchical Navigable Small World (HNSW) y Inverted File with Flat Compression (IVFFlat).
La búsqueda vectorial es un método que ayuda a encontrar elementos similares en función de sus características de datos en lugar de coincidencias exactas en un campo de propiedad. Esta técnica es útil en aplicaciones como la búsqueda de texto similar, la búsqueda de imágenes relacionadas, la realización de recomendaciones o incluso la detección de anomalías.
La búsqueda de vectores se usa para consultar las inserciones vectoriales de los datos que ha creado mediante un modelo de Machine Learning, a través de una API de inserciones. Algunos ejemplos de APIs de incrustaciones son Incrustaciones de Azure OpenAI y Hugging Face en Azure.
El vector de búsqueda mide la distancia entre los vectores de datos y el vector de consulta. Los vectores de datos más cercanos al vector de consulta son los que son más similares semánticamente.
Al usar Azure Database for PostgreSQL como almacén de vectores, puede almacenar, indexar e insertar consultas junto con los datos originales. Este enfoque elimina el costo adicional de replicar datos en una base de datos de vectores pura independiente.
Esta arquitectura también mantiene juntas las incrustaciones de vectores y los datos originales. Mantener las incrustaciones y los datos juntos facilitan mejor las operaciones de datos multimodales. También permite una mayor coherencia, escala y rendimiento de los datos.