Condividi tramite


Archivi vettoriali in Database di Azure per PostgreSQL

Gli archivi vettoriali vengono usati in numerosi domini e situazioni nell'intelligenza artificiale analitica e generativa, tra cui l'elaborazione del linguaggio naturale, il riconoscimento di video e immagini, i sistemi di raccomandazione e la ricerca.

Che cos'è un archivio di vettori?

Un archivio vettoriale (detto anche database vettoriale) è un database che archivia e gestisce incorporamenti vettoriali. Gli incorporamenti vettoriali sono rappresentazioni matematiche dei dati in uno spazio ad alta dimensione.

In questo spazio ogni dimensione corrisponde a una funzionalità dei dati. Decine di migliaia di dimensioni possono essere usate per rappresentare dati sofisticati. La posizione di un vettore in questo spazio rappresenta le sue caratteristiche. Parole, frasi, interi documenti, immagini, audio e altri tipi di dati possono essere vettorizzati.

Come funziona un archivio vettoriale?

In un archivio vettoriale si usano algoritmi di ricerca vettoriale per indicizzare ed eseguire query sugli incorporamenti. Gli algoritmi di ricerca vettoriale noti includono Disk Approximate Nearest Neighbor (DiskANN),Hierarchical Navigable Small World (HNSW) e Inverted File with Flat Compression (IVFFlat).

La ricerca vettoriale è un metodo che consente di trovare elementi simili in base alle caratteristiche dei dati anziché in base alle corrispondenze esatte in un campo di proprietà. Questa tecnica è utile nelle applicazioni come la ricerca di testi simili o di immagini correlate, la creazione di elementi consigliati o anche il rilevamento di anomalie.

La ricerca vettoriale viene usata per eseguire query sulle incorporazioni vettoriali dei dati creati usando un modello di Machine Learning tramite un'API di incorporamento. Esempi di API di incorporamento sono Incorporamenti OpenAI di Azure e Hugging Face in Azure.

La ricerca vettoriale misura quindi la distanza tra i vettori di dati e i vettori di query. I vettori di dati più vicini al vettore di query sono quelli più simili semanticamente.

Quando si usa Database di Azure per PostgreSQL come archivio vettoriale, è possibile archiviare, indicizzare ed eseguire query sugli incorporamenti insieme ai dati originali. Questo approccio elimina il costo aggiuntivo della replica dei dati in un database vettoriale separato e puro.

Questa architettura mantiene insieme anche gli incorporamenti vettoriali e i dati originali. Mantenere insieme gli incorporamenti e i dati facilita meglio le operazioni sui dati multimodali. Consente anche una maggiore coerenza, scalabilità e prestazioni dei dati.