Informazioni sugli incorporamenti nel servizio Azure OpenAI
Un incorporamento è un formato speciale di rappresentazione dei dati facilmente utilizzabile da modelli di Machine Learning e algoritmi. L'incorporamento è una rappresentazione densa di informazioni del significato semantico di un testo. Ogni incorporamento è un vettore di numeri a virgola mobile, in modo che la distanza tra due incorporamenti nello spazio vettoriale sia correlata alla somiglianza semantica tra due input nel formato originale. Ad esempio, se due testi sono simili, anche le rappresentazioni vettoriali dovrebbero essere simili. Incorpora la ricerca di somiglianza dei vettori di alimentazione nei sistemi di recupero, ad esempio Ricerca di intelligenza artificiale di Azure (scelta consigliata) e nei database di Azure, ad esempio Azure Cosmos DB per MongoDB vCore, database SQL di Azure e Database di Azure per PostgreSQL - Server flessibile.
Incorporamento di modelli
Gli incorporamenti semplificano l'apprendimento automatico su input di grandi dimensioni che rappresentano parole acquisendo le analogie semantiche in uno spazio vettoriale. È quindi possibile usare gli incorporamenti per determinare se due blocchi di testo sono semanticamente correlati o simili e fornire un punteggio per valutare la similarità.
Somiglianza coseno
Gli incorporamenti di Azure OpenAI spesso si basano sulla somiglianza del coseno per calcolare la somiglianza tra documenti e query.
Dal punto di vista matematico, la similarità del coseno misura il coseno dell'angolo tra due vettori proiettati in uno spazio multidimensionale. Questa misurazione è utile perché se due documenti presentano una distanza euclidea elevata in termini di dimensioni, potrebbero comunque mostrare un angolo più piccolo tra i due vettori e quindi una similarità del coseno più elevata. Per altre informazioni sulle equazioni di similarità del coseno, vedere Similarità del coseno.
Un metodo alternativo per identificare documenti simili consiste nel contare il numero di parole comuni tra documenti. Questo approccio non è scalabile perché è probabile che un'espansione delle dimensioni del documento comporti un maggior numero di parole comuni rilevate anche tra argomenti completamente diversi. Per questo motivo, la somiglianza del coseno può offrire un'alternativa più efficace.
Passaggi successivi
- Ottenere altre informazioni sull'uso di OpenAI di Azure e degli incorporamenti per eseguire la ricerca di documenti con l'esercitazione sugli incorporamenti.
- Archiviare gli incorporamenti ed eseguire ricerche vettoriali (similarità) usando Azure Cosmos DB for MongoDB vCore, Azure Cosmos DB for NoSQL, Database SQL di Azure o Database di Azure per PostgreSQL - Server flessibile.
- Usare Eventhouse nell'intelligence in tempo reale come database vettoriale in Microsoft Fabric
- Usare la funzione series_cosine_similarity per la ricerca di similarità.