Comprendere gli embeddings in OpenAI di Azure nei modelli di Microsoft Foundry

Annotazioni

Questo documento fa riferimento al portale di Microsoft Foundry (versione classica).

🔍Per informazioni sul nuovo portale, vedere la documentazione di Microsoft Foundry (nuova).

Un incorporamento è un formato speciale di rappresentazione dei dati facilmente utilizzabile da modelli di Machine Learning e algoritmi. L'incorporamento è una rappresentazione densa di informazioni del significato semantico di un testo. Ogni incorporamento è un vettore di numeri a virgola mobile, in modo che la distanza tra due incorporamenti nello spazio vettoriale sia correlata alla somiglianza semantica tra due input nel formato originale. Ad esempio, se due testi sono simili, anche le rappresentazioni vettoriali dovrebbero essere simili. Incorpora la ricerca di somiglianza dei vettori di alimentazione nei sistemi di recupero, come Azure AI Search (scelta consigliata) e nei database di Azure, come Azure Cosmos DB for MongoDB vCore, Database SQL di Azure e Database di Azure per PostgreSQL - Server flessibile.

Incorporamento dei modelli

Gli incorporamenti semplificano l'apprendimento automatico su input di grandi dimensioni che rappresentano parole acquisendo le analogie semantiche in uno spazio vettoriale. È quindi possibile usare gli incorporamenti per determinare se due blocchi di testo sono semanticamente correlati o simili e fornire un punteggio per valutare la similarità.

Similarità del coseno

Gli incorporamenti Azure OpenAI spesso si basano sulla similarità del coseno per calcolare la similarità tra documenti e una query.

Dal punto di vista matematico, la similarità del coseno misura il coseno dell'angolo tra due vettori proiettati in uno spazio multidimensionale. Questa misurazione è utile perché se due documenti presentano una distanza euclidea elevata in termini di dimensioni, potrebbero comunque mostrare un angolo più piccolo tra i due vettori e quindi una similarità del coseno più elevata. Per altre informazioni sulle equazioni di similarità del coseno, vedere Similarità del coseno.

Un metodo alternativo per identificare documenti simili consiste nel contare il numero di parole comuni tra documenti. Questo approccio non è scalabile perché è probabile che un'espansione delle dimensioni del documento comporti un maggior numero di parole comuni rilevate anche tra argomenti completamente diversi. Per questo motivo, la somiglianza del coseno può offrire un'alternativa più efficace.

Passaggi successivi

Ottenere altre informazioni sull'uso di OpenAI di Azure e degli incorporamenti per eseguire la ricerca di documenti con l'esercitazione sugli incorporamenti.
Archiviare gli incorporamenti ed eseguire ricerche vettoriali (similarità) usando Azure Cosmos DB for MongoDB vCore, Azure Cosmos DB for NoSQL, Database SQL di Azure o Database di Azure per PostgreSQL - Server flessibile.
Usare Eventhouse nell'intelligence in tempo reale come database vettoriale in Microsoft Fabric
- Usare la funzione series_cosine_similarity per la ricerca di similarità.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-12-06