Condividi tramite


Informazioni sugli incorporamenti nel servizio Azure OpenAI

Un incorporamento è un formato speciale di rappresentazione dei dati che i modelli e gli algoritmi di Machine Learning possono usare facilmente. L'incorporamento è una rappresentazione densa di informazioni del significato semantico di una parte di testo. Ogni incorporamento è un vettore di numeri a virgola mobile, in modo che la distanza tra due incorporamenti nello spazio vettoriale sia correlata alla somiglianza semantica tra due input nel formato originale. Ad esempio, se due testi sono simili, anche le rappresentazioni vettoriali dovrebbero essere simili. Incorporamento della ricerca di somiglianza dei vettori di alimentazione in Database di Azure, ad esempio Azure Cosmos DB per MongoDB vCore o Database di Azure per PostgreSQL - Server flessibile.

Incorporamento di modelli

Diversi modelli di incorporamento openAI di Azure vengono creati per essere validi in una determinata attività:

  • Gli incorporamenti di somiglianza sono validi per acquisire la somiglianza semantica tra due o più parti di testo.
  • Gli incorporamenti della ricerca di testo consentono di misurare se i documenti lunghi sono rilevanti per una query breve.
  • Gli incorporamenti di ricerca del codice sono utili per incorporare frammenti di codice e incorporare query di ricerca in linguaggio naturale.

Gli incorporamenti semplificano l'apprendimento automatico su input di grandi dimensioni che rappresentano parole acquisendo le analogie semantiche in uno spazio vettoriale. È quindi possibile usare gli incorporamenti per determinare se due blocchi di testo sono semanticamente correlati o simili e fornire un punteggio per valutare la somiglianza.

Somiglianza coseno

Gli incorporamenti di Azure OpenAI si basano sulla somiglianza del coseno per calcolare la somiglianza tra documenti e query.

Dal punto di vista matematico, la somiglianza del coseno misura il coseno dell'angolo tra due vettori proiettati in uno spazio multidimensionale. Questa misura è utile, perché se due documenti sono lontani dalla distanza euclidea a causa delle dimensioni, potrebbero comunque avere un angolo più piccolo tra di essi e quindi una maggiore somiglianza del coseno. Per altre informazioni sulle equazioni di somiglianza del coseno, vedere Somiglianza del coseno.

Un metodo alternativo per identificare documenti simili consiste nel contare il numero di parole comuni tra documenti. Questo approccio non viene ridimensionato perché è probabile che un'espansione delle dimensioni del documento comporti un maggior numero di parole comuni rilevate anche tra argomenti diversi. Per questo motivo, la somiglianza del coseno può offrire un'alternativa più efficace.

Passaggi successivi