Share via


Informatie over insluitingen in De Azure OpenAI-service

Een insluiting is een speciale indeling van gegevensweergave die machine learning-modellen en -algoritmen eenvoudig kunnen gebruiken. Het insluiten is een informatiedichte weergave van de semantische betekenis van een stuk tekst. Elke insluiting is een vector van drijvendekommagetallen, zodat de afstand tussen twee insluitingen in de vectorruimte wordt gecorreleerd met een semantische gelijkenis tussen twee invoerwaarden in de oorspronkelijke indeling. Als twee teksten bijvoorbeeld vergelijkbaar zijn, moeten hun vectorweergaven ook vergelijkbaar zijn. Hiermee wordt gezocht naar overeenkomsten tussen power vectoren in Azure Databases, zoals Azure Cosmos DB voor MongoDB vCore , Azure SQL Database of Azure Database for PostgreSQL - Flexible Server.

Modellen insluiten

Verschillende Azure OpenAI-insluitingsmodellen worden gemaakt om goed te zijn voor een bepaalde taak:

  • Overeenkomsten met insluitingen zijn handig bij het vastleggen van semantische overeenkomsten tussen twee of meer stukken tekst.
  • Met insluitingen voor tekstzoekopdrachten kunt u meten of lange documenten relevant zijn voor een korte query.
  • Codezoekopdrachten zijn handig voor het insluiten van codefragmenten en het insluiten van zoekquery's in natuurlijke taal.

Met insluitingen kunt u eenvoudiger machine learning uitvoeren op grote invoer die woorden vertegenwoordigen door de semantische overeenkomsten in een vectorruimte vast te leggen. Daarom kunt u insluitingen gebruiken om te bepalen of twee tekstsegmenten semantisch gerelateerd of vergelijkbaar zijn en een score opgeven om overeenkomsten te beoordelen.

Cosinus-gelijkenis

Azure OpenAI-insluitingen zijn afhankelijk van cosinus-gelijkenis met het berekenen van overeenkomsten tussen documenten en een query.

Vanuit wiskundeperspectief meet cosinus-gelijkenis de cosinus van de hoek tussen twee vectoren die in een multidimensionale ruimte zijn geprojecteerd. Deze meting is gunstig, omdat als twee documenten ver uit elkaar liggen door euclidische afstand vanwege de grootte, ze nog steeds een kleinere hoek tussen deze documenten kunnen hebben en dus een hogere cosinus-gelijkenis. Zie cosinus-gelijkenisvergelijking voor meer informatie over vergelijkingen met cosinus.

Een alternatieve methode voor het identificeren van vergelijkbare documenten is het tellen van het aantal algemene woorden tussen documenten. Deze benadering wordt niet geschaald omdat een uitbreiding van de documentgrootte waarschijnlijk leidt tot een groter aantal veelvoorkomende woorden dat zelfs bij verschillende onderwerpen wordt gedetecteerd. Daarom kan cosinus-gelijkenis een effectiever alternatief bieden.

Volgende stappen