Share via


Förstå inbäddningar i Azure OpenAI-tjänsten

En inbäddning är ett särskilt format för datarepresentation som maskininlärningsmodeller och algoritmer enkelt kan använda. Inbäddningen är en informationstät representation av den semantiska innebörden av ett stycke text. Varje inbäddning är en vektor med flyttalsnummer, så att avståndet mellan två inbäddningar i vektorutrymmet korreleras med semantisk likhet mellan två indata i det ursprungliga formatet. Om två texter till exempel är liknande bör deras vektorrepresentationer också vara liknande. Inbäddning av energivektorlikhetssökning i Azure Databases, till exempel Azure Cosmos DB for MongoDB vCore , Azure SQL Database eller Azure Database for PostgreSQL – flexibel server.

Inbäddningsmodeller

Olika Inbäddningsmodeller för Azure OpenAI skapas för att vara bra på en viss uppgift:

  • Likhetsbäddningar är bra på att fånga semantisk likhet mellan två eller flera textstycken.
  • Textsökningsinbäddningar hjälper dig att mäta om långa dokument är relevanta för en kort fråga.
  • Inbäddningar för kodsökning är användbara för att bädda in kodfragment och bädda in sökfrågor på naturligt språk.

Inbäddningar gör det enklare att utföra maskininlärning på stora indata som representerar ord genom att fånga de semantiska likheterna i ett vektorutrymme. Därför kan du använda inbäddningar för att avgöra om två textsegment är semantiskt relaterade eller liknande och ange en poäng för att bedöma likheten.

Cosinélikhet

Azure OpenAI-inbäddningar förlitar sig på cosinnad likhet med beräkningslikhet mellan dokument och en fråga.

Ur ett matematiskt perspektiv mäter cosininelikhet vinkelns cosiné mellan två vektorer som projiceras i ett flerdimensionellt utrymme. Denna mätning är fördelaktig, eftersom om två dokument är långt ifrån varandra av euklidiska avstånd på grund av storlek, kan de fortfarande ha en mindre vinkel mellan dem och därför högre cosinuslikhet. Mer information om cosinska likhetsekvationer finns i Cosinska likheter.

En alternativ metod för att identifiera liknande dokument är att räkna antalet vanliga ord mellan dokument. Den här metoden skalas inte eftersom en ökning av dokumentstorleken sannolikt leder till ett större antal vanliga ord som identifieras även bland olika ämnen. Av den anledningen kan cosinélikhet erbjuda ett effektivare alternativ.

Nästa steg