Delen via


Vector embeddings in Azure Cosmos DB

Vectoren, ook wel embeddings of vector embeddings genoemd, zijn wiskundige representaties van gegevens in een hoogdimensionale ruimte. Ze vertegenwoordigen verschillende soorten informatie, tekst, afbeeldingen, audio, een indeling die machine learning-modellen kunnen verwerken. Wanneer een AI-model tekstinvoer ontvangt, wordt de tekst eerst in tokens getokend. Elk token wordt vervolgens geconverteerd naar de bijbehorende insluiting. Dit conversieproces kan worden uitgevoerd met behulp van een model voor het genereren van insluitingen, zoals Azure OpenAI Embeddings of Hugging Face in Azure. Het model verwerkt deze insluitingen via meerdere lagen, waarbij complexe patronen en relaties in de tekst worden vastgelegd. De insluitingen van uitvoer kunnen vervolgens zo nodig worden geconverteerd naar tokens, waardoor leesbare tekst wordt gegenereerd.

Vectoren

Elke insluiting is een vector van drijvendekommagetallen, zodat de afstand tussen twee insluitingen in de vectorruimte wordt gecorreleerd met een semantische gelijkenis tussen twee invoerwaarden in de oorspronkelijke indeling. Als twee teksten bijvoorbeeld vergelijkbaar zijn, moeten hun vectorweergaven ook vergelijkbaar zijn. Deze high-dimensionale representaties leggen semantische betekenis vast, waardoor het eenvoudiger is om taken zoals zoeken, clusteren en classificeren uit te voeren.

Hier volgen twee voorbeelden van teksten die worden weergegeven als vectoren:

Schermopname van vectorvoorbeelden in Azure Cosmos DB.

Afbeeldingsbron: OpenAI

Afmetingen en nabijheid

Elk vak met drijvendekommagetalnummers komt overeen met een dimensie en elke dimensie komt overeen met een functie of kenmerk die al dan niet begrijpelijk is voor mensen. Tekst insluiten in grote talen heeft meestal een paar duizend dimensies, terwijl complexere gegevensmodellen mogelijk tienduizenden dimensies hebben.

Tussen de twee vectoren in het bovenstaande voorbeeld zijn sommige dimensies vergelijkbaar, terwijl andere dimensies verschillen, wat te wijten is aan de overeenkomsten en verschillen in de betekenis van de twee zinnen.

In deze afbeelding ziet u de ruimtelijke nabijheid van vectoren die vergelijkbaar zijn, contrasterende vectoren die drastisch verschillen:

Schermopname van vector closeness in Azure Cosmos DB.

Afbeeldingsbron: OpenAI

Voorbeelden

In deze interactieve visualisatie ziet u meer voorbeelden waarmee gegevens worden getransformeerd in een driedimensionale ruimte.