Az Azure OpenAI szolgáltatásba történő beágyazások ismertetése

Cikk
03/06/2024

A beágyazás az adatmegjelenítés speciális formátuma, amelyet a gépi tanulási modellek és algoritmusok könnyen használhatnak. A beágyazás egy szöveg szemantikai jelentésének információdús ábrázolása. Minden beágyazás lebegőpontos számok vektora, így a két beágyazás közötti távolság a vektortérben korrelál két bemenet szemantikai hasonlóságával az eredeti formátumban. Ha például két szöveg hasonló, akkor a vektoros ábrázolásuknak is hasonlónak kell lennie. A power vector similarity search beágyazása azure-adatbázisokba, például Az Azure Cosmos DB for MongoDB virtuális mag , az Azure SQL Database vagy az Azure Database for PostgreSQL – rugalmas kiszolgáló.

Modellek beágyazása

Különböző Azure OpenAI-beágyazási modellek jönnek létre, hogy egy adott feladathoz megfelelőek legyenek:

A hasonlósági beágyazások jóak két vagy több szövegrész szemantikai hasonlóságának rögzítésére.
A szöveges keresési beágyazások segítenek felmérni, hogy a hosszú dokumentumok relevánsak-e egy rövid lekérdezéshez.
A kódkeresési beágyazások a kódrészletek beágyazásához és a természetes nyelvű keresési lekérdezések beágyazásához hasznosak.

A beágyazások megkönnyítik a gépi tanulást a szavakat képviselő nagy bemeneteken a szemantikai hasonlóságok vektortérbeli rögzítésével. Ezért beágyazásokkal megállapíthatja, hogy két szövegrész szemantikailag összefüggő vagy hasonló-e, és egy pontszámot adhat meg a hasonlóság felméréséhez.

Koszinusz hasonlóság

Az Azure OpenAI-beágyazások a dokumentumok és a lekérdezések közötti számítási hasonlóság koszinuszas hasonlóságán alapulnak.

Matematikai szempontból a koszinusz hasonlósága a többdimenziós térbe vetített két vektor közötti szög koszinuszát méri. Ez a mérés azért előnyös, mert ha két dokumentum távol esik egymástól az euklideszi távolságtól a méret miatt, akkor is kisebb szögben lehetnek közöttük, és így nagyobb koszinuszas hasonlóságuk is lehet. A koszinusz-hasonlósági egyenletekről további információt a koszinusz-hasonlóság című témakörben talál.

A hasonló dokumentumok azonosításának másik módszere a dokumentumok közötti gyakori szavak számának megszámlálása. Ez a megközelítés nem skálázható, mivel a dokumentumméret növekedése valószínűleg több gyakori szót is észlel, még a különálló témakörök között is. Ezért a koszinuszas hasonlóság hatékonyabb alternatívát kínálhat.

Következő lépések

További információ az Azure OpenAI és a beágyazások használatáról a dokumentumkeresés végrehajtásához a beágyazási oktatóanyagunkkal.
Tárolja a beágyazásokat, és végezzen vektoros (hasonlósági) keresést az Azure Cosmos DB for MongoDB virtuális mag, az Azure Cosmos DB for NoSQL , az Azure SQL Database vagy a rugalmas Azure Database for PostgreSQL-kiszolgáló használatával.

Megosztás a következőn keresztül:

Az Azure OpenAI szolgáltatásba történő beágyazások ismertetése

Modellek beágyazása

Koszinusz hasonlóság

Következő lépések

Visszajelzés

Visszajelzés

További források