Az Azure OpenAI szolgáltatásba történő beágyazások ismertetése
A beágyazás az adatmegjelenítés speciális formátuma, amelyet a gépi tanulási modellek és algoritmusok könnyen használhatnak. A beágyazás egy szöveg szemantikai jelentésének információdús ábrázolása. Minden beágyazás lebegőpontos számok vektora, így a két beágyazás közötti távolság a vektortérben korrelál két bemenet szemantikai hasonlóságával az eredeti formátumban. Ha például két szöveg hasonló, akkor a vektoros ábrázolásuknak is hasonlónak kell lennie. A power vector similarity search beágyazása azure-adatbázisokba, például Az Azure Cosmos DB for MongoDB virtuális mag , az Azure SQL Database vagy az Azure Database for PostgreSQL – rugalmas kiszolgáló.
Modellek beágyazása
Különböző Azure OpenAI-beágyazási modellek jönnek létre, hogy egy adott feladathoz megfelelőek legyenek:
- A hasonlósági beágyazások jóak két vagy több szövegrész szemantikai hasonlóságának rögzítésére.
- A szöveges keresési beágyazások segítenek felmérni, hogy a hosszú dokumentumok relevánsak-e egy rövid lekérdezéshez.
- A kódkeresési beágyazások a kódrészletek beágyazásához és a természetes nyelvű keresési lekérdezések beágyazásához hasznosak.
A beágyazások megkönnyítik a gépi tanulást a szavakat képviselő nagy bemeneteken a szemantikai hasonlóságok vektortérbeli rögzítésével. Ezért beágyazásokkal megállapíthatja, hogy két szövegrész szemantikailag összefüggő vagy hasonló-e, és egy pontszámot adhat meg a hasonlóság felméréséhez.
Koszinusz hasonlóság
Az Azure OpenAI-beágyazások a dokumentumok és a lekérdezések közötti számítási hasonlóság koszinuszas hasonlóságán alapulnak.
Matematikai szempontból a koszinusz hasonlósága a többdimenziós térbe vetített két vektor közötti szög koszinuszát méri. Ez a mérés azért előnyös, mert ha két dokumentum távol esik egymástól az euklideszi távolságtól a méret miatt, akkor is kisebb szögben lehetnek közöttük, és így nagyobb koszinuszas hasonlóságuk is lehet. A koszinusz-hasonlósági egyenletekről további információt a koszinusz-hasonlóság című témakörben talál.
A hasonló dokumentumok azonosításának másik módszere a dokumentumok közötti gyakori szavak számának megszámlálása. Ez a megközelítés nem skálázható, mivel a dokumentumméret növekedése valószínűleg több gyakori szót is észlel, még a különálló témakörök között is. Ezért a koszinuszas hasonlóság hatékonyabb alternatívát kínálhat.
Következő lépések
- További információ az Azure OpenAI és a beágyazások használatáról a dokumentumkeresés végrehajtásához a beágyazási oktatóanyagunkkal.
- Tárolja a beágyazásokat, és végezzen vektoros (hasonlósági) keresést az Azure Cosmos DB for MongoDB virtuális mag, az Azure Cosmos DB for NoSQL, az Azure SQL Database vagy a rugalmas Azure Database for PostgreSQL-kiszolgáló használatával.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: