Omówienie osadzania w usłudze Azure OpenAI w modelach usługi Azure AI Foundry

2025-07-02

Osadzanie to specjalny format reprezentacji danych, z którego mogą łatwo korzystać modele i algorytmy uczenia maszynowego. Osadzanie to informacyjnie gęsta reprezentacja semantycznego znaczenia fragmentu tekstu. Każde osadzanie jest wektorem liczb zmiennoprzecinkowych, tak aby odległość między dwoma osadzaniami w przestrzeni wektorowej została skorelowana z podobieństwem semantycznym między dwoma danymi wejściowymi w oryginalnym formacie. Jeśli na przykład dwa teksty są podobne, ich reprezentacje wektorowe również powinny być podobne. Osadzenie napędza wyszukiwanie podobieństwa wektorów w systemach wyszukiwania takich jak Azure AI Search (zalecane) oraz w bazach danych Azure, takich jak Azure Cosmos DB dla MongoDB vCore, Azure SQL Database i Azure Database for PostgreSQL - Flexible Server.

Osadzanie modeli

Osadzanie ułatwia uczenie maszynowe na dużych danych wejściowych reprezentujących wyrazy, przechwytując semantyczne podobieństwa w przestrzeni wektorowej. Dlatego można użyć wektorów osadzeń, aby określić, czy dwa fragmenty tekstu są semantycznie powiązane lub podobne, oraz podać wartość oceniającą ich podobieństwo.

Podobieństwo cosinusowe

Osadzanie w usłudze Azure OpenAI często polega na podobieństwie cosinus do obliczania podobieństwa między dokumentami a zapytaniem.

Z perspektywy matematycznej podobieństwo cosinus mierzy cosinus kąta między dwoma wektorami przewidywanymi w przestrzeni wielowymiarowej. Ta miara jest korzystna, ponieważ jeśli dwa dokumenty są dalekie według odległości euklidesowej z powodu rozmiaru, nadal mogą mieć mniejszy kąt między nimi, a tym samym wyższe podobieństwo cosinusowe. Aby uzyskać więcej informacji na temat równań podobieństwa cosinusowego, zobacz Podobieństwo cosinusowe.

Alternatywną metodą identyfikowania podobnych dokumentów jest zliczanie liczby typowych słów między dokumentami. Takie podejście nie jest skalowane, ponieważ rozszerzenie rozmiaru dokumentu może prowadzić do większej liczby typowych słów wykrytych nawet wśród różnych tematów. Z tego powodu podobieństwo cosinusowe może stanowić bardziej skuteczną alternatywę.

Dalsze kroki

Dowiedz się więcej na temat korzystania z usługi Azure OpenAI i embeddingów, aby przeprowadzać wyszukiwanie dokumentów za pomocą naszego samouczka dotyczącego embeddingów.
Przechowuj embeddingi i przeprowadzaj wyszukiwanie podobieństwa wektorowego, wykorzystując usługi Azure Cosmos DB for MongoDB vCore, Azure Cosmos DB for NoSQL, Azure SQL Database lub Azure Database for PostgreSQL — serwer elastyczny.
Używanie usługi Eventhouse w funkcji analizy w czasie rzeczywistym w usłudze Microsoft Fabric jako bazy danych wektorów
- Użyj funkcji series_cosine_similarity do wyszukiwania podobieństwa.

Udostępnij za pośrednictwem

Omówienie osadzania w usłudze Azure OpenAI w modelach usługi Azure AI Foundry

Osadzanie modeli

Podobieństwo cosinusowe

Dalsze kroki

Opinia

Dodatkowe zasoby