瞭解 Azure OpenAI 服務中的內嵌
內嵌是一種特殊格式的資料表示法,可供機器學習模型和演算法輕易使用。 內嵌是文字片段語意的資訊密集表示法。 每個內嵌都是浮點數的向量,因此向量空間中兩個內嵌之間的距離會與原始格式兩個輸入之間的語意相似性相互關聯。 舉例來說,兩段類似文字的向量表示法也應該會相似。 將電源向量相似度搜尋內嵌在擷取系統中,例如 Azure AI 搜尋(建議)和 Azure 資料庫中,例如適用於 MongoDB 虛擬核心的 Azure Cosmos DB、Azure SQL 資料庫 和 適用於 PostgreSQL 的 Azure 資料庫 - 彈性伺服器。
內嵌模型
藉由擷取向量空間中的語意相似性,內嵌可讓您更輕鬆地在代表單字的大型輸入上進行機器學習。 因此,您可以使用內嵌來判斷兩個文字區塊是否與語意相關或類似,並提供分數來評估相似性。
餘弦相似性
Azure OpenAI 內嵌通常依賴餘弦相似度來計算文件與查詢之間的相似度。
從數學觀點來看,餘弦相似性會測量多維度空間所投影兩個向量之間的餘弦。 此測量是有益的,如果兩份文件因大小而按歐幾里得距離相距很遠,兩者間仍可能會有較小的角度,因而產生較高的餘弦相似性。 如需餘弦相似性方程式的詳細資訊,請參閱餘弦相似性。
識別類似文件的替代方法便是計算文件之間的常見單字字數。 這種方法無法調整,因為擴充文件大小可能導致即使在不同的主題之間也會偵測到更多常見單字字數。 基於這個理由,餘弦相似性可以提供更有效率的替代方案。
下一步
- 如需深入了解如何使用 Azure OpenAI 和內嵌來執行文件搜尋,請參閱我們的內嵌教學課程。
- 儲存您的內嵌並使用 Azure Cosmos DB for MongoDB V 核心、Azure Cosmos DB for NoSQL、Azure SQL Database 或適用於 PostgreSQL 的 Azure 資料庫 - 彈性伺服器執行向量 (相似性) 搜尋。
- 在 Microsoft Fabric 的即時智慧中,使用 Eventhouse 作為向量資料庫
- 使用 series_cosine_similarity 函式進行相似性搜尋。