內嵌是一種特殊格式的資料表示法,可供機器學習模型和演算法輕易使用。 內嵌是文字片段語意的資訊密集表示法。 每個內嵌都是浮點數的向量,因此向量空間中兩個內嵌之間的距離會與原始格式兩個輸入之間的語意相似性相互關聯。 舉例來說,兩段類似文字的向量表示法也應該會相似。 在擷取系統 (例如 Azure AI 搜尋 (建議)) 和 Azure 資料庫 (例如適用於 MongoDB 的 Azure Cosmos DB V 核心、Azure SQL Database 以及適用於 PostgreSQL 的 Azure 資料庫 - 彈性伺服器) 中,內嵌可增進向量相似度搜尋的能力。
內嵌模型
藉由擷取向量空間中的語意相似性,內嵌可讓您更輕鬆地在代表單字的大型輸入上進行機器學習。 因此,您可以使用內嵌來判斷兩個文字區塊是否與語意相關或類似,並提供分數來評估相似性。
餘弦相似性
Azure OpenAI 內嵌通常仰賴於餘弦相似性來計算文件與查詢之間的相似性。
從數學觀點來看,餘弦相似性會測量多維度空間所投影兩個向量之間的餘弦。 此測量是有益的,如果兩份文件因大小而按歐幾里得距離相距很遠,兩者間仍可能會有較小的角度,因而產生較高的餘弦相似性。 如需餘弦相似性方程式的詳細資訊,請參閱餘弦相似性。
識別相似文件的另一種方法是計算文件之間共同單字的數目。 這種方法無法調整,因為擴充文件大小可能導致即使在不同的主題之間也會偵測到更多常見單字字數。 基於這個理由,餘弦相似性可以提供更有效的替代方法。
後續步驟
- 透過我們的內嵌教學課程來深入了解有關使用 Azure OpenAI 和內嵌執行文件搜尋的更多資訊。
- 儲存您的內嵌並使用 Azure Cosmos DB for MongoDB V 核心、Azure Cosmos DB for NoSQL、Azure SQL Database 或適用於 PostgreSQL 的 Azure 資料庫 - 彈性伺服器執行向量 (相似性) 搜尋。
- 在 Microsoft Fabric 的即時智慧中,使用 Eventhouse 作為向量資料庫
- 使用 series_cosine_similarity 函式進行相似性搜尋。