瞭解 Azure OpenAI 服務中的內嵌

內嵌是機器學習模型和演算法可以輕鬆地使用的特殊資料表示格式。 內嵌是文字片段語意意義的資訊密集標記法。 每個內嵌都是浮點數的向量,因此向量空間中兩個內嵌之間的距離會與原始格式兩個輸入之間的語意相似性相互關聯。 例如,如果兩個文字相似,則其向量表示也應該類似。 在 Azure 資料庫中內嵌電源向量相似度搜尋,例如 適用于 MongoDB 的 Azure Cosmos DB 虛擬核心 適用於 PostgreSQL 的 Azure 資料庫 - 彈性伺服器

內嵌模型

系統會建立不同的 Azure OpenAI 內嵌模型,以適合特定工作:

  • 相似性內嵌精於擷取兩個或以上文字片段之間的語意相似度。
  • 文字搜尋內嵌有助於測量長文件是否與短查詢相關。
  • 程式碼搜尋內嵌適用於內嵌程式碼片段和內嵌自然語言搜尋查詢。

藉由擷取向量空間中的語意相似性,內嵌可讓您更輕鬆地在代表單字的大型輸入上進行機器學習。 因此,您可以使用內嵌來判斷兩個文字區塊是否與語意相關或類似,並提供分數來評估相似度。

餘弦相似性

Azure OpenAI 內嵌仰賴於餘弦相似性來計算文件與查詢之間的相似性。

從數學的觀點來看,余弦相似性測量了兩個向量在多維度空間中投射的角度余弦值。 這項測量是有益的,因為如果兩份檔因大小而與歐幾裡德距離相距甚遠,它們之間可能仍有較小的角度,因此余弦相似度較高。 如需余弦相似度方程式的詳細資訊,請參閱 余弦相似度

識別類似文件的替代方法便是計算文件之間的常見單字字數。 這種方法不會調整,因為檔案大小擴充可能會導致即使在不同主題之間偵測到的常用字數也較多。 基於這個理由,餘弦相似性可以提供更有效率的替代方案。

下一步