瞭解內嵌

已完成

內嵌是機器學習模型所使用的資料表示類型。 內嵌代表文字片段的語意意義。 您可以將內嵌視覺化為數字陣列,而兩個內嵌之間的數值距離代表其語意相似性。 例如,如果兩個文字相似,則其標記法也應該類似。

內嵌模型

搜尋結果的有效性,與內嵌模型的有效性直接相關。

有特別建立的模型以執行特定的工作。 使用 相似度 搜尋內嵌來擷取文字片段之間的語意相似性; 文字 搜尋內嵌可以查看長型文件與簡短查詢的相關性;使用 [程式碼] 搜尋內嵌來使用內嵌程式碼片段和自然語言搜尋查詢。

使用者會使用如文字內嵌-ada-002 模型來產生文字內嵌,以提供輸入給內嵌模型,將文字轉換成向量。

結果將會是符合搜尋索引中所含查詢的任何文件。 包含向量欄位的內嵌文件必須存在於搜尋索引中,而且相同的模型必須用於編制索引和查詢。

內嵌空間

內嵌空間是向量查詢的核心,其中包含來自相同內嵌模型的所有向量欄位。 它包含使用相同模型填入的所有向量欄位。

在此內嵌空間中,類似的項目會放在一起,而不同的項目則位於更遠的地方。

例如,在內嵌空間中,談論飯店與水上樂園的文件會緊密相連。 而沒有這個設施的飯店將更遠,但同時仍然在飯店的附近。 不同的概念,例如餐廳則會更遠。 實際上,內嵌空間是抽象的,沒有完整定義的可讓人理解的意義,但核心想法保持不變。