向量存放區用於分析和產生 AI 的許多領域和情況,包括自然語言處理、影片和影像辨識、建議系統和搜尋。
什麼是向量存放區?
向量存放區(也稱為向量資料庫)是儲存和管理向量內嵌的資料庫。 向量內嵌是高維度空間中數據的數學表示法。
在此空間中,每個維度都會對應至數據的一個特徵。 數以萬計的維度可用來代表複雜的數據。 向量在此空間中的位置代表其特性。 單字、片語、整個檔、影像、音訊和其他數據類型都可以向量化。
向量存放區如何運作?
在向量存放區中,您可以使用向量搜尋演算法來編製索引和搜尋嵌入向量。 已知的向量搜尋演算法包括 磁碟近似最近鄰(DiskANN)、階層式可導航小世界(HNSW)和 倒排檔案與平面壓縮(IVFFlat)。
向量搜尋是一種幫助您根據資料特性而非屬性欄位的完全匹配來尋找相似項目的方法。 此技術適用於搜尋類似文字、尋找相關影像、提出建議,甚至偵測異常這類應用程式。
向量搜尋可用來透過內嵌 API 查詢您使用機器學習模型所建立資料的 向量 內嵌。 嵌入式 API 的範例包括 Azure OpenAI 嵌入式 和 Azure 上的 Hugging Face。
向量搜尋會測量資料向量與查詢向量之間的距離。 最接近查詢向量的數據向量是語意上最相似的向量。
當您使用 適用於 PostgreSQL 的 Azure 資料庫作為向量存放區時,您可以將嵌入向量與原始數據一起儲存、編製索引和查詢。 這種方法可消除在個別純向量資料庫中複寫數據的額外成本。
此架構也會將向量內嵌和原始數據保持在一起。 將內嵌和數據保持在一起,更有助於多模式數據作業。 它也會提升數據的一致性、規模和性能。