Azure AI 搜尋服務 中的多模態搜尋

多模態搜尋指的是能夠在多種內容類型中擷取、理解及檢索資訊的能力,包括文字、圖片、影片和音訊。 在 Azure AI 搜尋服務 中,多模態搜尋原生支援擷取包含文字與圖片的文件及其內容,讓您能執行結合兩種模式的搜尋。

建立穩健的多模態管線通常包括:

  1. 從文件中擷取內嵌圖片和頁面文字。

  2. 用自然語言描述影像。

  3. 將文字和圖片嵌入共享的向量空間。

  4. 將影像儲存以備日後作為註解使用。

多模態搜尋還需要保留文件中資訊的順序,並執行結合全文搜尋向量搜尋語意排序混合查詢

實務上,使用多模態搜尋的應用程式可以回答像是「HR 表格核准流程是什麼?」這類問題,即使該流程的唯一權威描述存在於 PDF 檔案中嵌入的圖表中。

傳統上,多模態搜尋需要獨立的文字與影像處理系統,且常需開發者自訂程式碼及底層設定。 維護這些系統的成本、複雜度與努力都較高。

Azure AI 搜尋服務 透過將圖片整合進與文字相同的檢索流程,來解決這些挑戰。 透過單一多模態流程,你可以簡化設定與解鎖包含在圖表、截圖、資訊圖表、掃描表單及其他複雜視覺圖像中的資訊。

多模態搜尋非常適合 檢索增強生成(RAG) 情境。 透過解讀影像的結構邏輯,多模態搜尋能降低 RAG 應用程式或 AI 代理遺漏重要視覺細節的可能性。 它也為使用者提供詳細的答案,無論來源為何,都能追溯到他們的原始來源。

多模態搜尋是如何運作的?

為了簡化多模態管線的建立,Azure AI 搜尋服務 在 Azure 入口網站提供Import data精靈功能。 精靈協助你配置資料來源、定義擷取與豐富設定,並產生包含文字、嵌入影像參考及向量嵌入的多模態索引。 欲了解更多資訊,請參閱Azure入口網站 的 快速入門:多模態搜尋。

精靈依以下步驟建立多模態管線:

  1. 摘錄內容: 可選擇 文件擷取技能文件排版技能 ,取得頁面文字、內嵌圖片及結構性元資料。 每個技能都提供不同的元資料擷取、表格處理及檔案格式支援。 詳細比較請參見 多模態內容擷取選項

  2. 分段文字:Text Split 技能將擷取的文字拆分成可管理的區塊,供剩餘管線使用,例如嵌入技能。

  3. 產生圖片描述:GenAI 提示技能能將圖片進行口述,產生簡潔的自然語言描述,並利用大型語言模型(LLM)進行文字搜尋與嵌入。

  4. 產生嵌入: 嵌入技能能產生文字與影像的向量表示,實現相似性與混合檢索。 你可以原生呼叫 Azure OpenAIMicrosoft Foundry,或 Azure Vision 嵌入模型。

    或者,您也可以跳過影像語音化,直接透過 AML 技能Azure Vision 多模態嵌入技能,直接將擷取的文字與影像傳送到多模態嵌入模型。 欲了解更多資訊,請參閱 多模態內容嵌入選項

  5. 儲存擷取的影像:知識庫包含可直接回傳給用戶端應用程式的擷取影像。 使用精靈時,影像的位置會直接儲存在多模態索引中,方便查詢時檢索。

提示

想查看多模態搜尋的運作,請將你精靈建立的索引插入 多模態 RAG 範例應用程式。 範例展示了 RAG 應用程式如何使用多模態索引,並在回應中呈現文字引用及相關圖片片段。 範例同時展示了基於程式碼的資料攝取與索引過程。

多模態內容擷取的選項

多模態流程從將每個原始文件破解成文字、內嵌影像及相關元資料塊開始。 在此階段,Azure AI 搜尋服務 提供三項內建技能:

特徵 文件擷取技能 文件排版技能 Azure 內容理解技能
文字位置元資料擷取(頁面與邊界多邊形) 是的 是的
影像位置元資料擷取(頁面與邊界多邊形) 是的 是的 是的
表格擷取與保存 是的(包含跨頁表格)
跨頁語意單元 不適用 僅限單頁 是的(跨頁)
基於檔案類型的位置元資料擷取 只提供 PDF。 根據 Azure Foundry Tools 文件智慧版面模型,支援多種檔案類型。 支援多種檔案格式,包括 PDF、DOCX、XLSX 及 PPTX。
資料擷取的計費 影像擷取依據Azure AI 搜尋服務價格計費。 照文件版面定價計費。 依據Azure 內容理解定價計費。
內建分塊功能 ** 否(使用文字分割功能) 是的(根據段落邊界) 是的(語意分塊)
推薦情境 快速原型製作或生產流程,不需要精確位置或詳細佈局資訊。 RAG 管線與代理人工作流程,需要精確的頁碼、頁面上重點或客戶端應用程式的圖表覆蓋。 進階文件分析需要跨頁表格擷取、語意分塊,或跨文件格式(PDF、DOCX、XLSX、PPTX)一致處理。

多模態內容嵌入的選項

在 Azure AI 搜尋服務 中,從影像擷取知識可透過兩種互補路徑:影像語言化或直接嵌入。 了解這些差異有助於你將成本、延遲和回答品質與應用需求對齊。

影像描述後進行文字嵌入

透過此方法,GenAI 提示技能 在資料匯入時會呼叫大型語言模型,為每張擷取的圖片建立簡明的自然語言描述,例如「從經理批准開始的五步驟人力資源存取工作流程」。描述以文字形式儲存,並嵌入於周圍的文件文字中,您可以透過呼叫 Azure OpenAIMicrosoft FoundryAzure Vision 嵌入模型來進行向量化。

由於影像現在以語言表達,Azure AI 搜尋服務 可以:

  • 解讀圖中顯示的關係與實體。

  • 提供現成的字幕,讓語言模型能在回應中逐字引用。

  • 提供RAG應用程式或AI代理情境所需的相關摘要,並附有紮實資料。

增加的語意深度意味著每張圖片都要呼叫一個大型語言模型(LLM),索引時間則略有增加。

直接多模態嵌入

第二個選項是將文件擷取的影像與文字傳送至多模態嵌入模型,該模型能在同一向量空間內產生向量表示。 設定非常簡單,索引時不需要使用大型語言模型(LLM)。 直接嵌入非常適合視覺相似性和「幫我找到看起來像這個的東西」的情境。

由於該表示純粹是數學上的,無法傳達為何兩張圖片相關,也無法提供LLM可用的引用或詳細說明的上下文。

結合兩種方法

許多解決方案都需要兩種編碼路徑。 圖表、流程圖及其他包含豐富說明的視覺資料被轉為口述,使語意資訊可用於 RAG 和 AI 代理的賦能。 截圖、產品照片或藝術作品直接嵌入,以提升相似度的搜尋效率。 你可以自訂 Azure AI 搜尋服務 索引與索引工具的技能組流程,讓它能同時儲存並並列取得兩組向量。

查詢多模態內容的選項

如果你的多模態流程是由 GenAI 提示技能驅動,你可以在搜尋索引中同時執行純文字與文字圖片的 混合查詢 。 你也可以使用篩選器將搜尋結果縮小到特定內容類型,例如僅文字或僅圖片。

雖然 GenAI 提示技能支援透過混合搜尋進行文字轉向量查詢,但不支援 影像轉向量查詢。 只有多模態嵌入模型提供在查詢時將影像轉換為向量的向量器。

若要使用影像作為多模態索引的查詢輸入,必須使用 AML 技能Azure Vision 多模態嵌入技能,並搭配等效的向量器。 欲了解更多資訊,請參閱 「在搜尋索引中配置向量器」。

教學與範例

為了幫助你開始使用 Azure AI 搜尋服務 進行多模態搜尋,這裡有一系列內容示範如何利用 Azure 功能建立並優化多模態索引。

內容 描述
快速入門:Azure入口網站中的多模態搜尋 在 Azure 入口網站中,使用精靈和搜尋總管建立並測試多模態索引。
多模態教學 擷取文字與圖片、區塊資料,並將區塊向量化以進行相似性搜尋及其他檢索模式。
範例應用程式:多模態 RAG GitHub庫 一款端對端、程式碼就緒的 RAG 應用程式,具備多模態功能,能同時呈現文字片段與圖片註解。 非常適合啟動企業副駕駛。