多模態搜尋指的是能夠在多種內容類型中擷取、理解及檢索資訊的能力,包括文字、圖片、影片和音訊。 在 Azure AI 搜尋服務 中,多模態搜尋原生支援擷取包含文字與圖片的文件及其內容,讓您能執行結合兩種模式的搜尋。
建立穩健的多模態管線通常包括:
從文件中擷取內嵌圖片和頁面文字。
用自然語言描述影像。
將文字和圖片嵌入共享的向量空間。
將影像儲存以備日後作為註解使用。
多模態搜尋還需要保留文件中資訊的順序,並執行結合全文搜尋、向量搜尋與語意排序的混合查詢。
實務上,使用多模態搜尋的應用程式可以回答像是「HR 表格核准流程是什麼?」這類問題,即使該流程的唯一權威描述存在於 PDF 檔案中嵌入的圖表中。
為什麼要使用多模態搜尋?
傳統上,多模態搜尋需要獨立的文字與影像處理系統,且常需開發者自訂程式碼及底層設定。 維護這些系統的成本、複雜度與努力都較高。
Azure AI 搜尋服務 透過將圖片整合進與文字相同的檢索流程,來解決這些挑戰。 透過單一多模態流程,你可以簡化設定與解鎖包含在圖表、截圖、資訊圖表、掃描表單及其他複雜視覺圖像中的資訊。
多模態搜尋非常適合 檢索增強生成(RAG) 情境。 透過解讀影像的結構邏輯,多模態搜尋能降低 RAG 應用程式或 AI 代理遺漏重要視覺細節的可能性。 它也為使用者提供詳細的答案,無論來源為何,都能追溯到他們的原始來源。
多模態搜尋是如何運作的?
為了簡化多模態管線的建立,Azure AI 搜尋服務 在 Azure 入口網站提供Import data精靈功能。 精靈協助你配置資料來源、定義擷取與豐富設定,並產生包含文字、嵌入影像參考及向量嵌入的多模態索引。 欲了解更多資訊,請參閱Azure入口網站 的
精靈依以下步驟建立多模態管線:
摘錄內容: 可選擇 文件擷取技能 或 文件排版技能 ,取得頁面文字、內嵌圖片及結構性元資料。 每個技能都提供不同的元資料擷取、表格處理及檔案格式支援。 詳細比較請參見 多模態內容擷取選項。
分段文字:Text Split 技能將擷取的文字拆分成可管理的區塊,供剩餘管線使用,例如嵌入技能。
產生圖片描述:GenAI 提示技能能將圖片進行口述,產生簡潔的自然語言描述,並利用大型語言模型(LLM)進行文字搜尋與嵌入。
產生嵌入: 嵌入技能能產生文字與影像的向量表示,實現相似性與混合檢索。 你可以原生呼叫 Azure OpenAI、Microsoft Foundry,或 Azure Vision 嵌入模型。
或者,您也可以跳過影像語音化,直接透過
AML 技能 或 Azure Vision 多模態嵌入技能 ,直接將擷取的文字與影像傳送到多模態嵌入模型。 欲了解更多資訊,請參閱 多模態內容嵌入選項。儲存擷取的影像:知識庫包含可直接回傳給用戶端應用程式的擷取影像。 使用精靈時,影像的位置會直接儲存在多模態索引中,方便查詢時檢索。
提示
想查看多模態搜尋的運作,請將你精靈建立的索引插入 多模態 RAG 範例應用程式。 範例展示了 RAG 應用程式如何使用多模態索引,並在回應中呈現文字引用及相關圖片片段。 範例同時展示了基於程式碼的資料攝取與索引過程。
多模態內容擷取的選項
多模態流程從將每個原始文件破解成文字、內嵌影像及相關元資料塊開始。 在此階段,Azure AI 搜尋服務 提供三項內建技能:
| 特徵 | 文件擷取技能 | 文件排版技能 | Azure 內容理解技能 |
|---|---|---|---|
| 文字位置元資料擷取(頁面與邊界多邊形) | 不 | 是的 | 是的 |
| 影像位置元資料擷取(頁面與邊界多邊形) | 是的 | 是的 | 是的 |
| 表格擷取與保存 | 不 | 不 | 是的(包含跨頁表格) |
| 跨頁語意單元 | 不適用 | 僅限單頁 | 是的(跨頁) |
| 基於檔案類型的位置元資料擷取 | 只提供 PDF。 | 根據 Azure Foundry Tools 文件智慧版面模型,支援多種檔案類型。 | 支援多種檔案格式,包括 PDF、DOCX、XLSX 及 PPTX。 |
| 資料擷取的計費 | 影像擷取依據Azure AI 搜尋服務價格計費。 | 依 照文件版面定價計費。 | 依據Azure 內容理解定價計費。 |
| 內建分塊功能 | ** 否(使用文字分割功能) | 是的(根據段落邊界) | 是的(語意分塊) |
| 推薦情境 | 快速原型製作或生產流程,不需要精確位置或詳細佈局資訊。 | RAG 管線與代理人工作流程,需要精確的頁碼、頁面上重點或客戶端應用程式的圖表覆蓋。 | 進階文件分析需要跨頁表格擷取、語意分塊,或跨文件格式(PDF、DOCX、XLSX、PPTX)一致處理。 |
多模態內容嵌入的選項
在 Azure AI 搜尋服務 中,從影像擷取知識可透過兩種互補路徑:影像語言化或直接嵌入。 了解這些差異有助於你將成本、延遲和回答品質與應用需求對齊。
影像描述後進行文字嵌入
透過此方法,GenAI 提示技能 在資料匯入時會呼叫大型語言模型,為每張擷取的圖片建立簡明的自然語言描述,例如「從經理批准開始的五步驟人力資源存取工作流程」。描述以文字形式儲存,並嵌入於周圍的文件文字中,您可以透過呼叫 Azure OpenAI、Microsoft Foundry 或 Azure Vision 嵌入模型來進行向量化。
由於影像現在以語言表達,Azure AI 搜尋服務 可以:
解讀圖中顯示的關係與實體。
提供現成的字幕,讓語言模型能在回應中逐字引用。
提供RAG應用程式或AI代理情境所需的相關摘要,並附有紮實資料。
增加的語意深度意味著每張圖片都要呼叫一個大型語言模型(LLM),索引時間則略有增加。
直接多模態嵌入
第二個選項是將文件擷取的影像與文字傳送至多模態嵌入模型,該模型能在同一向量空間內產生向量表示。 設定非常簡單,索引時不需要使用大型語言模型(LLM)。 直接嵌入非常適合視覺相似性和「幫我找到看起來像這個的東西」的情境。
由於該表示純粹是數學上的,無法傳達為何兩張圖片相關,也無法提供LLM可用的引用或詳細說明的上下文。
結合兩種方法
許多解決方案都需要兩種編碼路徑。 圖表、流程圖及其他包含豐富說明的視覺資料被轉為口述,使語意資訊可用於 RAG 和 AI 代理的賦能。 截圖、產品照片或藝術作品直接嵌入,以提升相似度的搜尋效率。 你可以自訂 Azure AI 搜尋服務 索引與索引工具的技能組流程,讓它能同時儲存並並列取得兩組向量。
查詢多模態內容的選項
如果你的多模態流程是由 GenAI 提示技能驅動,你可以在搜尋索引中同時執行純文字與文字圖片的 混合查詢 。 你也可以使用篩選器將搜尋結果縮小到特定內容類型,例如僅文字或僅圖片。
雖然 GenAI 提示技能支援透過混合搜尋進行文字轉向量查詢,但不支援 影像轉向量查詢。 只有多模態嵌入模型提供在查詢時將影像轉換為向量的向量器。
若要使用影像作為多模態索引的查詢輸入,必須使用 AML 技能 或 Azure Vision 多模態嵌入技能,並搭配等效的向量器。 欲了解更多資訊,請參閱 「在搜尋索引中配置向量器」。
教學與範例
為了幫助你開始使用 Azure AI 搜尋服務 進行多模態搜尋,這裡有一系列內容示範如何利用 Azure 功能建立並優化多模態索引。
| 內容 | 描述 |
|---|---|
| 快速入門:Azure入口網站中的多模態搜尋 | 在 Azure 入口網站中,使用精靈和搜尋總管建立並測試多模態索引。 |
| 多模態教學 | 擷取文字與圖片、區塊資料,並將區塊向量化以進行相似性搜尋及其他檢索模式。 |
| 範例應用程式:多模態 RAG GitHub庫 | 一款端對端、程式碼就緒的 RAG 應用程式,具備多模態功能,能同時呈現文字片段與圖片註解。 非常適合啟動企業副駕駛。 |