Azure AI 搜尋服務中的多模態搜尋

多模態搜尋指的是能夠在多種內容類型中擷取、理解及檢索資訊的能力，包括文字、圖片、影片和音訊。在 Azure AI 搜尋服務中，多模態搜尋原生支援擷取包含文字與圖片的文件及其內容，讓您能執行結合兩種模式的搜尋。

建立穩健的多模態管線通常包括：

從文件中擷取內嵌圖片和頁面文字。
用自然語言描述影像。
將文字和圖片嵌入共享的向量空間。
將影像儲存以備日後作為註解使用。

多模態搜尋還需要保留文件中資訊的順序，並執行結合全文搜尋、向量搜尋與語意排序的混合查詢。

實務上，使用多模態搜尋的應用程式可以回答像是「HR 表格核准流程是什麼？」這類問題，即使該流程的唯一權威描述存在於 PDF 檔案中嵌入的圖表中。

為什麼要使用多模態搜尋？

傳統上，多模態搜尋需要獨立的文字與影像處理系統，且常需開發者自訂程式碼及底層設定。維護這些系統的成本、複雜度與努力都較高。

Azure AI 搜尋服務透過將圖片整合進與文字相同的檢索流程，來解決這些挑戰。透過單一多模態流程，你可以簡化設定與解鎖包含在圖表、截圖、資訊圖表、掃描表單及其他複雜視覺圖像中的資訊。

多模態搜尋非常適合檢索增強生成（RAG）情境。透過解讀影像的結構邏輯，多模態搜尋能降低 RAG 應用程式或 AI 代理遺漏重要視覺細節的可能性。它也為使用者提供詳細的答案，無論來源為何，都能追溯到他們的原始來源。

多模態搜尋是如何運作的？

為了簡化多模態管線的建立，Azure AI 搜尋服務在 Azure 入口網站提供Import data精靈功能。精靈協助你配置資料來源、定義擷取與豐富設定，並產生包含文字、嵌入影像參考及向量嵌入的多模態索引。欲了解更多資訊，請參閱Azure入口網站的快速入門：多模態搜尋。

精靈依以下步驟建立多模態管線：

摘錄內容： 可選擇文件擷取技能或文件排版技能，取得頁面文字、內嵌圖片及結構性元資料。每個技能都提供不同的元資料擷取、表格處理及檔案格式支援。詳細比較請參見多模態內容擷取選項。
分段文字：Text Split 技能將擷取的文字拆分成可管理的區塊，供剩餘管線使用，例如嵌入技能。
產生圖片描述：GenAI 提示技能能將圖片進行口述，產生簡潔的自然語言描述，並利用大型語言模型（LLM）進行文字搜尋與嵌入。
產生嵌入： 嵌入技能能產生文字與影像的向量表示，實現相似性與混合檢索。你可以原生呼叫 Azure OpenAI、Microsoft Foundry，或 Azure Vision 嵌入模型。

或者，您也可以跳過影像語音化，直接透過 AML 技能或 Azure Vision 多模態嵌入技能，直接將擷取的文字與影像傳送到多模態嵌入模型。欲了解更多資訊，請參閱多模態內容嵌入選項。
儲存擷取的影像：知識庫包含可直接回傳給用戶端應用程式的擷取影像。使用精靈時，影像的位置會直接儲存在多模態索引中，方便查詢時檢索。

提示

想查看多模態搜尋的運作，請將你精靈建立的索引插入多模態 RAG 範例應用程式。範例展示了 RAG 應用程式如何使用多模態索引，並在回應中呈現文字引用及相關圖片片段。範例同時展示了基於程式碼的資料攝取與索引過程。

多模態內容擷取的選項

多模態流程從將每個原始文件破解成文字、內嵌影像及相關元資料塊開始。在此階段，Azure AI 搜尋服務提供三項內建技能：

特徵	文件擷取技能	文件排版技能	Azure 內容理解技能
文字位置元資料擷取（頁面與邊界多邊形）	不	是的	是的
影像位置元資料擷取（頁面與邊界多邊形）	是的	是的	是的
表格擷取與保存	不	不	是的（包含跨頁表格）
跨頁語意單元	不適用	僅限單頁	是的（跨頁）
基於檔案類型的位置元資料擷取	只提供 PDF。	根據 Azure Foundry Tools 文件智慧版面模型，支援多種檔案類型。	支援多種檔案格式，包括 PDF、DOCX、XLSX 及 PPTX。
資料擷取的計費	影像擷取依據Azure AI 搜尋服務價格計費。	依照文件版面定價計費。	依據Azure 內容理解定價計費。
內建分塊功能	** 否（使用文字分割功能）	是的（根據段落邊界）	是的（語意分塊）
推薦情境	快速原型製作或生產流程，不需要精確位置或詳細佈局資訊。	RAG 管線與代理人工作流程，需要精確的頁碼、頁面上重點或客戶端應用程式的圖表覆蓋。	進階文件分析需要跨頁表格擷取、語意分塊，或跨文件格式（PDF、DOCX、XLSX、PPTX）一致處理。

多模態內容嵌入的選項

在 Azure AI 搜尋服務中，從影像擷取知識可透過兩種互補路徑：影像語言化或直接嵌入。了解這些差異有助於你將成本、延遲和回答品質與應用需求對齊。

影像描述後進行文字嵌入

透過此方法，GenAI 提示技能在資料匯入時會呼叫大型語言模型，為每張擷取的圖片建立簡明的自然語言描述，例如「從經理批准開始的五步驟人力資源存取工作流程」。描述以文字形式儲存，並嵌入於周圍的文件文字中，您可以透過呼叫 Azure OpenAI、Microsoft Foundry 或 Azure Vision 嵌入模型來進行向量化。

由於影像現在以語言表達，Azure AI 搜尋服務可以：

解讀圖中顯示的關係與實體。
提供現成的字幕，讓語言模型能在回應中逐字引用。
提供RAG應用程式或AI代理情境所需的相關摘要，並附有紮實資料。

增加的語意深度意味著每張圖片都要呼叫一個大型語言模型（LLM），索引時間則略有增加。

直接多模態嵌入

第二個選項是將文件擷取的影像與文字傳送至多模態嵌入模型，該模型能在同一向量空間內產生向量表示。設定非常簡單，索引時不需要使用大型語言模型（LLM）。直接嵌入非常適合視覺相似性和「幫我找到看起來像這個的東西」的情境。

由於該表示純粹是數學上的，無法傳達為何兩張圖片相關，也無法提供LLM可用的引用或詳細說明的上下文。

結合兩種方法

許多解決方案都需要兩種編碼路徑。圖表、流程圖及其他包含豐富說明的視覺資料被轉為口述，使語意資訊可用於 RAG 和 AI 代理的賦能。截圖、產品照片或藝術作品直接嵌入，以提升相似度的搜尋效率。你可以自訂 Azure AI 搜尋服務索引與索引工具的技能組流程，讓它能同時儲存並並列取得兩組向量。

查詢多模態內容的選項

如果你的多模態流程是由 GenAI 提示技能驅動，你可以在搜尋索引中同時執行純文字與文字圖片的混合查詢。你也可以使用篩選器將搜尋結果縮小到特定內容類型，例如僅文字或僅圖片。

雖然 GenAI 提示技能支援透過混合搜尋進行文字轉向量查詢，但不支援影像轉向量查詢。只有多模態嵌入模型提供在查詢時將影像轉換為向量的向量器。

若要使用影像作為多模態索引的查詢輸入，必須使用 AML 技能或 Azure Vision 多模態嵌入技能，並搭配等效的向量器。欲了解更多資訊，請參閱「在搜尋索引中配置向量器」。

教學與範例

為了幫助你開始使用 Azure AI 搜尋服務進行多模態搜尋，這裡有一系列內容示範如何利用 Azure 功能建立並優化多模態索引。

內容	描述
快速入門：Azure入口網站中的多模態搜尋	在 Azure 入口網站中，使用精靈和搜尋總管建立並測試多模態索引。
多模態教學	擷取文字與圖片、區塊資料，並將區塊向量化以進行相似性搜尋及其他檢索模式。
範例應用程式：多模態 RAG GitHub庫	一款端對端、程式碼就緒的 RAG 應用程式，具備多模態功能，能同時呈現文字片段與圖片註解。非常適合啟動企業副駕駛。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-04-29