在這個快速入門中,你可以使用Azure入口網站的Import data (new)精靈開始使用多模態搜尋。 精靈程序可簡化將文字與影像的擷取、分塊、向量化,且載入至可搜尋索引的過程。
此快速入門使用來自 azure-search-sample-data 倉庫的多模態 PDF。 不過,您可以使用不同的檔案,但仍完成快速入門。
Tip
有大量文字的文件嗎? 請參考快速入門:Azure入口網站的向量搜尋,以區塊化和向量化內容,並支援可選的圖片支援。
Prerequisites
一個有有效訂閱的 Azure 帳號。 免費建立帳戶。
一個Azure AI Search服務。 我們建議 Basic 等級或更高等級以支援管理身份,並有更高的限制。
一個Azure Storage帳戶。 在標準效能(通用 v2)帳號上使用 Azure Blob Storage 或 Azure Data Lake Storage Gen2(帶有階層命名空間的儲存帳號)。 存取層可以是經常性存取層、非經常性存取層或極非經常性存取層。
熟悉精靈。 請參考 Azure 入口網站中的匯入資料精靈。
支援的擷取方法
內容擷取時,請選擇透過 Azure AI Search 的預設擷取,或透過 Foundry Tools 中的 Azure文件智慧來進行強化擷取。
| Method | Description |
|---|---|
| 預設擷取 | 僅從 PDF 影像擷取位置元數據。 不需要其他 Azure 資源。 |
| 增強擷取 | 從多個檔類型的文字和影像擷取位置元數據。 整合需要一個 Azure AI 多服務帳號1。 |
1 為了計費,您必須將多服務帳戶附加到您的 Azure AI 搜尋服務技能。 精靈要求你的搜尋服務帳號和多服務帳號必須在同一支援 文件排版技能的區域。
支援的內嵌方法
對於內容內嵌,請選擇下列其中一種方法:
圖像語言化: 使用 LLM 生成圖像的自然語言描述,然後使用嵌入模型將純文本和語言化圖像矢量化。
多模態嵌入: 使用內嵌模型直接向量化文字和影像。
入口網站支援每種方法的以下模型。 稍後的章節會提供部署指示。
| Provider | 圖像語言化模型 | 多模態內嵌的模型 |
|---|---|---|
| Azure AI 多服務帳號1 | 嵌入模型:Azure 視覺多模態 | Azure 視覺多模態 |
| Microsoft Foundry 樞紐型專案 | LLMs:
|
|
| Microsoft Foundry 專案 | LLMs:
|
|
| Azure OpenAI 資源3, 4 | LLMs:
|
1 為了計費,您必須將多服務帳戶附加到您的 Azure AI 搜尋服務技能。 精靈要求你的搜尋服務和多服務帳號都位於 Azure Vision 多模態嵌入技能支援的區域。
2 精靈僅支援此模型的無伺服器 API 部署。 你可以用 use Azure CLI來配置無伺服器部署。
3 你的 Azure OpenAI 資源的端點必須有一個 custom 子網域,例如 https://my-unique-name.openai.azure.com。 如果你在 Azure 入口網站建立資源,這個子網域會在資源設定時自動產生。
4 Azure 在 Microsoft Foundry 入口網站 建立的 OpenAI 資源(可存取嵌入模型)不被支援。 你必須在 Azure 入口網站建立一個 Azure OpenAI 資源。
公用端點需求
所有前述資源都必須啟用公開存取,讓 Azure 入口節點能夠存取它們。 否則,精靈會失敗。 在精靈執行之後,您可以在整合元件上啟用防火牆和私人端點以確保安全性。 如需詳細資訊,請參閱在匯入精靈中保護連線。
如果私人端點已經存在,而且您無法停用它們,替代方法是從虛擬機上的腳本或程式執行個別的端對端流程。 虛擬機器必須位於與私人端點相同的虛擬網路中。 這裡有一個Python的程式碼範例,用於整合向量化。 同一個 GitHub repo 也有其他程式語言的範例。
設定存取權
開始之前,請確定您有權存取內容和作業。 本快速入門使用 Microsoft Entra ID 進行驗證和授權的角色型存取。 您必須是 擁有者 或 使用者存取管理員 ,才能指派角色。 如果角色不可行,請改用金鑰型驗證。
所需角色
Azure AI Search 和 Azure Storage 是所有多模態搜尋場景的必備。
Azure AI Search 提供多模態流程。 為你和你的搜尋服務設定存取權限,讓它能讀取資料、執行管線,並與其他 Azure 資源互動。
關於你的 Azure AI Search 服務:
將下列角色指派給自己。
搜尋服務貢獻者
搜尋索引資料參與者
搜尋索引資料讀取者
條件式角色
以下分頁涵蓋多模態搜尋的向導相容資源。 請僅選擇適用於您所選的擷取方法與內嵌方法的索引標籤。
多服務帳號提供多項 Azure 服務的存取權,包括用於內容擷取的 Azure 文件智慧及用於內容嵌入的 Azure Vision。 您的搜尋服務需要存取文件佈局技能和Azure視覺多模態嵌入技能。
關於你的多服務帳戶:
- 將認知服務使用者指派給搜尋服務的受控識別。
準備範例資料
本快速入門使用範例多模式 PDF,但您也可以使用自己的檔案。 如果您是使用免費搜尋服務,請使用少於 20 個檔案,以保留在擴充處理的免費配額內。
若要準備本快速入門的範例資料:
登入 Azure 入口並選擇您的Azure Storage帳號。
從左窗格中,選取 [資料記憶體>容器]。
建立一個容器,然後將
sample PDF 上傳到容器中。 建立另一個容器來儲存從 PDF 擷取的映像。
準備模型
Note
如果你用的是 Azure Vision,可以跳過這步驟。 多模態嵌入內建在你的多服務帳號中,不需要模型部署。
精靈提供數個選項來內嵌內容。 影像語言化需要 LLM 來描述影像和內嵌模型,以向量化文字和影像內容,而直接的多模式內嵌只需要內嵌模型。 這些模型可透過 Azure、OpenAI 與 Foundry 取得。
要部署您所選 嵌入方法所需的模型,請參閱 Foundry 入口網站中的「部署 Microsoft Foundry 模型」。
啟動精靈
登入 Azure 入口網站,選擇你的Azure AI Search服務。
在概觀頁面上,選取匯入資料 (新)。
選擇你的資料來源:Azure Blob Storage 或 Azure Data Lake Storage Gen2。
選取 [多模式 RAG]。
執行精靈
巫師會帶你完成幾個設定步驟。 本節涵蓋每個步驟的順序。
連接到您的資料
Azure AI Search 需要連接到資料來源以進行內容擷取與索引。 在這種情況下,資料來源是你的 Azure Storage 帳號。
若要連線到您的資料:
在Connect to your data頁面,選擇你的Azure訂閱。
選取您上傳範例數據的記憶體帳戶和容器。
選取 [ 使用受控識別進行驗證 ] 複選框。 將身分識別類型保留為 系統指派。
選取 下一步。
擷取您的內容
根據您選擇的 擷取方法,精靈會提供檔破解和區塊化的設定選項。
內嵌您的內容
在此步驟中,精靈會使用您選擇的 內嵌方法來 產生文字和影像的向量表示。
精靈會呼叫一個技能來建立影像的描述性文字(影像語言化),另一個技能可建立文字和影像的向量內嵌。
針對影像文字化,GenAI 提示技能 會使用您部署的 LLM 來分析每個擷取的影像,並產生自然語言描述。
關於嵌入,
若要使用影像語言化的技能:
在 [ 內容內嵌 ] 頁面上,選取 [影像語言化]。
在 影像文字化 標籤頁上:
在 文字向量化 標籤頁上:
選取 下一步。
儲存擷取的影像
下一步是將從文件中擷取的圖片傳送到 Azure Storage。 在Azure AI Search中,這個次級儲存被稱為知識儲存。
若要儲存擷取的影像:
在 Image output 頁面,選擇您的 Azure 訂閱。
選取您建立的記憶體帳戶和 Blob 容器來儲存映像。
選取 [ 使用受控識別進行驗證 ] 複選框。 將身分識別類型保留為 系統指派。
選取 下一步。
新增語意排名
在 [進階設定] 頁面上,您可以選擇性地新增 [語意排名],以在查詢執行結束時重新產生結果。 重新排名會將語意上最相關的相符項目升階到最上層。
對應新欄位
在 [ 進階設定 ] 頁面上,您可以選擇性地將字段新增至索引架構。 根據預設,精靈會產生下表所述的欄位。
| Field | 適用對象 | Description | Attributes |
|---|---|---|---|
| content_id | 文字和影像向量 | 字串欄位。 索引的文件索引鍵。 | 可擷取、可排序和可搜尋。 |
| document_title | 文字和影像向量 | 字串欄位。 人類可讀取的文件標題。 | 可擷取和可搜尋。 |
| text_document_id | 文字向量 | 字串欄位。 識別文字區塊的來源父檔。 | 可擷取和可篩選。 |
| image_document_id | 影像向量 | 字串欄位。 識別影像的來源父系文件。 | 可擷取和可篩選。 |
| content_text | 文字向量 | 字串欄位。 人類可讀取的文字區塊版本。 | 可擷取和可搜尋。 |
| content_embedding | 文字和影像向量 | Collection(Edm.Single). 文字和影像的向量表示。 | 可擷取和可搜尋。 |
| content_path | 文字和影像向量 | 字串欄位。 儲存體容器中內容的路徑。 | 可擷取和可搜尋。 |
| locationMetadata | 影像向量 | Edm.ComplexType. 包含檔中影像位置的相關元數據。 | 依欄位而不同。 |
您無法修改產生的欄位或其屬性,但如果您的資料來源提供欄位,您可以新增欄位。 例如,Azure Blob Storage 提供一組元資料欄位。
若要將欄位新增至索引架構:
在 [索引欄位] 底下,選取 [預覽並編輯]。
選取 新增欄位。
從可用的欄位中選擇一個來源欄位, 輸入索引的欄位名稱,並接受或覆寫預設的資料類型。
如果您想要將架構還原為其原始版本,請選取 [ 重設]。
此步驟的要點:
索引架構會提供區塊化數據的向量和非向量欄位。
檔剖析模式會建立區塊(每個區塊一個搜尋檔)。
排程索引
對於基礎數據變動的數據源,您可以 排程索引編製 ,以在特定間隔或特定日期和時間擷取變更。
若要排程索引編製:
完成精靈
最後一個步驟是檢閱您的設定,並建立多模式搜尋的必要物件。 如有必要,請返回精靈中的上一頁,以調整您的設定。
若要完成精靈:
精靈建立物件
精靈完成設定時,會建立下列物件:
| 物體 | Description |
|---|---|
| 數據源 | 代表與 Azure Blob Storage 的連結。 |
| Index | 包含文字欄位、向量場、向量器、向量剖面及向量演算法。 你無法在精靈工作流程中修改預設索引。 索引符合 最新的預覽 REST API ,讓你可以使用預覽功能。 |
| 技能 | 包含以下技能:
|
| Indexer | 驅動索引管線,包含欄位映射與輸出欄位映射(如適用)。 |
Tip
精靈建立的物件具有可設定的 JSON 定義。 若要檢視或修改這些定義,請從左窗格中選取 [ 搜尋管理 ],您可以在其中檢視索引、索引器、數據源和技能集。
檢查結果
本快速入門會建立多模式索引,可支援文字和影像的 混合式搜尋 。 除非你使用直接多模態嵌入,否則索引不接受圖片作為查詢輸入,這需要 AML 技能或 Azure Vision 多模態嵌入技能,並搭配等效的向量器。 如需詳細資訊,請參閱 在搜尋索引中設定向量化器。
混合式搜尋結合了全文檢索查詢和向量查詢。 當您發出混合式查詢時,搜尋引擎會計算查詢與索引向量之間的語意相似性,並據以排名結果。 針對在本快速入門中建立的索引,結果會顯示與查詢緊密對齊之 content_text 字段的內容。
若要查詢多模式索引:
登入 Azure 入口網站,選擇你的Azure AI Search服務。
從左窗格中,選取 [搜尋管理>索引]。
選取您的索引。
選取 [查詢選項],然後選取 [隱藏搜尋結果中的向量值]。 此步驟可讓結果更容易閱讀。
輸入您要搜尋的文字。 我們的範例使用
energy。若要執行查詢,請選取 [搜尋]。
JSON 結果應該會在索引中包含與 相關的
energy文字和影像內容。 如果您啟用了語意排名器,@search.answers陣列會提供簡潔且高可靠性的 語意答案,以協助您快速識別相關的相符項目。"@search.answers": [ { "key": "a71518188062_aHR0cHM6Ly9oYWlsZXlzdG9yYWdlLmJsb2IuY29yZS53aW5kb3dzLm5ldC9tdWx0aW1vZGFsLXNlYXJjaC9BY2NlbGVyYXRpbmctU3VzdGFpbmFiaWxpdHktd2l0aC1BSS0yMDI1LnBkZg2_normalized_images_7", "text": "A vertical infographic consisting of three sections describing the roles of AI in sustainability: 1. **Measure, predict, and optimize complex systems**: AI facilitates analysis, modeling, and optimization in areas like energy distribution, resource allocation, and environmental monitoring. **Accelerate the development of sustainability solution...", "highlights": "A vertical infographic consisting of three sections describing the roles of AI in sustainability: 1. **Measure, predict, and optimize complex systems**: AI facilitates analysis, modeling, and optimization in areas like<em> energy distribution, </em>resource<em> allocation, </em>and environmental monitoring. **Accelerate the development of sustainability solution...", "score": 0.9950000047683716 }, { "key": "1cb0754930b6_aHR0cHM6Ly9oYWlsZXlzdG9yYWdlLmJsb2IuY29yZS53aW5kb3dzLm5ldC9tdWx0aW1vZGFsLXNlYXJjaC9BY2NlbGVyYXRpbmctU3VzdGFpbmFiaWxpdHktd2l0aC1BSS0yMDI1LnBkZg2_text_sections_5", "text": "...cross-laminated timber.8 Through an agreement with Brookfield, we aim 10.5 gigawatts (GW) of renewable energy to the grid.910.5 GWof new renewable energy capacity to be developed across the United States and Europe.Play 4 Advance AI policy principles and governance for sustainabilityWe advocated for policies that accelerate grid decarbonization", "highlights": "...cross-laminated timber.8 Through an agreement with Brookfield, we aim <em> 10.5 gigawatts (GW) of renewable energy </em>to the<em> grid.910.5 </em>GWof new<em> renewable energy </em>capacity to be developed across the United States and Europe.Play 4 Advance AI policy principles and governance for sustainabilityWe advocated for policies that accelerate grid decarbonization", "score": 0.9890000224113464 }, { "key": "1cb0754930b6_aHR0cHM6Ly9oYWlsZXlzdG9yYWdlLmJsb2IuY29yZS53aW5kb3dzLm5ldC9tdWx0aW1vZGFsLXNlYXJjaC9BY2NlbGVyYXRpbmctU3VzdGFpbmFiaWxpdHktd2l0aC1BSS0yMDI1LnBkZg2_text_sections_50", "text": "ForewordAct... Similarly, we have restored degraded stream ecosystems near our datacenters from Racine, Wisconsin120 to Jakarta, Indonesia.117INNOVATION SPOTLIGHTAI-powered Community Solar MicrogridsDeveloping energy transition programsWe are co-innovating with communities to develop energy transition programs that align their goals with broader s.", "highlights": "ForewordAct... Similarly, we have restored degraded stream ecosystems near our datacenters from Racine, Wisconsin120 to Jakarta, Indonesia.117INNOVATION SPOTLIGHTAI-powered Community<em> Solar MicrogridsDeveloping energy transition programsWe </em>are co-innovating with communities to develop<em> energy transition programs </em>that align their goals with broader s.", "score": 0.9869999885559082 } ]
清理資源
當您在自己的訂用帳戶中工作時,建議在專案結束時移除不再需要的資源。 仍在執行的資源可能會產生費用。
在Azure入口網站中,從左側窗格選擇 所有資源或 資源群組以尋找並管理資源。 你可以單獨刪除資源,或是一次性刪除資源群組,移除所有資源。
下一個步驟
本快速入門向您介紹匯 入資料 (新) 精靈,該精靈會建立多模態搜尋的所有必要物件。 要詳細了解每個步驟,請參閱 多模態教學。