快速入門:在Azure 入口網站中建立技能集

在本快速入門中,您將瞭解 Azure AI 搜尋服務中的技能集如何新增光學字元辨識(OCR)、影像分析、語言偵測、文字翻譯和實體辨識,以在搜尋索引中產生文字可搜尋的內容。

您可以在Azure 入口網站中執行匯 入資料 精靈,以套用在編制索引期間建立和轉換文字內容的技能。 輸入是原始資料,通常是Azure 儲存體中的 Blob。 輸出是可搜尋的索引,其中包含 AI 產生的影像文字、標題和實體。 產生的內容可使用搜尋總管 在入口網站 中查詢。

若要準備,請先建立一些資源並上傳範例檔案,再執行精靈。

必要條件

開始之前,請先具備下列必要條件:

注意

本快速入門使用 適用于 AI 的 Azure AI 服務 。 由於工作負載太小,所以 Azure AI 服務會在幕後點選,以免費處理最多 20 筆交易。 您可以完成此練習,而不需要建立 Azure AI 多服務資源。

設定您的資料

在下列步驟中,在 Azure 儲存體 中設定 Blob 容器來儲存異質內容檔案。

  1. 下載範例資料 ,其中包含一組不同類型的小型檔案。 將檔案解壓縮。

  2. 使用您的 Azure 帳戶登入 Azure 入口網站

  3. 建立Azure 儲存體帳戶 尋找現有的帳戶

    • 選擇與 Azure AI 搜尋相同的區域,以避免頻寬費用。

    • 選擇 儲存體V2 (一般用途 V2)。

  4. 在Azure 入口網站中,開啟您的Azure 儲存體頁面並建立容器。 您可以使用預設存取層級。

  5. 在 [容器] 中,選取 [上傳 ] 以上傳範例檔案。 請注意,您有各種不同的內容類型,包括無法以原生格式搜尋全文檢索的影像和應用程式檔案。

    Screenshot of source files in Azure Blob Storage.

您現在已準備好在 [匯入資料精靈] 上移動。

執行匯入資料精靈

  1. 使用您的 Azure 帳戶登入 Azure 入口網站

  2. 尋找您的搜尋服務 ,然後在 [概觀] 頁面上,選取命令列上的 [ 匯入資料 ],以在四個步驟中建立可搜尋的內容。

    Screenshot of the Import data command.

步驟 1:建立資料來源

  1. 資料連線 中,選擇 [Azure Blob 儲存體 ]。

  2. 選擇與儲存體帳戶的現有連線,然後選取您所建立的容器。 為數據源指定名稱,並使用其餘的預設值。

    Screenshot of the data source definition page.

    繼續下一頁。

如果您收到「偵測資料來源的索引架構時發生錯誤」,則提供精靈的索引子無法連線到您的資料來源。 最有可能是資料來源具有安全性保護。 請嘗試下列解決方案,然後重新執行精靈。

安全性功能 解決方案
資源需要 Azure 角色或其存取金鑰已停用 連線為受信任的服務 ,或使用 受控識別進行連線
資源位於 IP 防火牆後方 建立搜尋和Azure 入口網站的輸入規則
資源需要私人端點連線 透過私人端點連線

步驟 2:新增認知技能

接下來,設定 AI 擴充以叫用 OCR、影像分析和自然語言處理。

  1. 在本快速入門中,我們會使用 免費的 Azure AI 服務資源。 範例資料是由 14 個檔案所組成,因此 Azure AI 服務上 20 筆交易的免費分配就足以供本快速入門使用。

    Screenshot of the Attach Azure AI services tab.

  2. 展開 [ 新增擴充 ],然後選取六項。

    啟用 OCR 將影像分析技能新增至精靈頁面。

    選擇實體辨識(人員、組織、位置)和影像分析技能(標籤、標題)。

    Screenshot of the skillset definition page.

    繼續下一頁。

步驟 3:設定索引

索引包含可搜尋的內容,匯 入資料 精靈通常可以藉由取樣資料來源來建立架構。 在此步驟中,檢閱產生的架構,並可能修改任何設定。

在本快速入門中,精靈會執行良好的作業設定合理的預設值:

  • 預設欄位是以現有 Blob 的中繼資料屬性為基礎,加上擴充輸出的新欄位(例如 、 peopleorganizationslocations 。 資料類型是從中繼資料和資料取樣推斷而來。

  • 預設檔索引鍵為 metadata_storage_path (因為欄位包含唯一值而選取)。

  • 預設屬性為 [可擷取] 和 [可 搜尋]。 搜尋允許全文檢索搜尋欄位。 擷取表示可以在結果中傳回域值。 精靈假設您希望這些欄位可擷取和搜尋,因為您透過技能集建立這些欄位。 如果您想要在篩選運算式中使用欄位,請選取 [可 篩選]。

    Screenshot of the index definition page.

將欄位標示為 [可擷取] 並不表示欄位 必須 存在於搜尋結果中。 您可以使用 select query 參數來指定要包含哪些欄位,以控制搜尋結果組合

繼續下一頁。

步驟 4:設定索引子

索引子會驅動編制索引程式。 它會指定資料來源名稱、目標索引,以及執行頻率。 [ 匯入資料精 靈] 會建立數個物件,包括您可以重複重設和執行的索引子。

  1. 在 [ 索引子] 頁面中,接受預設名稱,然後選取 [ 一次 ]。

    Screenshot of the indexer definition page.

  2. 選取 [ 提交 ] 以建立並同時執行索引子。

監視狀態

從左側流覽窗格中選取 [索引子 ] 以監視狀態,然後選取索引子。 以技能為基礎的索引編制比以文字為基礎的索引要長,尤其是 OCR 和影像分析。

Screenshot of the indexer status page.

若要檢視執行狀態的詳細資料,請選取 [ 成功 ] (或 [失敗 ] 以檢視執行詳細資料。

在此示範中,有一些警告: "Could not execute skill because one or more skill input was invalid." 它會告訴您資料來源中的 PNG 檔案不會提供實體辨識的文字輸入。 發生此警告的原因是上游 OCR 技能無法辨識影像中的任何文字,因此無法提供文字輸入給下游實體辨識技能。

技能集執行中常見的警告。 當您熟悉技能如何逐一查看資料時,您可能會開始注意到模式,並瞭解哪些警告可以放心忽略。

搜尋總管中的查詢

建立索引之後,請使用 搜尋總管 傳回結果。

  1. 在左側選取 [索引 ], 然後選取索引。 搜尋總管 位於第一個索引標籤上。

  2. 輸入搜尋字串來查詢索引,例如 satya nadella 。 搜尋列接受關鍵字、引號括住的片語和運算子 ( "Satya Nadella" +"Bill Gates" +"Steve Ballmer" )。

結果會以詳細資訊 JSON 的形式傳回,這很難讀取,特別是在大型檔中。 此工具中搜尋的一些秘訣包括下列技術:

  • 切換至 JSON 檢視以指定圖形結果的參數。

  • 新增 select 以限制結果中的欄位。

  • 新增 count 以顯示相符專案的數目。

  • 使用 CTRL-F 在 JSON 內搜尋特定屬性或字詞。

    Screenshot of the Search explorer page.

以下是您可以貼到檢視中的一些 JSON:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

提示

查詢字串會區分大小寫,因此,如果您收到「未知的欄位」訊息,請檢查 [欄位 ] 或 [索引定義], 以確認名稱和大小寫。

重要心得

您現在已建立第一個技能集,並瞭解技能型索引的基本步驟。

我們希望您挑選的一些重要概念包括相依性。 技能集系結至索引子,而索引子則是 Azure 和來源特定的。 雖然本快速入門使用 Azure Blob 儲存體,但可能會有其他 Azure 資料來源。 如需詳細資訊,請參閱 Azure AI 搜尋 中的索引子。

另一個重要概念是技能會透過內容類型運作,而且在使用異質內容時,會略過某些輸入。 此外,大型檔案或欄位可能會超過服務層級的索引子限制。 在發生這些事件時看到警告是正常的。

輸出會路由傳送至搜尋索引,而且在索引編制索引期間建立的名稱/值組與索引中的個別欄位之間會有對應。 在內部,精靈會設定 擴充樹狀結構 ,並定義 技能集 ,以建立作業順序和一般流程。 這些步驟會隱藏在精靈中,但當您開始撰寫程式碼時,這些概念會變得很重要。

最後,您已瞭解可以藉由查詢索引來驗證內容。 最後,Azure AI 搜尋所提供的是可搜尋的索引,您可以使用簡單或 完整擴充的查詢語法 進行查詢 包含擴充欄位的索引就像任何其他欄位一樣。 如果您想要納入標準或 自訂分析器 評分設定檔 同義字 多面向導覽 、地理搜尋或任何其他 Azure AI 搜尋功能,您當然可以這麼做。

清除資源

如果您是在自己的訂用帳戶中進行,建議您在專案結束時判斷自己是否仍需要先前所建立的資源。 資源若繼續執行,將需付費。 您可以個別刪除資源,或刪除資源群組以刪除整組資源。

您可以使用左側流覽窗格中的 [ 所有資源 ] 或 [資源群組 ] 連結,在入口網站中找到和管理資源。

如果您使用免費服務,請記住,您僅限於三個索引、索引子和資料來源。 您可以刪除入口網站中的個別專案,以維持在限制之下。

下一步

您可以使用入口網站、.NET SDK 或 REST API 來建立技能集。 若要進一步瞭解,請使用 Postman 和更多範例資料來嘗試 REST API。