快速入門:在 Azure 入口網站 中建立技能集

在本快速入門中,您將瞭解 Azure AI 搜尋服務中的技能集如何新增光學字元辨識(OCR)、影像分析、語言偵測、文字翻譯和實體辨識,以在搜尋索引中產生文字可搜尋的內容。

您可以在 Azure 入口網站 中執行匯入數據精靈,以套用在編製索引期間建立和轉換文字內容的技能。 輸入是原始數據,通常是 Azure 儲存體 中的 Blob。 輸出是可搜尋的索引,其中包含 AI 產生的影像文字、標題 和實體。 產生的內容可使用搜尋總管在入口網站中查詢。

若要準備,請先建立一些資源並上傳範例檔案,再執行精靈。

必要條件

開始之前,請先具備下列必要條件:

注意

本快速入門使用 Azure AI 服務 進行 AI 轉換。 由於工作負載太小,所以 Azure AI 服務會在幕後點選,以免費處理最多 20 筆交易。 您可以完成此練習,而不需要建立 Azure AI 多服務資源。

設定您的數據

在下列步驟中,在 Azure 儲存體 中設定 Blob 容器,以儲存異質內容檔案。

  1. 下載範例數據 ,其中包含一組不同類型的小型檔案。

  2. 使用您的 Azure 帳戶登入 Azure 入口網站

  3. 建立 Azure 儲存體 帳戶尋找現有的帳戶

    • 選擇與 Azure AI 搜尋相同的區域,以避免頻寬費用。

    • 選擇 儲存體 V2 (一般用途 V2)。

  4. 在 Azure 入口網站 中,開啟您的 Azure 儲存體 頁面並建立容器。 您可以使用預設存取層級。

  5. 在 [容器] 中,選取 [上傳 ] 以上傳範例檔案。 請注意,您有各種不同的內容類型,包括無法以原生格式搜尋全文檢索的影像和應用程式檔案。

    Screenshot of source files in Azure Blob Storage.

您現在已準備好在 [匯入數據精靈] 上移動。

執行匯入數據精靈

  1. 使用您的 Azure 帳戶登入 Azure 入口網站

  2. 尋找您的搜尋服務 ,然後在 [概觀] 頁面上,選取命令行上的 [ 匯入數據 ],以在四個步驟中建立可搜尋的內容。

    Screenshot of the Import data command.

步驟 1:建立數據源

  1. 數據 連線 中,選擇 [Azure Blob 儲存體]。

  2. 選擇與記憶體帳戶的現有連線,然後選取您所建立的容器。 為數據來源指定名稱,並使用其餘的預設值。

    Screenshot of the data source definition page.

    繼續下一頁。

如果您收到「偵測數據源的索引架構時發生錯誤」,則提供精靈的索引器無法連線到您的數據源。 最有可能是數據源具有安全性保護。 請嘗試下列解決方案,然後重新執行精靈。

安全性功能 解決方案
資源需要 Azure 角色或其存取金鑰已停用 連線 為受信任的服務,或使用受控識別進行連線
資源位於IP防火牆後方 建立搜尋和 Azure 入口網站 的輸入規則
資源需要私人端點連線 透過私人端點 連線

步驟 2:新增認知技能

接下來,設定 AI 擴充以叫用 OCR、影像分析和自然語言處理。

  1. 在本快速入門中,我們會使用 免費的 Azure AI 服務資源。 範例數據是由 14 個檔案所組成,因此 Azure AI 服務上 20 筆交易的免費分配就足以供本快速入門使用。

    Screenshot of the Attach Azure AI services tab.

  2. 展開 [ 新增擴充 ],然後選取六項。

    啟用 OCR 將影像分析技能新增至精靈頁面。

    選擇實體辨識(人員、組織、位置)和影像分析技能(卷標、標題)。

    Screenshot of the skillset definition page.

    繼續下一頁。

步驟 3:設定索引

索引包含可搜尋的內容,匯 入數據 精靈通常可以藉由取樣數據源來建立架構。 在此步驟中,檢閱產生的架構,並可能修改任何設定。

在本快速入門中,精靈會執行良好的作業設定合理的預設值:

  • 預設欄位是以現有 Blob 的元資料屬性為基礎,加上擴充輸出的新欄位(例如、 peopleorganizations、 、 locations 數據類型是從元數據和數據取樣推斷而來。

  • 默認檔案索引鍵為 metadata_storage_path (因為欄位包含唯一值而選取)。

  • 默認屬性為 [可擷取] 和 [可搜尋]。 搜尋允許全文搜索欄位。 擷取表示可以在結果中傳回域值。 精靈假設您希望這些欄位可擷取和搜尋,因為您透過技能集建立這些字段。 如果您想要在篩選表示式中使用字段,請選取 [可 篩選]。

    Screenshot of the index definition page.

將欄位標示為 [可擷取] 並不表示字段 必須 存在於搜尋結果中。 您可以使用 select query 參數來指定要包含哪些欄位,以控制搜尋結果組合

繼續下一頁。

步驟 4:設定索引器

索引器會驅動編製索引程式。 它會指定數據來源名稱、目標索引,以及執行頻率。 [ 匯入數據精 靈] 會建立數個物件,包括您可以重複重設和執行的索引器。

  1. 在 [ 索引器] 頁面中,接受預設名稱,然後選取 [ 一次]。

    Screenshot of the indexer definition page.

  2. 選取 [ 提交 ] 以建立並同時執行索引器。

監視狀態

從左側瀏覽窗格中選取 [索引器 ] 以監視狀態,然後選取索引器。 以技能為基礎的索引編製比以文字為基礎的索引要長,尤其是 OCR 和影像分析。

Screenshot of the indexer status page.

若要檢視執行狀態的詳細數據,請選取 [ 成功 ] (或 [失敗] 以檢視執行詳細數據。

在此示範中,有一些警告: "Could not execute skill because one or more skill input was invalid." 它會告訴您數據源中的 PNG 檔案不會提供實體辨識的文字輸入。 發生此警告的原因是上游 OCR 技能無法辨識影像中的任何文字,因此無法提供文字輸入給下游實體辨識技能。

技能集執行中常見的警告。 當您熟悉技能如何逐一查看數據時,您可能會開始注意到模式,並瞭解哪些警告可以放心忽略。

搜尋總管中的查詢

建立索引之後,請使用 搜尋總管 傳回結果。

  1. 在左側選取 [索引],然後選取索引。 搜尋總管 位於第一個索引標籤上。

  2. 輸入搜尋字串來查詢索引,例如 satya nadella。 搜尋列接受關鍵詞、引號括住的片語和運算符 ("Satya Nadella" +"Bill Gates" +"Steve Ballmer")。

結果會以詳細資訊 JSON 的形式傳回,這很難讀取,特別是在大型檔中。 此工具中搜尋的一些秘訣包括下列技術:

  • 切換至 JSON 檢視以指定圖形結果的參數。

  • 新增 select 以限制結果中的欄位。

  • 新增 count 以顯示相符項目的數目。

  • 使用 CTRL-F 在 JSON 內搜尋特定屬性或字詞。

    Screenshot of the Search explorer page.

以下是您可以貼到檢視中的一些 JSON:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

提示

查詢字串會區分大小寫,因此,如果您收到「未知的欄位」訊息,請檢查 [欄位 ] 或 [索引定義], 以確認名稱和大小寫。

重要心得

您現在已建立第一個技能集,並瞭解技能型索引的基本步驟。

我們希望您挑選的一些重要概念包括相依性。 技能集系結至索引器,而索引器則是 Azure 和來源特定的。 雖然本快速入門會使用 Azure Blob 儲存體,但可能會有其他 Azure 數據源。 如需詳細資訊,請參閱 Azure AI 搜尋中的索引器。

另一個重要概念是技能會透過內容類型運作,而且在使用異質內容時,會略過某些輸入。 此外,大型檔案或欄位可能會超過服務層級的索引器限制。 在發生這些事件時看到警告是正常的。

輸出會路由傳送至搜尋索引,而且在索引編製索引期間建立的名稱/值組與索引中的個別字段之間會有對應。 在內部,精靈會設定 擴充樹狀結構 ,並定義 技能集,以建立作業順序和一般流程。 這些步驟會隱藏在精靈中,但當您開始撰寫程式代碼時,這些概念會變得很重要。

最後,您已瞭解可以藉由查詢索引來驗證內容。 最後,Azure AI 搜尋所提供的是可搜尋的索引,您可以使用簡單或完整擴充的查詢語法進行查詢 包含擴充欄位的索引就像任何其他欄位一樣。 如果您想要納入標準或 自定義分析器評分配置檔同義字多面向導覽、地理搜尋或任何其他 Azure AI 搜尋功能,您當然可以這麼做。

清除資源

如果您是在自己的訂用帳戶中進行,建議您在專案結束時判斷自己是否仍需要先前所建立的資源。 資源若繼續執行,將需付費。 您可以個別刪除資源,或刪除資源群組以刪除整組資源。

您可以使用左側瀏覽窗格中的 [ 所有資源 ] 或 [資源群組 ] 連結,在入口網站中找到和管理資源。

如果您使用免費服務,請記住,您僅限於三個索引、索引器和數據源。 您可以刪除入口網站中的個別專案,以維持在限制之下。

下一步

您可以使用入口網站、.NET SDK 或 REST API 來建立技能集。 若要進一步瞭解,請使用 REST 用戶端和更多範例數據來嘗試 REST API。