快速入門:在 Azure 入口網站 中建立知識存放區

在本快速入門中,您會建立知識存放區,作為 Azure AI 搜尋服務中 AI 擴充管線所產生的輸出存放庫。 知識存放區會針對搜尋以外的工作負載,在 Azure 儲存體 中提供產生的內容。

首先,您會在 Azure 儲存體 中設定一些範例數據。 接下來,您會執行 [ 匯入數據 精靈] 來建立也會產生知識存放區的擴充管線。 知識存放區包含從數據源提取的原始來源內容(旅館的客戶評論),加上 AI 產生的內容,其中包含情感卷標、關鍵片語擷取,以及非英文客戶批註的文字翻譯。

必要條件

開始之前,請先具備下列必要條件:

本快速入門也會使用 Azure AI 服務 進行 AI 擴充。 由於工作負載太小,所以 Azure AI 服務會在幕後點選,以免費處理最多 20 筆交易。 這表示您可以完成此練習,而不需要建立額外的 Azure AI 多服務資源。

啟動精靈

  1. 使用您的 Azure 帳戶登入 Azure 入口網站

  2. 尋找您的搜尋服務 ,然後在 [概觀] 頁面上,選取命令行上的 [ 匯入數據 ],以四個步驟建立知識存放區。

    Screenshot of the Import data command

步驟 1:建立數據源

由於數據是一個 CSV 檔案中的多個數據列,因此請將剖析模式設定為取得每個數據列的一個搜尋檔。

  1. 數據 連線 中,選擇 [Azure Blob 儲存體]。

  2. 針對 [ 名稱],輸入 “hotel-reviews-ds”。

  3. 若要 擷取數據,請選擇 [內容] 和 [ 元數據]。

  4. 針對 [剖析模式],選取 [ 分隔文字],然後選取 [ 第一行包含標頭 ] 複選框。 請確定 分隔符 是逗號 (,)。

  5. [連線 ion String] 中,如果記憶體帳戶位於相同的訂用帳戶中,請選擇現有的連線。 否則,請將 連接字串 貼到您的 Azure 儲存體 帳戶。

    連接字串 可以是完整存取權,其格式如下:DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net

    或者,連接字串 可以參考受控識別,假設已在 Azure 儲存體 中設定並指派角色ResourceId=/subscriptions/{YOUR-SUBSCRIPTION-ID}/resourceGroups/{YOUR-RESOURCE-GROUP-NAME}/providers/Microsoft.Storage/storageAccounts/{YOUR-ACCOUNT-NAME};

  6. [容器] 中,輸入保存數據的 Blob 容器名稱 (“hotel-reviews” )。

    您的頁面看起來應該類似下列螢幕快照。

    Screenshot of data source definition

  7. 繼續下一頁。

步驟 2:新增技能

在此精靈步驟中,新增 AI 擴充技能。 源數據是由英文和法文的客戶評論所組成。 與此數據集相關的技能包括關鍵詞組擷取、情感偵測和文字翻譯。 在稍後的步驟中,這些擴充會「投影」到知識存放區作為 Azure 數據表。

  1. 展開 [附加 Azure AI 服務]。 默認會選取 [免費][有限擴充 ]。 您可以使用此資源,因為HotelReviews-Free.csv中的記錄數目為 19,且此免費資源每天最多允許 20 筆交易。

  2. 展開 [ 新增擴充]。

  3. 針對 [技能集名稱],輸入 “hotel-reviews-ss”。

  4. 針對 [ 源數據] 欄位,選取 [reviews_text]。

  5. 針對 [擴充粒度層級],選取 [頁面][5000 個字元區塊]。

  6. 針對 [文字認知技能],選取下列技能:

    • 擷取關鍵片語
    • 翻譯文字
    • 語言偵測
    • 偵測情感

    您的頁面看起來應該像下列螢幕快照:

    Screenshot of the skillset definition

  7. 向下捲動並展開 [將擴充儲存至知識存放區]。

  8. 選取 [選擇現有的連線],然後選取 Azure 儲存體 帳戶。 [容器] 頁面隨即出現,讓您可以建立投影的容器。 我們建議採用前置詞命名慣例,例如 “kstore-hotel-reviews”,以區分來源內容和知識存放區內容。

  9. 返回 [匯入數據精靈],選取下列 Azure 數據表投影。 精靈一律會 提供檔 投影。 視您選取的技能(例如關鍵詞組)或擴充粒度而定,會提供其他投影:

    • 文件
    • 頁面
    • 關鍵片語

    下列螢幕快照顯示精靈中的數據表投影選取專案。

    Screenshot of the knowledge store definition

  10. 繼續下一頁。

步驟 3:設定索引

在此精靈步驟中,設定選擇性全文搜索查詢的索引。 您不需要知識存放區的搜尋索引,但索引器需要一個才能執行。

在此步驟中,精靈會取樣數據源來推斷欄位和數據類型。 您只需要選取所需行為的屬性。 例如,可擷取屬性可讓搜尋服務傳回域值,而 Searchable 屬性則會在字段上啟用全文搜索。

  1. 針對 [ 索引名稱],輸入 “hotel-reviews-idx”。

  2. 針對屬性,接受預設選取專案: 擷取和 搜尋管線正在建立的新字段。

    您的索引看起來應該類似下圖。 因為清單很長,因此影像中不會顯示所有欄位。

    Screenshot of the index definition

  3. 繼續下一頁。

步驟 4:設定和執行索引器

在此精靈步驟中,設定索引器,將數據源、技能集和您在上一個精靈步驟中定義的索引提取在一起。

  1. 針對 [ 名稱],輸入 “hotel-reviews-idxr”。

  2. 針對 [ 排程],保留預設 的 [一次]。

  3. 選取 [ 提交 ] 以執行索引器。 數據擷取、編製索引、應用認知技能全都發生在此步驟中。

步驟 5:檢查狀態

在 [ 概觀 ] 頁面中,開啟 頁面中間的 [索引器] 索引卷標,然後選取 hotels-reviews-idxr。 在一兩分鐘內,狀態應從「進行中」進展到「成功」,並出現零個錯誤和警告。

檢查 Azure 入口網站 中的數據表

  1. 在 Azure 入口網站 中,開啟用來建立知識存放區的 儲存體 帳戶

  2. 在記憶體帳戶的左側瀏覽窗格中,選取 [儲存體 瀏覽器 [預覽] 以檢視新的數據表。

    您應該會看到三個數據表,其中一個用於[新增擴充] 頁面的 [儲存擴充] 區段中所提供的每個投影。

    • “hotelReviewssDocuments” 包含非集合之檔擴充樹狀結構的所有第一層節點。

    • “hotelReviewssKeyPhrases” 只包含從所有評論擷取的關鍵片語長清單。 輸出集合(陣列)的技能,例如關鍵片語和實體,會將輸出傳送至獨立數據表。

    • “hotelReviewssPages” 包含針對從檔分割的每個頁面所建立的擴充字段。 在此技能集和數據源中,頁面層級擴充包含情感卷標和翻譯文字。 當您在技能集定義中選擇「頁面」數據粒度時,會建立頁面數據表(或指定特定粒度層級的句子數據表)。

所有這些數據表都包含標識符數據行,以支援其他工具和應用程式中的數據表關聯性。 當您開啟數據表時,卷動超過這些欄位以檢視管線新增的內容欄位。

在本快速入門中,“hotelReviewssPages” 的數據表看起來應該類似下列螢幕快照:

Screenshot of the generated tables in Storage Browser

清理

如果您是在自己的訂用帳戶中進行,建議您在專案結束時判斷自己是否仍需要先前所建立的資源。 資源若繼續執行,將需付費。 您可以個別刪除資源,或刪除資源群組以刪除整組資源。

您可以使用左側瀏覽窗格中的 [ 所有資源 ] 或 [資源群組 ] 連結,在入口網站中找到和管理資源。

如果您使用免費服務,請記住,您僅限於三個索引、索引器和數據源。 您可以刪除入口網站中的個別專案,以維持在限制之下。

提示

如果您想要重複此練習或嘗試不同的 AI 擴充逐步解說,請刪除 hotel-reviews-idxr 索引器和相關物件以重新建立它們。 刪除索引器會將免費的每日交易計數器重設為零。

下一步

既然您已引進知識存放區,請切換至 REST API 逐步解說,進一步瞭解每個步驟。 精靈在內部處理的工作會在 REST 逐步解說中說明。