快速入門:在 Azure 入口網站 中建立知識存放區
在本快速入門中,您會建立知識存放區,作為 Azure AI 搜尋服務中 AI 擴充管線所產生的輸出存放庫。 知識存放區會針對搜尋以外的工作負載,在 Azure 儲存體 中提供產生的內容。
首先,您會在 Azure 儲存體 中設定一些範例數據。 接下來,您會執行 [ 匯入數據 精靈] 來建立也會產生知識存放區的擴充管線。 知識存放區包含從數據源提取的原始來源內容(旅館的客戶評論),加上 AI 產生的內容,其中包含情感卷標、關鍵片語擷取,以及非英文客戶批註的文字翻譯。
必要條件
開始之前,請先具備下列必要條件:
具有有效訂用帳戶的 Azure 帳戶。 免費建立帳戶。
Azure AI 搜尋服務。 在您的帳戶中建立服務 或 尋找現有的服務 。 您可以針對本快速入門使用免費服務。
載入於 Azure 儲存體 中的範例資料:
下載HotelReviews_Free.csv。 此 CSV 包含 19 份關於單一酒店的客戶意見反應(源自 Kaggle.com)。 檔案位於具有其他範例數據的存放庫中。 如果您不想要整個存放庫,請複製原始內容,並將它貼到裝置上的電子錶格應用程式中。
本快速入門也會使用 Azure AI 服務 進行 AI 擴充。 由於工作負載太小,所以 Azure AI 服務會在幕後點選,以免費處理最多 20 筆交易。 這表示您可以完成此練習,而不需要建立額外的 Azure AI 多服務資源。
啟動精靈
使用您的 Azure 帳戶登入 Azure 入口網站 。
尋找您的搜尋服務 ,然後在 [概觀] 頁面上,選取命令行上的 [ 匯入數據 ],以四個步驟建立知識存放區。
步驟 1:建立數據源
由於數據是一個 CSV 檔案中的多個數據列,因此請將剖析模式設定為取得每個數據列的一個搜尋檔。
在數據 連線 中,選擇 [Azure Blob 儲存體]。
針對 [ 名稱],輸入 “hotel-reviews-ds”。
若要 擷取數據,請選擇 [內容] 和 [ 元數據]。
針對 [剖析模式],選取 [ 分隔文字],然後選取 [ 第一行包含標頭 ] 複選框。 請確定 分隔符 是逗號 (,)。
在 [連線 ion String] 中,如果記憶體帳戶位於相同的訂用帳戶中,請選擇現有的連線。 否則,請將 連接字串 貼到您的 Azure 儲存體 帳戶。
連接字串 可以是完整存取權,其格式如下:
DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net
或者,連接字串 可以參考受控識別,假設已在 Azure 儲存體 中設定並指派角色:
ResourceId=/subscriptions/{YOUR-SUBSCRIPTION-ID}/resourceGroups/{YOUR-RESOURCE-GROUP-NAME}/providers/Microsoft.Storage/storageAccounts/{YOUR-ACCOUNT-NAME};
在 [容器] 中,輸入保存數據的 Blob 容器名稱 (“hotel-reviews” )。
您的頁面看起來應該類似下列螢幕快照。
繼續下一頁。
步驟 2:新增技能
在此精靈步驟中,新增 AI 擴充技能。 源數據是由英文和法文的客戶評論所組成。 與此數據集相關的技能包括關鍵詞組擷取、情感偵測和文字翻譯。 在稍後的步驟中,這些擴充會「投影」到知識存放區作為 Azure 數據表。
展開 [附加 Azure AI 服務]。 默認會選取 [免費][有限擴充 ]。 您可以使用此資源,因為HotelReviews-Free.csv中的記錄數目為 19,且此免費資源每天最多允許 20 筆交易。
展開 [ 新增擴充]。
針對 [技能集名稱],輸入 “hotel-reviews-ss”。
針對 [ 源數據] 欄位,選取 [reviews_text]。
針對 [擴充粒度層級],選取 [頁面][5000 個字元區塊]。
針對 [文字認知技能],選取下列技能:
- 擷取關鍵片語
- 翻譯文字
- 語言偵測
- 偵測情感
您的頁面看起來應該像下列螢幕快照:
向下捲動並展開 [將擴充儲存至知識存放區]。
選取 [選擇現有的連線],然後選取 Azure 儲存體 帳戶。 [容器] 頁面隨即出現,讓您可以建立投影的容器。 我們建議採用前置詞命名慣例,例如 “kstore-hotel-reviews”,以區分來源內容和知識存放區內容。
返回 [匯入數據精靈],選取下列 Azure 數據表投影。 精靈一律會 提供檔 投影。 視您選取的技能(例如關鍵詞組)或擴充粒度而定,會提供其他投影:
- 文件
- 頁面
- 關鍵片語
下列螢幕快照顯示精靈中的數據表投影選取專案。
繼續下一頁。
步驟 3:設定索引
在此精靈步驟中,設定選擇性全文搜索查詢的索引。 您不需要知識存放區的搜尋索引,但索引器需要一個才能執行。
在此步驟中,精靈會取樣數據源來推斷欄位和數據類型。 您只需要選取所需行為的屬性。 例如,可擷取屬性可讓搜尋服務傳回域值,而 Searchable 屬性則會在字段上啟用全文搜索。
針對 [ 索引名稱],輸入 “hotel-reviews-idx”。
針對屬性,接受預設選取專案: 可 擷取和 可 搜尋管線正在建立的新字段。
您的索引看起來應該類似下圖。 因為清單很長,因此影像中不會顯示所有欄位。
繼續下一頁。
步驟 4:設定和執行索引器
在此精靈步驟中,設定索引器,將數據源、技能集和您在上一個精靈步驟中定義的索引提取在一起。
針對 [ 名稱],輸入 “hotel-reviews-idxr”。
針對 [ 排程],保留預設 的 [一次]。
選取 [ 提交 ] 以執行索引器。 數據擷取、編製索引、應用認知技能全都發生在此步驟中。
步驟 5:檢查狀態
在 [ 概觀 ] 頁面中,開啟 頁面中間的 [索引器] 索引卷標,然後選取 hotels-reviews-idxr。 在一兩分鐘內,狀態應從「進行中」進展到「成功」,並出現零個錯誤和警告。
檢查 Azure 入口網站 中的數據表
在 Azure 入口網站 中,開啟用來建立知識存放區的 儲存體 帳戶。
在記憶體帳戶的左側瀏覽窗格中,選取 [儲存體 瀏覽器 [預覽] 以檢視新的數據表。
您應該會看到三個數據表,其中一個用於[新增擴充] 頁面的 [儲存擴充] 區段中所提供的每個投影。
“hotelReviewssDocuments” 包含非集合之檔擴充樹狀結構的所有第一層節點。
“hotelReviewssKeyPhrases” 只包含從所有評論擷取的關鍵片語長清單。 輸出集合(陣列)的技能,例如關鍵片語和實體,會將輸出傳送至獨立數據表。
“hotelReviewssPages” 包含針對從檔分割的每個頁面所建立的擴充字段。 在此技能集和數據源中,頁面層級擴充包含情感卷標和翻譯文字。 當您在技能集定義中選擇「頁面」數據粒度時,會建立頁面數據表(或指定特定粒度層級的句子數據表)。
所有這些數據表都包含標識符數據行,以支援其他工具和應用程式中的數據表關聯性。 當您開啟數據表時,卷動超過這些欄位以檢視管線新增的內容欄位。
在本快速入門中,“hotelReviewssPages” 的數據表看起來應該類似下列螢幕快照:
清理
如果您是在自己的訂用帳戶中進行,建議您在專案結束時判斷自己是否仍需要先前所建立的資源。 資源若繼續執行,將需付費。 您可以個別刪除資源,或刪除資源群組以刪除整組資源。
您可以使用左側瀏覽窗格中的 [ 所有資源 ] 或 [資源群組 ] 連結,在入口網站中找到和管理資源。
如果您使用免費服務,請記住,您僅限於三個索引、索引器和數據源。 您可以刪除入口網站中的個別專案,以維持在限制之下。
提示
如果您想要重複此練習或嘗試不同的 AI 擴充逐步解說,請刪除 hotel-reviews-idxr 索引器和相關物件以重新建立它們。 刪除索引器會將免費的每日交易計數器重設為零。
下一步
既然您已引進知識存放區,請切換至 REST API 逐步解說,進一步瞭解每個步驟。 精靈在內部處理的工作會在 REST 逐步解說中說明。