Share via


快速入門:自訂摘要 (預覽)

使用本文開始建立自訂摘要專案,您可在其中定型除了摘要之外的自訂模型。 模型是經過定型以執行特定工作的人工智慧軟體。 在此系統中,模型會從匯入的資料學習,藉此摘要說明文字並且定型。

在本文中,我們會使用 Language Studio 來示自訂摘要的重要概念。 例如,我們將建置自訂摘要模型,以從簡短的出院記錄中擷取設施或治療地點。

必要條件

建立新的 Azure AI 語言資源和 Azure 儲存體帳戶

使用自訂摘要之前,您必須建立 Azure AI 語言資源,因為此資源提供建立專案和開始訓練模型必要的認證。 您也需要 Azure 記憶體帳戶,您可以在其中上傳將用來建置模型的數據集。

重要

若要快速開始使用,建議您使用本文中提供的步驟來建立新的 Azure AI 語言資源。 使用本文中的步驟,可讓您同時建立語言資源和記憶體帳戶,這比稍後執行更容易。

從 Azure 入口網站 建立新的資源

  1. 移至 Azure 入口網站以建立新的 Azure AI 語言資源。

  2. 在出現的視窗中,從自訂功能中選取此服務。 選取畫面底部的 [繼續建立您的資源]。

    A screenshot showing custom text classification & custom named entity recognition in the Azure portal.

  3. 使用下列詳細數據建立語言資源。

    名稱 描述
    訂用帳戶 您的 Azure 訂閱。
    資源群組 將包含您資源的資源群組。 您可以使用現有的 ,或建立新的。
    區域 語言資源的區域。 例如,「美國西部 2」。
    名稱 資源的名稱。
    定價層 語言資源的定價層。 您可以使用免費 (F0) 層來嘗試服務。

    注意

    如果您收到一則訊息,指出「您的登入帳戶不是所選記憶體帳戶資源群組的擁有者」,您的帳戶必須先在資源群組上指派擁有者角色,才能建立語言資源。 請連絡您的 Azure 訂用帳戶擁有者以取得協助。

  4. 在此服務的區段中,選取現有儲存體帳戶,或選取 [新增儲存體帳戶]。 這些值可協助您開始使用,而不一定 是您想要在生產環境中使用的記憶體帳戶值 。 若要避免在建置項目時延遲,請連線到與語言資源位於相同區域中的記憶體帳戶。

    儲存體 帳戶值 建議值
    儲存體帳戶名稱 任何名稱
    Storage account type 標準 LRS
  5. 請確定 已核取負責任 AI 通知 。 選取頁面底部的 [ 檢閱 + 建立 ],然後選取 [ 建立]。

下載範例資料

如果您需要範例資料,我們針對文件摘要交談摘要案例提供了一些範例資料,以達到本快速入門的目的。

將範例數據上傳至 Blob 容器

  1. 找出要上傳至儲存體帳戶的檔案

  2. Azure 入口網站 中,流覽至您所建立的記憶體帳戶,然後加以選取。

  3. 在您的儲存體帳戶中,從左側功能表中 [資料儲存體] 的下方選取 [容器]。 在出現的畫面中,選取 [+ 容器]。 提供容器名稱 example-data ,並保留預設 的公用存取層級

    A screenshot showing the main page for a storage account.

  4. 建立容器之後,請加以選取。 然後選取 [上傳] 按鈕,以選取您稍早下載的 .txt.json 檔案。

    A screenshot showing the button for uploading files to the storage account.

建立自訂摘要專案

設定好資源和儲存體帳戶之後,請建立新的自訂摘要專案。 專案是一個工作區域,可根據您的數據建置自定義ML模型。 您的專案只能由您和其他人存取所使用之語言資源。

  1. 登入 Language Studio。 隨即會出現一個視窗,讓您選取您的訂用帳戶和語言資源。 選取您在上述步驟中建立的語言資源。

  2. 選取您想要在 Language Studio 中使用的功能。

  3. 從項目頁面的頂端功能表中選取 [建立新專案 ]。 建立專案可讓您標示資料、定型、評估、改善以及部署模型。

    A screenshot of the project creation page.

  4. 輸入項目資訊,包括專案中檔案的名稱、描述和語言。 如果您使用 範例數據集,請選取 [英文]。 您之後無法變更專案名稱。 選取下一個

    提示

    您的數據集不需要完全使用相同的語言。 您可以有多個檔,每個檔都有不同的支持語言。 如果您的資料集包含不同語言的檔,或當您在運行時間預期來自不同語言的文字時,請在輸入專案的基本資訊時選取 [啟用多語系數據集 ] 選項。 此選項稍後可從 [項目設定] 頁面啟用

  5. 選取 [建立新專案] 之後,隨即會出現一個視窗,讓您連線您的儲存體帳戶。 如果您已連線記憶體帳戶,您會看到已連線的記憶體帳戶。 如果沒有,請從出現的下拉式清單中選擇儲存體帳戶,然後選取 [連線儲存體帳戶];這會為您的儲存體帳戶設定必要角色。 如果您未在記憶體帳戶上指派為 擁有者 ,此步驟可能會傳回錯誤。

    注意

    • 您只需要針對您使用的每個新資源執行此步驟一次。
    • 如果您將記憶體帳戶連線到您的語言資源,稍後就無法中斷連線,此程式將無法復原。
    • 您只能將語言資源連線到一個記憶體帳戶。
  6. 選取您已上傳數據集的容器。

  7. 如果您已經標示資料,請確定其遵循支援的格式,然後選取 [是,我的檔案已加上標籤,而且我已設定 JSON 標籤檔案的格式],然後從下拉式功能表中選取標籤檔案。 選取 [下一步]。 如果您使用快速入門中的資料集,則不需要檢閱 JSON 標籤檔案的格式設定。

  8. 檢閱您輸入的數據,然後選取 [ 建立專案]。

定型您的模型

建立專案之後,請繼續開始定型模型。

若要從 Language Studio開始訓練您的模型:

  1. 從左側功能表中選取 [訓練作業 ]。

  2. 從頂端功能表中選取 [啟動訓練作業 ]。

  3. 選取 [定型新的模型 ],然後在文本框中輸入模型名稱。 您也可以 選取此選項並選擇您想要從下拉功能表覆寫的模型,以覆寫現有的模型 。 覆寫已定型的模型是不可復原的,但在您部署新模型之前,不會影響已部署的模型。

    Create a new training job

  4. 系統預設會根據指定的百分比,將已標示的資料分割為訓練集或測試集。 如果您的測試集中有文件,就可以手動分割訓練與測試資料。

  5. 選取 [ 訓練] 按鈕。

  6. 如果您從清單中選取 [定型作業識別碼],則會顯示側邊窗格,您可以在其中檢查此作業的 [定型進度]、[作業狀態] 和其他詳細資料。

    注意

    • 只有成功完成的定型作業才會產生模型。
    • 訓練可能需要幾分鐘到數小時的時間,視卷標的資料大小而定。
    • 您一次只能執行一個定型作業。 除非執行中的作業完成,否則無法在同一個專案內啟動其他定型作業。

部署模型

一般來說,在定型模型之後,您可以檢閱其評估詳細資料,並視需要加以改善。 在本快速入門中,您只需要部署您的模型,使其可供您在 Language Studio 中試用。

若要從 Language Studio 內部署模型:

  1. 從左側功能表中選取 [部署模型 ]。

  2. 選取 [新增部署] 以啟動新的部署作業。

    A screenshot showing the deployment button

  3. 選取 [建立新的部署] 以建立新的部署 ,並從下方的下拉式清單中指派定型的模型。 您也可以選取此選項,然後從下列下拉式清單中選取要指派給它的定型模型,以覆寫現有的部署。

    注意

    覆寫現有的部署不需要變更預測 API 呼叫,但您取得的結果會以新指派的模型為基礎。

    A screenshot showing the deployment screen

  4. 選取 [部署] 以啟動部署作業。

  5. 部署成功之後,到期日會出現在它旁邊。 部署到期 是當部署的模型無法用於預測時,通常發生在定型組態到期后的 12 個月。

測試您的模型

在本快速入門中,您將使用 Language Studio 提交自訂摘要工作,並將結果視覺化。 在稍早下載的範例數據集中,您可以找到一些可在此步驟中使用的測試檔。

若要從 Language Studio測試已部署的模型:

  1. 從左側功能表中選取 [測試部署 ]。

  2. 選取您要測試的部署。 您只能測試指派給部署的模型。

  3. 針對多語系專案,從語言下拉式清單中,選取您要測試的文字語言。

  4. 從下拉式清單中選取您想要查詢/測試的部署。

  5. 您可以輸入要提交至要求的文字,或上傳 .txt 要使用的檔案。

  6. 選取頂端功能表中的 [執行測試]。

  7. 在 [ 結果] 索引標籤中,您可以看到從文字及其類型擷取的實體。 您也可以在 [JSON] 索引標籤下 檢視 JSON 回應。

A screenshot showing the model test results.

清除資源

當您不再需要專案時,可以使用 Language Studio 刪除專案。 選取您在頂端所使用的功能,然後選取您要刪除的專案。 選取頂端功能表中的 [刪除] 以刪除專案。

下一步