共用方式為


訓練您的用於健康醫療領域的自訂文字分析模型

定型是模型從標記資料中學習的程序。 完成定型後,您可以檢視模型的效能,並判斷是否需要改善模型。

若要定型模型,您可以啟動定型作業,而且只有順利完成的作業會建立模型。 定型作業會在七天後到期,這表示您在此時間後無法擷取作業詳細資料。 如果您的定型作業順利完成,且已建立模型,模型將不會受到影響。 您一次只能執行一個定型作業,而且您無法在同一個專案中啟動其他作業。

根據資料集大小和結構描述的複雜度而定,在處理幾個文件時定型時間可以從幾分鐘到高達幾小時的時間。

必要條件

如需詳細資訊,請參閱專案開發生命週期

資料分割

開始定型程序之前,專案中加上標籤的文件會分成定型集和測試集。 每一種都提供不同的功能。 定型集用於定型模型,這是模型從中學習標記實體的集合,以及哪些範圍的文字會擷取為實體。 測試集是一個盲集,不會在定型期間 (而是只在評估期間) 導入模型。 模型定型成功完成之後,會使用模型從測試中的文件進行預測,並根據這些預測計算評估計量。 模型定型和評估僅適用于具有已學習元件之新定義的實體;因此,健康情況實體文字分析會從模型定型和評估中排除,因為它們是具有預先建置元件的實體。 建議您確定所有已加上標籤的實體都已適當地呈現在訓練集和測試集中。

健康情況的自訂文字分析支援兩種資料分割方法:

  • 自動從定型資料分割測試集:系統會根據您選擇的百分比,在定型集與測試集之間分割標示的資料。 建議的百分比分割是 80% 用於定型,20% 用於測試。

注意

如果您選擇 [從定型資料自動分割測試集] 選項,則只會根據提供的百分比來分割向定型集指派的資料。

  • 使用手動分割定型和測試資料:此方法可讓使用者定義哪些具有標籤的文件應該屬於哪個集合。 只有在您已在資料標記期間將文件新增至測試集時,才會啟用此步驟。

定型模型

若要從 Language Studio 內開始定型模型:

  1. 從左側功能表中,選取 [定型工作]。

  2. 從頂端功能表中選取 [開始定型作業]。

  3. 選取 [定型新模型],然後在文字方塊中輸入模型名稱。 您也可以藉由選取此選項來覆寫現有的模型,然後從下拉式功能表中選擇您想要覆寫的模型。 覆寫定型的模型是無法復原的,但在您部署新模型之前,不會影響已部署的模型。

    顯示 Language Studio 中訓練作業建立畫面的螢幕擷取畫面。

  4. 選取資料分割方法。 您可以選擇 [從定型資料自動分割測試集],其中系統會根據指定的百分比,在定型與測試集之間分割標記的資料。 或者,您可以使用 手動分割定型和測試資料,只有在您已將檔新增至測試集時,才會啟用此選項。 如需資料分割的相關資訊,請參閱資料標記以及如何定型模型

  5. 選取 [定型] 按鈕。

  6. 如果您從清單中選取 [訓練作業識別碼],則會顯示側邊窗格,您可以在其中檢查此作業的 [訓練進度]、[ 作業狀態] 和其他詳細資料。

    注意

    • 只有成功完成的定型作業才會產生模型。
    • 定型可能需要幾分鐘到數小時的時間,以標記的資料大小而定。
    • 您一次只能執行一個定型作業。 除非執行中作業完成,否則您無法在同一個專案內啟動其他定型作業。

取消定型作業

若要從 Language Studio 內取消定型作業,請移至 [定型作業] 頁面。 選取您想要取消的訓練作業,然後從頂端功能表中選取 [ 取消 ]。

後續步驟

定型完成後,您將能夠檢視 模型的效能 ,視需要選擇性地改善模型。 在對模型感到滿意之後,您就可以將其部署並用於從文字中擷取實體