如何定型自訂文字分類模型
定型是模型從標記資料中學習的流程。 定型完成後,您將能夠檢視模型的效能,以判斷是否需要改善模型。
若要定型模型,請啟動定型作業。 只有成功完成的作業才能建立可用的模型。 定型作業會在七天後到期。 在此期間之後,您將無法擷取作業詳細資料。 如果您的定型作業順利完成,且已建立模型,模型將不會受到作業到期的影響。 您一次只能執行一個定型作業,而且您無法在同一個專案中啟動其他作業。
根據資料集大小和結構描述的複雜度而定,在處理幾個文件時定型時間可以從幾分鐘到高達幾小時的時間。
必要條件
在定型模型之前,您必須具備:
如需詳細資訊,請參閱專案開發生命週期。
資料分割
開始定型程序之前,專案中加上標籤的文件會分成定型集和測試集。 每一個都提供不同的功能。 定型集用於定型模型,這是模型學習指派給每份文件一或多個類別的來源集合。 測試集是一個盲集,不會在定型期間 (而是只在評估期間) 引入模型。 成功定型模型之後,會用來從測試集中的文件進行預測。 根據這些預測,將會計算模型的評估計量。 建議您確定所有類別都已充分呈現在定型和測試集中。
自訂文字分類支援兩種資料分割方法:
- 從定型資料自動分割測試集:系統會根據選擇的百分比,在定型與測試集之間分割已標示資料。 系統會嘗試呈現定型集中的所有類別。 建議的百分比分割是 80% 用於定型,20% 用於測試。
注意
如果您選擇 [從定型資料自動分割測試集] 選項,則只會根據提供的百分比來分割向定型集指派的資料。
- 使用手動分割定型和測試資料:此方法可讓使用者定義哪些具有標籤的文件應該屬於哪個集合。 只有在您已在資料標記期間將文件新增至測試集時,才會啟用此步驟。
定型模型
若要從 Language Studio 內開始定型模型:
從左側功能表中,選取 [定型工作]。
從頂端功能表中選取 [開始定型作業]。
選取 [定型新模型],然後在文字方塊中輸入模型名稱。 您也可以藉由選取此選項來覆寫現有的模型,然後從下拉式功能表中選擇您想要覆寫的模型。 覆寫定型的模型是無法復原的,但在您部署新模型之前,不會影響已部署的模型。
選取資料分割方法。 您可以選擇 [從定型資料自動分割測試集],其中系統會根據指定的百分比,在定型集與測試集之間分割標記的資料。 或者,您可以使用手動分割定型和測試資料,只有在資料標記期間已將文件新增至測試集時,才會啟用此選項。 如需資料分割的詳細資訊,請參閱如何定型模型。
選取 [定型] 按鈕。
如果您從清單中選取 [定型作業識別碼],則會顯示側邊窗格,您可以在其中檢查此作業的 [定型進度]、[作業狀態] 和其他詳細資料。
注意
- 只有成功完成的定型作業才會產生模型。
- 根據標籤資料的大小,定型模型所需的時間可能需要幾分鐘到數小時的時間。
- 您一次只能執行一個定型作業。 除非執行中的作業完成,否則無法在同一個專案內啟動其他定型作業。
取消定型作業
若要在 Language Studio 中取消定型工作,請移至 [定型工作] 頁面。 選取您想要取消的定型作業,然後選取頂端功能表中的 [取消]。
下一步
定型完成後,您將能夠檢視模型的效能,以視需要選擇性地改善模型。 對模型感到滿意之後,您就可以部署該模型,使其可用於對文字進行分類。