標記文字資料以訓練您的模型
在訓練模型之前,您需要使用您想要分類的類別來標記文件。 資料標記是開發生命週期的重要步驟;在此步驟中,您可以建立您想要將資料分類的類別,並使用這些類別標記文件。 此資料會在下一個訓練模型的步驟中用到,讓您的模型可以從標記的資料中學習。 如果您已經標示過資料,您可以直接將其匯入專案中,但您必須確定您的資料遵循已接受的資料格式。
在建立自訂文字分類模型之前,您必須先有已標記的資料。 如果您的資料尚未標記,您可以在 Language Studio 中標記資料。 已標記的資料會告知模型如何解讀文字,並且會用於定型和評估。
必要條件
在可以標記資料之前,您需要:
如需詳細資訊,請參閱專案開發生命週期。
資料標記指導方針
在準備資料、設計結構描述並建立專案之後,您必須標記資料。 標記您的資料很重要,可讓您的模型知道哪些文件會與您需要的類別相關聯。 當您在 Language Studio 中標記資料 (或匯入已標記的資料) 時,這些標籤會儲存在儲存體容器 (已連線至此專案) 的 JSON 檔案中。
當您在標記資料時,請記住:
一般而言,在資料被正確標記的情況下,被標記的資料越多將能導致越好的結果。
沒有固定數目的標籤可保證您的模型會執行最佳效能。 結構描述中可能模棱兩可的模型效能,以及已標記資料的品質。 不過,我們建議每個類別有 50 份標記的文件。
標記您的資料
依照下列步驟標記您的資料:
移至您在 Language Studio 中的專案頁面。
在左側功能表中,選取 [資料標記]。 您可以在儲存體容器中找到所有文件的清單。 請參閱下圖。
提示
您可以使用頂端功能表中的篩選來檢視未標記的檔案,以便開始標記這些資料。 您也可以使用篩選來檢視標記特定類別的文件。
從頂端功能表中的左側,變更為單一檔案檢視,或選取要開始標記的特定檔案。 您可以在左側找到您專案中所有的可用
.txt
檔案清單。 您可以使用頁面底部的 [上一頁] 和 [下一頁] 按鈕來瀏覽文件。注意
如果您為專案啟用了多種語言,您會在頂端功能表中找到 [語言] 下拉式清單,讓您可選取每個文件的語言。
在右側窗格中,將類別新增至您的專案,以便開始標記資料。
開始標記您的檔案。
您也可以使用自動標記功能來確保完整的標記。
在 [標籤] 樞紐下的右側窗格中,您可以找到專案中的所有類別,以及每個類別的已標記實例計數。
在右側窗格的底部區段中,您可以將您正在檢視的目前檔案新增至訓練集或測試集。 根據預設,所有文件都會新增至您的定型集。 深入了解定型和測試集,及其如何用於模型定型和評估。
提示
如果您打算使用自動資料分割,請使用將所有文件指派到訓練集的預設選項。
在 [分佈] 樞紐下,您可以檢視定型和測試集之間的分佈。 您有兩個檢視選項:
- 執行個體總計,您可以在其中檢視特定類別的所有已標示執行個體計數。
- 至少有一個標籤的文件 (任何文件只要至少包含一個此類別的已標示執行個體,就會計入)。
在標記時,您的變更將會定期同步,若是尚未儲存完成,將會有警告出現在頁面頂端。 如果您想要手動儲存,請選取頁面底部的 [儲存標籤] 按鈕。
移除標籤
如果您想要移除標籤,請取消選取該類別旁邊的按鈕。
刪除或類別
若要刪除類別,請選取您要移除之類別旁的刪除圖示。 刪除類別將會從您的資料集中移除其所有已標記的實例。
下一步
在標記資料完成後,您就可以開始定型模型,其將會根據您的資料學習。