共用方式為


如何使用自動標記進行自訂具名實體辨識

標記程序是在準備資料集時的重要部分。 由於此程序需要耗費時間和精力,因此您可以使用自動標記功能來自動標記實體。 您可以根據先前定型的模型或使用 GPT 模型,開始自動標記作業。 根據您先前定型的模型自動標記,您即可開始標記一些文件、定型模型,然後建立自動標記作業,以根據該模型為其他文件產生實體標籤。 使用 GPT 進行自動標記,您可以立即觸發自動標記作業,而不需任何先前的模型定型。 這項功能可節省手動標記實體的時間和精力。

必要條件

根據您已定型的模型使用自動標記之前,您需要:

觸發自動標記作業

當您根據您已定型的模型觸發自動標記作業時,每個資源的每月文字記錄上限為 5,000 筆。 這表示同一資源中的所有專案均套用相同的限制。

提示

文字記錄的上限計算方式為 (文件中的字元數/1,000)。 例如,如果文件有 8921 個字元,則文字記錄數為:

ceil(8921/1000) = ceil(8.921),也就是 9 筆文字記錄。

  1. 從左側導覽功能表,選取 [資料標記]。

  2. 選取頁面右側 [活動] 窗格底下的 [自動標籤] 按鈕。

    顯示如何觸發自動標記作業的螢幕擷取畫面。

  3. 根據您已定型的模型選擇 [自動標記],然後選取 [下一步]。

    螢幕擷取畫面顯示可供自動標記的模型選擇。

  4. 選擇定型的模型。 建議您先檢查模型效能,再將模型用於自動標記。

    顯示如何為自動標記選擇已定型模型的螢幕擷取畫面。

  5. 選擇您要納入自動標記作業的實體。 根據預設,會選取所有實體。 您可以看到每個實體的標籤總數、精確度和重新叫用率。 建議您納入效能良好的實體,以確保自動標記實體的品質。

    顯示自動標記作業應該包含哪些實體的螢幕擷取畫面。

  6. 選擇要自動標記的文件。 每個文件的文字記錄數目隨即顯示。 當您選取一或多個文件時,應該會看到選取的文字記錄數目。 建議您從篩選條件中選擇未標記的文件。

    注意

    • 如果實體已自動標記,但具有使用者定義的標籤,則只會使用並顯示使用者定義的標籤。
    • 您可以按一下文件名稱來檢視文件。

    顯示自動標記作業應該包含哪些文件的螢幕擷取畫面。

  7. 選取 [自動標記] 以觸發自動標記作業。 您應該會看到使用的模型、自動標記作業所含的文件數目、要自動標記的文字記錄和實體數目。 自動標記作業可能需要幾秒鐘到幾分鐘的時間,視您包含的文件數目而定。

    螢幕擷取畫面顯示了自動標記作業的檢閱畫面。

檢閱已自動標記的文件

當自動標記作業完成時,您可以在 Language Studio 的 [資料標記] 頁面中看到輸出文件。 選取 [檢閱具有自動標記的文件],以檢視已套用已自動標記篩選條件的文件。

螢幕擷取畫面顯示自動標記的文件

自動標記的實體將會以虛線顯示。 這些實體有兩個選取器 (核取記號和「X」),可讓您接受或拒絕自動標籤。

接受實體後,虛線會變更為實線,而且日後任何模型定型均會包含此標籤,成為使用者定義的標籤。

或者,您也可以使用畫面右上角的 [全部接受] 或 [全部拒絕],接受或拒絕文件中所有已自動標記的實體。

接受或拒絕標記的實體之後,請選取 [儲存標籤] 以套用變更。

注意

  • 建議您先驗證自動標記的實體,再接受這些實體。
  • 當您定型模型時,所有未接受的標籤都會遭到刪除。

螢幕擷取畫面顯示如何接受及拒絕自動標記的實體。

下一步