共用方式為


使用 Language Studio 標記您的資料

資料標記是開發生命週期中的重要步驟。 在此步驟中,您會使用您在架構中定義的新實體來標記檔,以填入其學習的元件。 此資料會在定型模型時用於下一個步驟,以便讓模型從標記的資料中學習,以瞭解要擷取的實體。 如果您已經加上標籤資料,您可以直接將它 入專案中,但您必須確定您的資料遵循 接受的資料格式。 若要深入了解如何將已標記的資料匯入專案中,請參閱建立專案。 如果您的資料尚未標記,您可以在 Language Studio 中標記資料。

先決條件

您需要下列項目才能標記資料:

如需詳細資訊,請參閱專案開發生命週期

資料標記指導方針

在準備資料、設計結構描述並建立專案之後,您必須標記資料。 標記資料是很重要的,如此您的模型才知道哪些字詞會與您需要擷取的實體類型相關聯。 當您在 Language Studio 中標示資料 (或匯入標示的資料) 時,這些標籤會儲存在您已連線至此專案的儲存體容器中的 JSON 檔中。

當您在標記資料時,請記住:

  • 您無法在預先定型預先建置的實體時,為健康情況實體新增文字分析標籤。 您只能將標籤新增至您在架構定義期間定義的新實體類別。

如果您想要改善預先建置實體的召回率,您可以在 定義架構時新增清單元件來擴充它。

  • 一般而言,在資料被正確標記的情況下,被標記的資料越多將能導致越好的結果。

  • 標記資料的精確度、一致性和完整性是判斷模型效能的關鍵因素。

    • 精確標記:一律將每個實體標記為其正確的類型。 只包含您想要擷取的內容,避免標籤中出現非必要的資料。
    • 一致標示:相同的實體在所有文件中都應該有相同的標籤。
    • 完整標示:標示所有文件中實體的所有執行個體。

    注意

    沒有固定數目的標籤可保證您的模型會執行最佳效能。 模型效能取決於結構描述中可能存在的模糊性,以及已標記資料的品質。 不過,我們建議每個實體類型約有 50 個已標記的執行個體。

標記您的資料

依照下列步驟標記您的資料:

  1. 移至您在 Language Studio 中的專案頁面。

  2. 在左側功能表中,選取 [資料標記]。 您可以在儲存體容器中找到所有文件的清單。

    提示

    您可以使用頂端功能表中的篩選來檢視未標示的文件,以開始標示這些資料。 您也可以使用篩選來檢視以特定實體類型標記的文件。

  3. 從頂端功能表中的左側,變更為單一文件檢視,或選取要開始標示的特定文件。 您可以在左側找到您專案中所有可用的 .txt 文件清單。 您可以使用頁面底部的 [上一頁] 和 [下一頁] 按鈕來瀏覽文件。

    注意

    如果您為專案啟用了多種語言,您會在頂端功能表中找到 [語言] 下拉式清單,讓您可選取每個文件的語言。 多語系專案不支援希伯來文。

  4. 在右側窗格中,您可以使用 [ 新增實體類型 ] 按鈕,將其他實體新增至您在架構定義期間遺漏的專案。

  5. 有兩個選項可用來標記文件:

    選項 描述
    使用筆刷標記 選取右窗格中的實體類型旁的筆刷圖示,然後醒目提示文件中要以此實體類型標註的文字。
    使用功能表標記 醒目提示您要標記為實體的字詞,隨即出現一個功能表。 選取您要為此實體指派的實體類型。

    下列螢幕擷取畫面顯示使用筆刷的標記。

    顯示自訂具名實體辨識 (NER) 中提供標籤選項的螢幕擷取畫面。

  6. 在 [標籤] 樞紐下的右側窗格中,您可以找到專案中的所有實體類型,以及每個類別的已標記執行個體計數。 預先建置的實體將會顯示為參考,但您無法在預先定型時標記這些預先建置的實體。

  7. 在右側窗格的底部區段中,您可以將您正在檢視的目前文件新增至定型集或測試集。 根據預設,所有文件都會新增至您的定型集。 如需如何用於模型定型和評估的資訊,請參閱 定型和測試集

    提示

    如果您打算使用自動資料分割,請使用將所有文件指派到定型集的預設選項。

  8. 在 [分佈] 樞紐下,您可以檢視定型和測試集之間的分佈。 您有兩個檢視選項:

    • 執行個體總計,您可以在其中檢視特定實體類型的所有已標示執行個體計數。
    • 如果檔包含至少一個標籤的實例,則會計算每個檔的標籤。
  9. 當您加上標籤時,如果您的變更尚未儲存,則會定期同步處理您的變更,您會在頁面頂端找到警告。 如果您想要手動儲存,請選取頁面底部的 [ 儲存標籤 ] 按鈕。

移除標籤

移除標籤

  1. 選取您要從中移除標籤的實體。
  2. 捲動出現的功能表,然後選取 [移除標籤]。

刪除實體

您無法刪除健康狀態預先定型實體的任何文字分析,因為它們具有預先建置的元件。 您只能刪除新定義的實體類別。 若要刪除實體,請選取要移除之實體旁的刪除圖示。 刪除實體會從資料集中移除其所有標示的實例。

後續步驟

在標記資料完成後,您就可以開始定型模型,其將會根據您的資料學習。